酷米网专注服务于域名交易,网站交易,自媒体交易,商标交易
  • 域名
  • 网站
  • 新媒
  • 商标
发布交易

最新资讯

  • 让排名在百度更稳定

    <p>一.了解百度反SPAM体系</p><p>百度人工干预严重,但一般是采取先系统检测后人工。只要大家做正规站问题不大。就怕界面不怎么样。内容也不好就麻烦了</p><p>除了了解百度给站长的建议外,了解anti-spam系统可以让你有效远离一些擦边blackhat以及应对百度SEO。</p><p>采集在中文领域泛滥,而很多人又不得不采集来保持站点更新。</p><p>注意刘建国提到的一部分理念,虽然时间比较久远了,不过还是有参考价值。百度反SPAM的理念以及初衷等,如果你不了解百度的Anti-SPAM理念,在处理一些穆棱两可的问题时就会发愁了。二.网站操作中的细节</p><p>关键词:避免商业性或敏感关键词【定位必须除外】</p><p>meta:首页、栏目、专题、重点页面设置meta,其他页面只设置title,系统生成及大量页面都有,很可能成为百度针对SEO站点的检测目标,还可节约工作量。</p><p>更新:研究你网站所在领域的更新频率,企业站达到门户站的更新,博客每天更新N篇,资讯站特定时间更新都是不正常的。</p><p>友链:控制数量,别一次性交换完毕,近朱者赤,近墨者黑。</p><p>导链:重要页面不要导到有问题站点,内页无所谓,新浪、百度没有有多少人发垃圾链?想想就知道了。</p><p>外链:了解网站发展轨迹,一般是新建立时会获得不少链接,中期是低迷期【高速发展正规站网站或比较新领域的站点例外,因为百度没有参照目标】,做大了你就不用继续看了。</p><p>布局:参照百度以及排名稳定靠前网站的布局情况。</p><p>百度广告与统计:如果商业性质不严重及正规操作,推荐用百度的服务,因为更利于百度了解你,垃圾站就不要自己找曝光了。</p><p>同时对于大量应用的快速秘籍尽量远离,公布的那一刻就是惩罚的开始。</p><p>总体原则:低调,避免过度,不一步到位,瞒天过海。</p>...
    2020-06-28 17:13:57
  • 百度 反垃圾网站的若干问答

    1:百度降权,封杀站点的标准是什么9238:第一,<u>http://www.baidu.com/search/spam.html</u> 是百度公开和唯一的标准,百度的反spam一直依此处理。就像所有其它搜索引擎一样,百度不能公开所有反spam细节,已公开的部分已经是搜索引擎中算很透明的了。第二,在百度搜索引擎中对某些站点降权或去除的目的主要是反spam(或者叫反垃圾),反spam的唯一目的是提高用户搜索体验。百度反spam对所有网站一视同仁,不会因为任何网站是百度的客户或合作伙伴而降低惩罚标准,也不会因为任何网站与竞争对手合作或停止与百度的合作而加重惩罚。在百度中,有权限参与网站降权处理的只有了了几人,他们每一个都是极端的搜索爱好者,他们也有完全的自主权和独立性,不用关心处理哪个网站会影响流量或收入,不用给任何部门、任何同事或任何网站面子,他们唯一关心的是用户搜索体验。第三,搜索引擎优化行为对用户体验的破坏程度是线性分布的,百度反spam是机器自动识别和人工识别互补的体系。既然有识别就有判断的阈值,无论是自动识别还是人工识别,无论把阈值定在哪里,那些阈值附近的优化行为判断总是容易引起争议的。在所有支持中文的搜索引擎中,百度也许已经是反spam做得最努力的,但中国网民在百度的搜索体验仍然每天被spam严重破坏1500万次以上(spam网页出现在搜索结果前10名)。因为中文spam面广量多,因为百度反spam打击也面广量多,即使阈值附近的争议网址只占很少的几个百分点,也可能导致每天有几十个网站有资格对于被惩罚表示异议,这不是百度愿意看到的,但现实点说,无法指望短时间内大幅度减少这种问题,也无法指望能人工一一回复每个提出异议的网站。另外,对于加入百度搜索联盟并且达到一定搜索量的网站,我们有一个优待政策:在发现自己被降权后可以申请立即复查一次,如果复查发现网站上已没有spam 行为,则可以安排尽快取消降权。但这个权利只能用一次,一旦该网站在例行检查、网友举报、或不定期复查中被再次发现spam,那么无论谁也救不了它了。caoz:hao123的发展思路是什么?第一,如果想加入新站点,目前是什么政策?据说收费了?费率多少?第二,以前被收录的站点会不会有政策处理上的变化?这是他们很关心的问题。9238:详细的发展思路是商业机密,我不能在此公开。但可以回答你一个具体的问题,所谓hao123已改为收费登录那是假的,每个频道只是卖少量广告(百度对广告的控制极严,没有在hao123原有基础上增加任何flash或banner,每个频道广告链接原则上不超过5个,不达到一定质量要求的网站即使广告也不卖给它,负责hao123用户体验的员工对广告有一票否决权),但现在肯定没有全面收费,今后的一段时间内也没有这个打算。以前被收录的站点不会有处理策略的变化,hao123的用户体验或者被收录网站的质量是挑选和更新的唯一标准。caoz:百度mp3搜索的策略与mp3音乐站长群的矛盾如何化解9238:迄今为止百度的mp3信息几乎都是从百度的网页库中提取出来的,而百度的spider一直遵守国际通行的robots协议,不愿意被百度收录mp3信息的站长只要写一句robots协议就能阻止百度spider再收集信息(以前收集的信息需要等一段时间被更新后才消失),在百度的用户帮助信息中提供了详细的robots协议写作教程:<u>http://www.baidu.com/search/robots.html</u>caoz:不知道百度对故意重复的定义是什么,比如donews首页的标题,有大量的IT重复出现,是否算做故意重复呢?又比如前几天突然被降权的 9flash.com。他在页面里所重复的flash关键词,是不是属于故意面向搜索引擎做的呢?我们可以这么测试一下,把flash电影和 电影两个词比较,可以等同吗?不等同说明flash这个词在这里,是必要修饰词,把flash音乐和音乐两个词比较,可以等同吗?不等同说明 flash这个词在这里,是个必要的修饰词,下面的不用解释了,我觉得这个其实很容易理解,如果在对方站点里出现的某些关键词在该站点的内容和连接表述中,属于必要修饰词,并且该关键词所出现的段落和连接有其正确的表述价值,那么这种重复,就不能说是故意重复,我不知道百度认同否?9238:反spam的唯一目的是提高用户搜索体验。我们不会为了反spam而反spam,不会对所有违反规则的网站施加相同的惩罚,关键在于,用户查看某个关键词的搜索结果时,你的网站对用户是否有价值、这个价值所否值得你排在那个位置?即使donews对IT重复了,如果在IT这个关键词的搜索结果中没有排在非常不该排的位置,没有对用户搜索体验造成明显破坏,那么理想状态下donews仍不会受惩罚。9flash如果只对flash关键词优化,那么不太容易受到惩罚,但如果对电影关键词优化,那么很容易受到惩罚。明白的说,网站spam与否是网站的自由,百度无权干涉也没兴趣理睬,但如果哪个网站的行为或效果破坏了中国网民在百度搜索的体验,那么百度也有升级算法、降权、直至拒绝收录这个网站的权利和兴趣。其实各位站长完全没必要把百度怎么想当一回事,站长们只要把百度的搜索用户当一回事就行了,只要你的网站对用户有搜索价值,百度急着升级算法把你排到合适的位置都来不及呢,哪里敢把你降权什么的呢。caoz: 故意制造大量链接指向某一网址的行为。我觉得这个条款简直可以让所有的站点纳入作弊的范畴。百度有个联盟,把代码投放到千万个站点上,算不算故意制造大量连接指向某一网址?这个是个玩笑,但是事实是,所有的站长,特别是那些没有能力做大幅度广告预算的个人站点,他们的网络推广途径的重要步骤,就是和大量的不同站点交换连接,交换连接,不就是故意制造大量链接指向某一网址的行为吗?这是其一。如果我做了一个站点,我又申请了blog,我又申请了donews,我又申请了什么什么,我又泡论坛,那么我肯定会把我的站点连接放在每个我能放网络连接的地方告诉大家,比如论坛签名档,比如blog的连接,比如donews个人介绍,等等,有没有搜索引擎我都会这么干,站长怎么发展流量?坐等吗?这是其二。商业公司要发新闻稿,公关稿,网络时代了,网络媒体也很重视,一个稿子发新浪搜狐网易千龙天极等等等等,每个稿子上都会有这个公司的连接,又是故意制造大量连接指向同一网址。这是其三。请百度的朋友解释一下,怎么叫不故意制造大量连接呢,做好站点,放在那里,等别人连接或者干脆不要外部连接,也许只有国家政府机关的网站会这样。9238:上一个回答也能用在这里吧?谁爱做链接就做吧,但别针对与自己网站内容不相关的关键词做,即使相关的关键词,也别排到特别不合适的位置去。其实,百度能自动过滤不少可疑链接,所以某些制造链接的行为根本不会受到惩罚,因为对排名不会有任何影响。caoz:有链接指向作弊网站的网站,负连带责任,也会被认为是作弊这个最狠,简直是连坐,大清朝倒台后好象就不兴这个了。不过互连网本身就是由大量的连接组成的,这个方式搞下去,恐怕是人人自危吧,我这么说吧,A站作弊(证据确凿,验明正身),B站上不巧给A站做了连接,那么B站被认为是作弊,那么C站上偏偏也给B站做了连接,得,既然B站已经被认定也是作弊,道理同样,C站指向作弊站点,也是作弊,D站又有C站连接,惨了,这么连下去,和百度的Spider没啥区别(相当于倒过来爬);洪桐县里没好人,互联网上没好站,大家彼此彼此。其实百度真要这么搞也可以,每天公布一个封杀作弊站点列表,并给相关连接站点一天的取消连接的准备期,这样站长们就会每天上来看谁是最新的倒霉蛋,看看在不在自己站点的友情连接里,并且用最短的时间和对方划清界限!消除连接,以免殃及自身不是。9238:这条规则,是针对某些拥有一大批域名互相链接作弊的人。从百度中降权或消失对于每个中文网站都是大事,我们不会轻易的批量惩罚的,事实上只有在对某些网站之间的关系相当有把握时才会激活这个惩罚规则,而且,虽然批量链接作弊是机器自动识别的,但识别出的每一个网站在被正式惩罚前都会经过人工验证,几乎不可能误杀。普通的友情链接再多也不会受惩罚,但仅限链接所用文字是合适的网站名,如果用关键词做链接,则很容易被识别为spam。...
    2020-06-28 17:13:56
  • 搜索引擎重复网页发现技术分析

    中科院软件所作者:张俊林一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Models and Algorithms for Duplicate Document Detection 1999年]将内容重复归结为以下四个类型:1.如果2篇文档内容和格式上毫无差别,则这种重复叫做full-layout duplicate。2.如果2篇文档内容相同,但是格式不同,则叫做full-content duplicates3.如果2篇文档有部分重要的内容相同,并且格式相同,则称为partial-layout duplicates4.如果2篇文档有部分重要的内容相同,但是格式不同,则称为partial-content duplicates近似重复网页发现技术就是通过技术手段快速全面发现这些重复信息的手段.如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。发现重复或者近似网页对于搜索引擎有很多好处:1. 首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省一部分存储空间,进而可以利用这部分空间来存放更多的有效网页内容,同时也提高了web检索的质量。2. 其次,如果我们能够通过对以往搜集信息的分析,预先发现重复网页,在今后的网页搜集过程中就可以避开这些网页,从而提高有效网页的搜集速度。有研究表明重复网页随着时间级别不发生太大变化,所以这种从重复页面集合中选择部分页面进行索引是有效的.3. 另外,如果某个网页的镜像度较高,也就预示着该网页相对重要,在搜集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋予它较高的权值。4. 从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个相同页面,这样可以有效的增加用户的检索体验.因而近似镜像网页的及时发现有利于改善搜索引擎系统的服务质量。二. 基本处理流程通过分析现有技术,可以归纳出以下几个解决该问题的核心技术点,每个不同的技术基本上是由这几个技术点构成,无非是具体采纳的技术不同而已:1. 文档对象的特征抽取:将文档内容分解,由若干组成文档的特征集合表示,这一步是为了方面后面的特征比较计算相似度.2. 特征的压缩编码:通过HASH编码等文本向数字串映射方式以方便后续的特征存储以及特征比较.起到减少存储空间,加快比较速度的作用.3. 文档相似度计算:根据文档特征重合比例来确定是否重复文档.4. 聚类算法:通过叠代计算算出哪些文档集合是根据相似度计算是相近的;5. 工程化问题:出于海量数据计算速度的考虑,提出一些速度优化算法以使得算法实用化.我们可以从几个不同的角度对于现有的方法进行分类:l 按照利用的信息,现有方法可以分为以下三类1.只是利用内容计算相似2.结合内容和链接关系计算相似3.结合内容,链接关系以及url文字进行相似计算评价:现有绝大部分方法还是利用文本内容进行相似识别,其它两种利用链接关系以及URL文字的方法还不是很成熟,而且从效果看引入其它特征收效并不明显,所以从实际出发还是选择利用内容进行相似计算的算法. l 按照特征提取的粒度现有方法可以分为以下三类1. 按照单词这个级别的粒度进行特征提取.2. 按照SHINGLE这个级别的粒度进行特征提取.SHNGLE是若干个连续出现的单词,级别处于文档和单词之间,比文档粒度小,比单词粒度大.3. 按照整个文档这个级别的粒度进行特征提取评价:目前这个领域里面很多工作借鉴类似于信息检索的方法来识别相似文档,其本质和SHINGLE等是相同的,都是比较两个文档的重合程度,但是区别是SHINGLE是将若干单词组成片断,粒度比较大,而信息检索类方法其实是用单词作为比较粒度,粒度比较小,粒度越大计算速度越快,而粒度越小计算速度越慢,所以信息检索类方法是不实用的,而且对SHINGLE的改进以及新提出的方法的发展趋势也是粒度越来越大,这样才能解决实际使用中速度的问题。粒度最大的极端情况是每个文档用一个HASH函数编码(比如MD5),这样只要编码相同就说明文档完全相同,但是粒度太大带来的问题是对于细微的变化文档无法判别,只能判断是否完全相同,至于部分相同以及相同的程度无法判断.所以,现有方法也可以从以下角度分类:粒度。最小粒度:单词;中等粒度:SHINGLE;最大粒度:整个文档;可见SHINGLE类方法其实是在速度和精确程度上的一种折中方法。可以探讨不同粒度的效果,比如以句子为单位进行编码,以段落为单位编码等不同粒度的编码单位,还可以考虑动态的编码:首先以自然段落编码进行判别,如果发现部分相似,然后针对不同的部分再以细小粒度比如句子甚至单词级别的比较 所谓SUPER SHINGLE就是将粒度放大得到的。粒度越大,好处是计算速度越快(对于MD5整个文档来说,每个文档一个HASH编码,然后排序,将相同的找出,是速度最快的),缺点是会遗漏很多部分相似的文档;粒度越小,好处是招回率比较高,缺点是计算速度减慢。l 按照去处重复的级别进行分类,去处重复三个级别:1. 镜像站点:根据站点内相似页面多少进行判断.实现相对简单.2. 完全相同网页:实现相对简单并且速度比较块,可以根据页面MD5整个文档来说,每个文档一个HASH编码,然后排序,将相同的找出.3. 部分相同页面:实现相对负责,目前大多工作在这个部分.评价:三个级别应该从最高级别到较低级别分别进行,因为有很大比例(22%)的内容是完全相同的,这个部分实现起来相对简单,而且如果这个部分已经识别,那么针对部分相同页面的计算量会大量减少,这样应该可以减少总体的计算时间..l 按照去重的时机,可以分为以下三类(1) 抓取页面的时候去重,这样可以减少带宽以及减少存储数量;(2) 索引之后进行去重;(3) 用户检索时候进行再次去重;增加准确性,耗费时间;评价:可以结合三个时机某个或者所有都结合,对于GOOGLE来说,很可能是结合了2和3两种方法, GOOGLE的很多思路建立在后台计算和实时计算联合,比如相关度计算,后台计算重要性得分,在用户输入查询后得到初始数据集合,然后根据这个数据集合之间文档的关系重新调整顺序;比如去处重复,首先在后台进行重复发现,为了增加精确度,在返回查询结果后,在返回文档集合内,又根据描述部分重新计算哪些文档是重复的,这样增加了准确性,估计其它很多相关算法也采取这种联合策略,为了加快速度,实时计算部分可以和CACHE部分结合进行计算。l 按照不同的特征选择方法,有几种方式:1. 完全保留特征2. 特征选择,设置不同的选择策略来保留部分特征,抛弃其它特征a. 比如对于单词级别的抛弃权重小的单词(I-MATCH)b. 对于SHINGLE方法,可以保留部分SHINGLE抛弃其它SHINGLE(1) 一种是保留FINGERPRINT第I个位置为0的SHINGLE,其它抛弃;(2) 一种是每隔I个SHINGLE进行抽样保留,其它抛弃;这两种得到的文档SHINGLE数目是变长的;(3) 一种是选择最小的K个SHINGLE,这种得到定长的SHINGLE数目;(4) 用84个RABIN FINGERPRINT函数对于每个SHINGLE进行计算,保留数值最小的84个FINGERPRINT,这个方法是定长的.对于SHINGLE类方法来说,还可以区分为:定长的和变长的block切分算法定长算法:速度快,但是如果内容有稍微变化(比如插入或者删除一个字符或者单词),其影响会比较大。比如Shingle及其改进方法(Super-Shingle),CSC及其改进方法(CSC-SS)。变长算法:速度相对慢,但是内容变化只是造成局部影响。比如CDC,TTTD等算法。评价: 为了提高计算速度,一种策略是在特征提取的时候,抛弃部分特征,保留部分特征,通过减少特征数目来加快计算速度.另外一个策略是粒度尽可能加大,比如SUPER-SHINGLE,MEGA-SHINGLE甚至是文档基本;为了提高算法效果,策略是采取变长的内容切割算法比如CSC算法等;这三种策略是方法加快速度和准确性的发展方向.一些初步的结论:1. 对于信息检索类型的方法来说,由于其特征选择是基于单词的,所以计算速度是个根本的问题,所以基本上是不实用的;2. 从利用的信息来看,实用的系统还是应该立足于只是利用文本内容来判别相似性,排除掉利用链接信息等方法;3. 从算法特征抽取粒度来看,应该立足于SHINLGE类的粒度甚至是文档级别的粒度算法;而SHINGLE类别的算法又应该优先选择抛弃部分特征的算法以及变长的算法;4. 从去重级别角度考虑,应该将完全相同的文档和部分相同的文档识别分开进行,而且首先进行完全相同文档的识别,这样会有效加快计算速度;5. 从去重时机考虑,可以考虑结合后台去重以及实时去重,这样增加去重的效果;6. 从压缩编码方法来看,最有效的方式可能是RABIN FINGERPRINT变体算法;7. 从聚类方法来看,最有效的方式可能是UNION FIND算法,目前比较快的算法基本上都采用这个方法;8. 从整体方法选择来看,应该选择改进的SHINLGE方法,在此基础上进行进一步的改进;三. 方法效率比较1. SHINGLING 方法:时间效率O((mn)2) ,其中 m是SHINGLE的大小,n是文档数目.计算时间为:3千万文档,10台机器算一天,或者一台机器算10天;2. 改进的SHINGLE方法(On the Evolution of Clusters of Near-Duplicate Web Pages.):时间效率接近于线性的O(n),计算时间为:1亿5千万网页计算3个小时;3. IMACH方法: 最坏的情况下时间复杂度是(O(d log d)),速度比较快4. BLOOM FILTER方法:10k数据花费大约66ms;从计算效率考虑,速度排序为:1. 改进的SHINGLE方法;2. IMATCH方法;3. BLOOM FILTER方法;4. SHINGLE方法;四. 目前代表性解决方法分析1. Shingle方法(1997年)a. 特征抽取Shingle方法:所谓Shingle类似于自然语言处理中常用的N-GRAM方法,就是将相互连续出现窗口大小为N的单词串作为一个Shingle,两者的不同点在于Shingle是这些串的集合,相同的串会合并为一个,而N-GRAM则由于考虑的是文本线性结构,所以没有相同合并步骤.每个Shingle就是文档的一个特征,一篇文档就是由所有这些Shingle构成的.b. 压缩编码40 bit长度 Rabin FingerPrint方法;至于存储方式则类似于传统信息检索领域的倒排文档技术,存储&lt;Shingle,ID&gt;信息以记录某个特征在哪些文档中出现过,然后进一步计算文档的相似性;c. 文档相似度计算(1) 相似度:任意两个文档A和B,相似度指的是两者相同的Shingle数目占两者Shingle数目总和的比例;(2) 包含度:指的是两者相同的Shingle数目占某篇文档Shingle数目的比例;d. 优化措施:(1) 分布计算然后合并;(2) 抛弃超高频出现Shingle,分析发现这些Shingle是无意义的片断;(3) 完全相同文档保留一份进行聚类;(文档是否完全相同根据压缩编码后数值是否相同判断)(4) Super Shingle:关于Shingle的Shingle,从更大结构上计算相似性以节省存储空间;2. Google可能采取的方法a. 特征抽取类似于Shingle方法,不同点在于:对于每个单词根据HASH函数决定属于哪个LIST,这样每个文档由若干个这样的LIST构成;b. 压缩编码FingerPrint方法;对于组成文档的LIST进行FingerPrint方法计算; c. 文档相似度计算编辑距离(Edit Distance):如果两个文档有任何一个FingerPrint相似就判断为内容接近.d. 聚类方法首先对&lt;FingerPrint,Doc ID&gt;按照Doc ID进行排序;然后采取Union Find聚类方法,聚类结果就是相似文档集合;e. 优化措施3. HP实验室方法(2005年)a. 特征抽取基于内容的Chunk方法:变长而非定长的Chunk算法(TTTD算法);将一篇文档分解为若干个长度不同的Chunk,每个Chunk作为文本的一个特征.与shingle方法相比这种变长Chunk方法能够增加系统招回率;b. 压缩编码128bit MD5 HASH方法;每篇文章压缩编码后由若干 &lt;Chunk 长度, 定长HASH编码&gt;二元组构成;c. 文档相似度计算(1) 构建所有文档和Chunk构成的二分图;(2) 找到文档A包含的所有CHUNK,计算这些CHUNK还被哪些其它文档包含;(3) 计算这些文档和A的相似性;d. 聚类方法:Union Find 算法e. 优化措施:Bipartite 划分,本质上是将大规模数据分成小规模数据进行识别然后再合并结果.相当于分布计算;4.bloom filter(2005年)(1).特征抽取方法基于内容的语块(Content-defined chunking CDC):CDC将文档切分为变长的内容片断,切分边界由rabin fringerprint和预先制定的maker数值匹配来进行判断。(2)编码(构造 bloom filter集合元素)对于切分的片断进行编码。bloom filter的编码方式如下:整个文档是由片断构成的,文档由长为m的二值数组表示。在将一个元素(内容片断)进行编码插入集合的时候,利用k个不同的hash函数进行编码,每个hash函数设置m个位置的某个位置为1。这种技术以前主要用来进行判断某个元素是否被集合包含。(3)相似度计算方法bloom filter方法:对于两个已经编码的文档(两个长度为m的二值数组),通过bit逻辑运算AND计算,如果两者很多位置都同时为1,那么两个文档被认为是近似的。(4)优势1.文档编码形式简洁,便于存储。2.由于计算相似性是BIT逻辑运算,所以速度快。3.相对Shingling 方式来说便于判断文档包含关系。(某个文档包含另外一个短小的文档)5.内容+链接关系(2003年)1.特征抽取方法这个方法在抽取特征的时候同时考虑了文档的内容因素以及链接关系因素。内容因素:通过Random Projection技术将文档内容从高维空间映射到低维空间,并且由实数表示,如果两个文档映射后的数字越接近则表明两者内容越相似。链接因素:通过考虑类似于PAGERANK的连接关系,将某个网页的内容因素计算获得的分值通过链接传播到其他网页(传播关系见下列公式),多次叠代计算后得到每个页面的链接得分。2.相似度计算方法每个文档由二元组&lt;RP,HM&gt;构成,RP代表内容部分的数值,HM代表链接关系代表的数值。如果两个文档每个项之间的差值都小于指定值,则判断两个文档是相似的。3.效果只采取内容精度达到90%,两者结合精度达到93%。从中看出,链接的作用并不明显。这可能跟这个方法的链接使用方法有关,因为通过链接计算的还是内容的情况。6.I-Match方法(2002年)(1)I-Match不依赖于完全的信息分析,而是使用数据集合的统计特征来抽取文档的主要特征,将非主要特征抛弃。输入一篇文档,根据词汇的IDF值过滤出一些关键特征,并且计算出这篇文档的唯一的Hash值,那些Hash值相同的文档就是重复的。(2)使用SHA1作为Hash函数,因为它的速度很快而且适用于任何长度。SHA-1生成一个20-byte 或者160-bit 的hash值并且使用一个安全的冲突消解算法,使得不同的标志串(token streams)生成相同的hash值的概率非常低。.把&lt;docid, hashvalue&gt;元组插入树结构的时间复杂度是(O(d log d)),其他的如检索数据结构(hash表)需要(O(d))。对重复(duplicate)的识别是在将数据插入hash数组或是树结构中进行的,任何的hash值的冲突就表示检测到一个重复内容。(3)最坏的情况下时间复杂度是(O(d log d)),速度比较快。...
    2020-06-28 17:13:56
  • 免费网站推广诀窍 多干体力活儿

    一个网站把SEO和内容做到极限后,想要在流量上有更大的突破,方法无非有两种:一种是出钱,通过在知名网站包广告等形式,让别人给你带流量;另一种是不出钱,靠自己的勤劳和智慧挣流量。今天,吴熠博客深入研究的课题是:不出钱,靠自己的勤劳和智慧挣流量。      一、通过干体力活儿尝到推广甜头的实践经验   先介绍两个兄弟:牟长青,百度中输入网站推广方案排名第二的博客站长;卢松松,半年做博客流量过百万的优秀80后。   卢松松博客是纵多独立博客中最有潜力的博客之一,牟长青在他的个人网站谈到:论坛推广,账号越多越好。比如我以前做百度贴吧的时候,有200多个ID,专门用了一个文档记录账号名。为何卢松松的博客评论会这么高,最大的原因就是,他的博客主要就是依靠评论别人的博客起来的。在这半年的时间卢松松在15000个独立博客留过评论,15000个多么恐怖的数字,说实话,让我收集15000个博客都很难,更别说去15000个博客留言评论了。   就吴熠的个人博客而言,建博三个月来,除搜索引擎外,通过贴吧发贴、博客评论、发布源码三种方法,每天能带来近300IP的流量,很少,原因有二:一则属业余站长,专业技术有限;二则做博客只为兴趣,打发8小时以外的时间,没出过钱,也没精力干多少体力活儿(说白了,也就只干了日挣300IP的体力活儿,收入300IP已经很公平了)。   二、通过干体力活儿推广网站的启示   1.找准地方要流量。如果决定在贴吧或论坛推广网站,就要学会用虚张人气和延伸触角向别人要流量:一是虚张人气。注册多个ID,自己发贴自己回贴;手动或用软件自动刷新自己发的贴子;将帖子添加到收藏夹,每天上班回一次,将自己的帖子顶到最前面(适合百度贴吧);虚张人气的目的是靠群体的拉动作用吸引别人点击网站链接。二是延伸触角。每天回复几百个别人发的与自己网站主题相关的帖子,说不定会带来几千个流量。   这样的方法是没有上限的,带来的流量也是没有上限的(通过发贴每天挣20000-30000IP大有人在)。不过要面临因内容太显眼(广告味儿太浓)被封ID(IP)的风险。养成及时清除电脑COOKIES或重新连接宽带以换IP的习惯能降低风险。   2.你来我往引流量。这点对个人网站或博客的推广很有用,卢松松博客就是成功的典型。可以自己做一个类似网址之家的页面,将自己要去评论或访问的网站登记上并不断添加更新,每天到这些网站逛一下并留下评论或留言以求回访。这样既可以博览,又可以在留言或评论中训练自己的表达和分析能力,可谓一举多得。   3.发布源码得流量。如果你会一些ASP、PHP、JS等编程技巧,可以做一些小的实用程序在源码网上发布并附上自己的链接,这样得来的流量既没有要的多劳也没有引的多思,可谓一劳永逸。比如我在各大源码网站先后发布了《新手留言簿》、《简易友情链接管理系统》、《新手博客系统简化版》、《建站网址之家源码》,每天都能带来稳定的流量。   一句话,免费网站推广,突破体力极限也就能突破流量极限。...
    2020-06-28 17:13:55
  • SEO 准确的进行关键词的选取

    如何准确的进行关键词的选取 从网站整体的关键词选取来考虑,网站首页除了突出品牌及唯一性,不宜设置相关的业务关键词(这里说的不包括销售特定产品的小型网站)。 对于网络编辑来说,一个网站的首页及频道页其实都已经是老早就设定好的,需要我们编辑修改的时候并不多。但是,与一个大型网站的海量数据相比,我们要做的事情还有好多好多。具备敏锐的关键词分析能力,是我们网络编辑在完善网站血肉中所不可缺少的技能。如何对关键词进行分析呢?其实我们只要从以下两个方面来考虑就可以了。 关键词的选择主要分为两种情况。一是根据内容确定关键词,二是根据关键词来筛选内容,这两种情况正好是相逆的。 根据内容确定关键词。当我们根据某一事件确定要做一系列的跟踪报道的时候,首先我们就要抓准事件的关键词。 下面拿一个具体的例子(力拓案)来给朋友们进行说明。从最初的力拓铁矿石谈判这个事件开始跟进,围绕力拓铁矿石谈判这个事件主要关键词,我们要能够分析出人们可能感兴趣和发生搜索的相关词、长尾词。因此,力拓公司、力拓集团等涉及到事件当事方的介绍,是我们需要完善的本系列内容的一个部分。另外主关键词的相关长尾词也是我们第一步就需要做好的,比如:力拓铁矿石、铁矿石谈判、09铁矿石谈判、力拓公司铁矿石等相关长尾关键词,我们要通过不同的文章将不同的关键词尽量都照顾到。随着事件的发展,我国中断同力拓的谈判,并开始对涉及到力拓铁矿石谈判的可疑环节进行调查。这个时候我们对突发事件的敏感度应该提升,在国际国内高度注视下,这个事件的关注度会直线飙升。那么这时我们需将这个事件的各方背景、数据及影响一一进行更深入的分析,将事件的立体的呈现给受众(网民),让网民和我们一同进行事件的剖析。这时我们的内容应该围绕:力拓铁矿石价格、力拓铁矿石年产量、力拓铁矿石产量、力拓铁矿石储量、力拓公司铁矿石产量、力拓铁矿石粉矿等关键词组织信息及文章,另外和事件有关的侧面信息也需要整理和收集,比如:日本与力拓铁矿石、日本与力拓谈判价格、巴西铁矿石谈判等关键词相关信息。随着力拓事件进一步升级,中国政府以进行经济间谍犯罪罪名逮捕几名力拓中国区员工。力拓事件也就成了名副其实的力拓案件,所以这个时间我们要将信息进一步完善,针对新的升级关键词:力拓案、力拓间谍案、力拓间谍门、力拓间谍、力拓间谍事件、力拓门泄密事件等进行内容整理和跟进报道。在力拓事件的最后,力拓事件始末、力拓事件的评论、力拓事件损失、力拓间谍事件始末,我们要围绕这些关键词为这一系列的报道画上圆满的句号。具体的单独页面优化前面已经讲过,这里只是分析下关键词的选择方法。 其实,我们在选这些关键词的时候只要遵循以下几个准则就可以准确的把握一个内容的关键词。第一,我们选的关键词一定是用户会用它来搜索的词语或短语。第二,我们选的关键词一定是用户最可能用来进行搜索的词。第三,我们选择的关键词不能是宽泛且没有任何特指的词。第四,我们选的关键词是内容中所重点讨论的中心。 根据关键词来筛选内容其实正好和前面根据内容确定关键词是相逆的。当我们确定要对某一主要关键词进行内容制作的时候,首先要将我们需要涉及到的关键词全部列出来,然后将类似刚才那个步骤返回去执行,筛选出最合适于我们关键词的内容。这些内容要全面,寻找各种事件来丰富和满足我们列出的关键词的需求。...
    2020-06-28 17:13:54
  • 网站专题制作过程中SEO优化技巧

    <p>对于网络编辑来说,经常需要根据不同的选题选材来制作相应的专题出来,这也成了网络编辑的必备技能。但是,目前我们的编辑在制作专题时只从专题的内容及页面美观入手,往往忽略了对这个专题的SEO优化。虽然推广专题中,SEO只是一项而并非全部,但如果没有SEO的概念,所做的推广就总感觉缺少了精髓。这一节里面,天刃为大家从专题制作中的代码优化、内容挑选、版块布局等方面一一进行简单阐述。</p><p>代码优化方面:目前网络编辑朋友们做专题追求的主要有两方面,一是内容,二是美观。虽然这样的要求无可厚非,但往往在追求美观时采用了大量的高像素图片、flash、可以产生特殊效果的高级语言、以及一些为内容考虑的iframe嵌套。这样一来,虽然整个专题生动漂亮,但其实给搜索引擎爬虫的爬取带来了很大的困难,大量的高像素图片及flash的使用使整个专题页面臃肿不堪,用户能够承受一个页面打开时间的耐心一般不会超过3S,搜索引擎的爬虫也一样,当长时间爬取不完整个页面时,很有可能就会放弃对该页的爬取。所以,我们在设计专题网页的时候要尽量避免使用太多的flash,大块图片也最好用切片工具全部切成小图,以减少加载时间。另外,iframe在页面的使用,对于搜索引擎来说新一个区别于该页面的新的页面,所以无论你把这个iframe如何优化也和这个专题页面无关。有时为了使专题更活泼,可能会运用大量的高级语言,搜索引擎爬虫对这些语言是不可识别的,所以页面中大篇幅出现这样的代码对搜索引擎很不友好。解决方法是,将页面中使用的高级语言全部写到相应的.JS文件里,在需要的地方直接调用就可以。</p><p>版块布局和内容挑选方面:经常制作专题的编辑朋友,应该很多都会用CSS+DIV。这里的布局其实是针对代码来说的,在页面上我们会把专题分为几大块,也许在页面上由于内容的需要布局已经固定,那么在代码里我们要按照我们的优化思路来安排各块的顺序。有的朋友有个习惯,会把每个块的标题都放到图片里,这个习惯是必须要改的,因为爬虫是读不懂图片上的文字的。另外,对于专题内容的挑选,这里拿个小例子说明一下。比如我们要制作一个巴克莱亚洲杯的专题,每日赛程表是必须要有的,比赛战报需要有,赛事看点需要有,各方评论需要有,精彩进球需要有,这样基本确定几个大的版块,然后我们来确定在代码里各版块的顺序,信息更新速度快的版块尽量放到左上部分,SEO价值度低并没有搜索需求的版块靠下放置(这里说的位置是指代码中的div顺序)。除此以外,各版块标题的撰写都要围绕整个专题的主要关键词来拓展长尾词,达到呼应专题中心的目的。对于网站中和专题内容相联系的终极页页面,都要添加链向专题页的链接,并且链接文字要围绕主要关键词来撰写。在专题的路径放置方面,最好不要超过三层,一般类似HTTP://域名/分类名/专题/ 或直接在域名下建立一个专题分类,这样就可以将地址直接写成HTTP://域名/专题/ ,这里需要注意的是,在专题放置的时候必须考虑网站的结构,不能为了追求路径最短而将本来最下层的一个小专题放到最顶部的域名下,而使网站域名结构发生混乱。</p>...
    2020-06-28 17:13:54
  • SEO 网站标题title注意的三点内容

    <p>关于网站的标题标签(Title Tag)优化的文章非常之多,我这里谈谈我的个人经验,希望能给各位站长有所帮助。下面我用最近做的一个网站做案例分别讲解。</p><p>网站的标题对该网页在搜索引擎里的排名是非常重要的,经过我近几年的研究,要想做一个好的标题,必须达到以下几点:</p><p>一、标题忌用纯关键字。这里说的纯关键字,就是指与用户搜索的关键字完全匹配;这里我举例说明下,我们现在在google里搜索关键字农作物,排名在第一页倒数第2的标题就属于以纯关键字作为标题。这些纯关键字由于在搜索引擎里匹配的网页太多,而搜索引擎又不能区分这些相同的标题到底哪个内容是最好的,为了防止显示出的内容不重复,因此在搜索结果里很少出现2个完全匹配的关键字标题。可以设针对这点,我们可以设计一些易懂的后缀名在关键字后面,如农作物平台等,这样即不会让搜索引擎觉得重复,也不影响用户体验。</p><p>二、关键字只能设计一次,不能重复。不论是百度还是google,你搜索任何一个关键字,其搜索结果一般有7个以上的标题设计都只包含有一次的关键字;包含2次或2次以上的关键字设计在前几年可能会有比较明显的效果,现在搜索引擎的算法每天都在改,这样的重复关键字设计已经不适用了。关于具体的设计,可以参考下富农路网站。这里特别说明下,关键字只设计一次主要是针对新网站,有一部分老站如果标题里重复了几次的关键字,在搜索引擎里也排列在前面,这些标题最好不要改,以防影响该网页的权重。</p><p>三、标题中的关键字最好放最前面,在百度和google里搜索任何关键字,大概有一半的结果,其关键字会在标题的前3个字内开始出现。这点我想大部分站长都知道,搜索引擎对标题的重视程度是由前到后是逐渐减少的,因此设计标题的时候,最好把关键字设计在前面些。</p><p>上面是我关于网站标题设计的三点经验,如果有不足之处,敬请见谅。</p>...
    2020-06-28 17:13:53
  • 标题标记H和强调标记strong

    <p>1、标题标签 </p><p>在Html代码中,标题的标签一共6个,它们的具体代码表现形式分别是:<h1&gt;标题1</h1&gt;、<h2&gt;标题2</h2&gt;、<h3&gt;标题3</h3&gt;、<h4&gt;标题4</h4&gt;、<h5&gt;标题5</h5&gt;和<h6&gt;标题6</h6&gt;,其中标题1的逻辑权重最大,其他的标题重要性随着h后的数字增大而减小。在搜索引擎的文本分析中,标题的信息权重要比文章正文的大,所以我们尤其要注意内容标题的规划和书写。 </p><p>一篇文章中可能会出现很多标题,诸如正文大标题、副标题、段落标题等。我们应该根据标题的逻辑重要性分配合适的标题标签,正文大标题应该是<h1&gt;,副标题可是是<h2&gt;,而段落标题则可分配<h3&gt;,其他的就可以以此类推了。我们不建议所有的标题都采用<h1&gt;标签,这样不能向搜索引擎阐述哪些标题应该比其他的标题更加重要,因而显得标题没有层次逻辑性。 </p><p>2、强调标签 </p><p>为了说明文章正文部分的某些字词或者句子的重要性,我们应该要通过html强调代码来标识它们,从而使其与其他部分的字词或者句子区分开来。 </p><p>一般强调标签:<em&gt;,Html代码表现形式:<em&gt;强调的字词或句子</em&gt;,被<em&gt;标签包括了的字词或句子在网页中表现为斜体。 </p><p>重点强调标签:<b&gt;和<strong&gt;,具体Html代码表现形式:<b&gt;强调的字词或句子</b&gt;和<strong&gt;强调的字词或句子</strong&gt;,被重点强调标签包括了字词或句子在网页中表现为粗体。<b&gt;主要侧重于表现视觉上的强调,而<strong&gt;则是指语意上的强调。 </p><p>以上所谈的两类标签表达的文本逻辑性权重很大,所以其配合表现的字词句段在搜索引擎的文本分析中占有极大的评估优势,这也就不难理解为什么很多的SEO对它们十分重视了。网页设计师在编写代码的时候应当尽量使用丰富多样的标签,让网页的文本信息具有逻辑性,从而让搜索引擎能更好的读懂网页中的信息。对于搜索引擎优化人员来说,在这些标签中部署关键词是一个不错的选择。 </p><p>一定要注意,合理运行。不能滥用这些标签,如详细页面的标题使用h1,而不要到处使用。反之会让搜索引擎不知道哪些是主要的了。</p>...
    2020-06-28 17:13:53
  • 发垃圾帖子或回复可能会降低网站排名

    在Google Webmaster Blog有一帖子说,如果在别的网站(或博客)的回复(评论)里发带链接的垃圾信息,会伤害双方站点的排名(指被发垃圾信息的网站和垃圾信息里所含链接的目标网站)。当然如果评论或回复和主题无关,肯定会有损害。总之,那些为了提高本身网站提名的垃圾回复都对网站排名没好处。如果你已经做过这样的事,并想提高你网站的提名,但是被Google惩罚了。那么下面是补救方法:<p>如果你用了以上的手段,现在想解决这个问题,你应该通过网站管理员工具看看反向链接都是哪些。在网站管理员工具里,点击您的网站如何显示在网页搜索结果中-》指向您网站的链接来查看。如果你看到令人怀疑的、从某个允许回复的博客或论坛来的链接,你应该检查一下那个网址。如果你找到你曾经回复的垃圾信息(包含链接),试着删除它们,或者联系网站管理员让他们删除那上面的链接。一旦你清除了这些垃圾反向链接,你可以通过提交重新审核您的网站请求,让Google重新审核。</p><p>避免垃圾回复的一些方法</p><p>想避免垃圾回复和评论,可以在自己的网站上试试以下的一些方法:</p><p></p> <p>不允许匿名回复和评论</p> <p>使用reCaptcha(发垃圾回复技术)或其他方法来防范自动回复程序</p> <p>打开回复(评论)审核功能</p> <p>对评论里的链接使用nofollow标签</p> <p>不允许在回复(评论)里张贴链接</p> <p>通过robots.txt或meta tags(元标签)禁止搜索引擎索引回复(评论)页面</p> <p></p><p>如果你有一个网站,每天收到成千上万的垃圾评论,你可以试试以上的方法。</p><p>同时,Google还提醒大家,原创内容和对网站进行一些搜索引擎优化仍然是获得好排名的最好方法,因为只有网站的内容不错,别人才可能链接到你的网站上。</p><p>via Search Engine Journal: Google Says Spamming Other sites Can Lower Site Ranking</p>...
    2020-06-28 17:13:52
  • 新站够获得好的百度排名的一些经验小结

      刚开始我做了大量的软文,在软文的关键字处加上了我网站的链接,大量地发到各大论坛、网站留言处和评论处等地方,并不断地进行链接的维护,增加网站外链的生命力和人气。这样的工作做了一个多月,起初我的新站百度排名确实上升了不少,但马上就遭到了百度的降权,我的新站百度快照在之后的一个月内都没有更新。后来我才知道,我大面积发的网站外部链接往往被访问几率不高,因此它也无法发挥它应有的作用,属于百度定义的垃圾外链范围。这样的链接多了,最终引起搜索引擎怀疑,百度对我的网站进行了降权惩罚。   我开始想到了给我的新站找友情链接,希望通过优质链接增加我在百度的排名,而且搜索引擎更喜欢单向的链接,也就是说我要找到喜欢给我做链接的优质网站。我找过国内知名大门户的网站,人家对于我这样的新站更是理都不理,更何况我的网站还被降过权。对于新站来说找到高质量链接很难的,但找不到链接会更难,为了网站的发展和将来pr的进步,我必须想办法找链接。   经过一番寻找和比对,我找到了新势立链接,一个专业 代理优质链接的网站,我从这里购买了五个国内知名门户的链接,起初只是想先看看效果。在购买友情链接的时候,一定要注意所购买链接的权重和质量,申请链接的网站一定要在百度有一个好的排名,并且近期内没有受到过百度的惩罚,这样的链接会对新站的排名有很大作用。新势立链接所代理的网站链接都是各大门户的优质链接,百度权重很高,我购买链接之后的第二个星期,我的新站排名提前了十几位,排在了百度首页的第三位,而且这样的排名一直持续到现在。百度带给我网站的流量每天都在2000个ip以上,我从网站的广告中获得了不错的收益。   对于新站来说,在推广前期寻找友情链接非常重要,但并不是友情链接越多越好。新站如果加入过多的友情链接,这就要常常不断的检查链接,随时检查对方的站点是否收到了搜索引擎的惩罚,假如有那就得赶紧去掉,以免被牵连。新势立链接代理 的所有网站链接都是权重较高、优质的友情链接,一般新站购买这样的链接是不会出现问题的,所以能在短时间内提高新站在搜索引擎的排名,这个排名也会长久的保持。   回顾我推广新站走过的路,是一个不断实践和进步的过程。从刚开始的盲目增加外链到后来的购买优质友情链接,直至获得较不错的百度排名,每走一步都是需要我这个站长的深思熟虑,都凝聚了我的努力和心血。对于一个新站的站长,这些经验都有必要去学习和摸索的,新站推广不要把思维永远集中在原来那些传统的方式上,google在变、百度在变、搜索引擎都在变,假如我们的思维不变,那么我们这些站长就跟不上网络时代的脚步。...
    2020-06-28 17:13:52
  • 新站关键词排名不稳定现象解析

    接下来的时间都在做几个站的SEO,太长时间没有在网上发布我的经验心得了。几个月的优化生活,让人感到网站排名立马上来的那种喜悦了,也有感到排名突然掉下来的痛苦和无奈。太多的站长朋友都在这种一半海水一半火焰的心情中苦苦挣扎。还有就是百度更令人喜忧惨半。总结这几个月来我做新站优化的经验我具体调查下新站排名不太稳定的原因。   首先收录太少了,百度对于新建的站点的收录和研究一向都很严格,这几个月以来天天都在调查收入和排名。看到几个收录很少的域名也都上去了,还有些只收录的首页的站排名也都在上面,就像我的站点这个站排名都始终在半个月左右徘徊。我就在研究收录对排名的影响。网站的收录和快照的关系很要紧,但是实际对排名没有很大的影响。   很多站没有收录排名也还可以,很多站的收录的情况有上午还有过万排名不怎么好。实际上我不太关注收录,这些企业的站点的BOSS都是注意排名,其他都没重视。就算对于收录我也没有采取必别的措施。去吸收SEO增加收录的页面只是在给网站加内容时要注重山寨文章。可那几个做站的排名上去一些,又接着掉下来。   我经过长时间的调查最终才突然进行收录对于排名排前可能没有太大的意义,可是对于网站排名的稳定却特别重要。一个网站有很好的收录说明,SEO的关注性的网站优化的越少。特别这个站在SEO的排名也就越高。在百度或GG在变更方法中网站的排名尽管不能一直都在首位,但大体上排名不会起太大变化。GG的排名也证实这一点。尽管我这几个站百度排名降低下来,但GG的收录做基础的排名似乎没啥变化。   外部链接的稳定性,天天都在调查百度GG,也在分析竞争对手。从不做外部链接到想法子得到外部链接。外部链接就排名的重要性许多站长和优化们都坚信不移,就新站而言,网站外部链接的得到的方法比较单一,接下来就是通过友情链接,软文等这些法子获得。对于新站的事情pr值和收录都不友好,友情链接总是一上一下,很多站长几天后就把链接K掉了,这在一方面就不能够保证友情链接的稳定。有可能很多站长的推广软文写作水症很好,每篇软文公布的也给网站带来了不少的外部链接,但这些外部链接太单一稳定性不强,事实上外部链接是通过长久的积累得到,这种方式得到的外部链接在权重上和稳定上都还好,对排名很有价值。   SEO过度,SEO太多有很多方面,每一种过度的行为都对网站的排名有不利影响。关键字的堆砌,密度的变化都会影响网站的排名。网络有太多相关知识,这里我不一一说明...
    2020-06-28 17:13:51
  • 新手SEO很容易犯的错误汇总

    很多刚入门的seoer都会或多或少的走一些偏路,或者说是在优化的过程中做了一些不需要做甚至是不能做的步骤,shallen以前也是走过不少弯路,所以今天在此给大家列出几种不要做的事情来供新手们参考参考: 一不要:不要盲目的寻找参考教程;现在市面上有很多各种各样的新手教程,这些教程的水平高低不同,有高手写的,也有半桶水的人写的,而且里面内容很多都是大同小异的,那些并不真正懂优化的人写的教程无非就是把以前别人写的教程拿来改头换面下,不管内容好不好,技术过不过时,一股脑的全塞到他自己的教程上面。如果新手刚开始读的教程是用那些劣质的书籍来学的话,那不可避免的会受到误导,从而走错了seo之路的第一步。在此向大家介绍本前辈的书:胡介宝的seo教程。 二不要:不要盲目的用教程上面的方法;很多教程都是好几年写的了,里面的知识虽然都是最基础的知识,是基本功,但毕竟搜索引擎的算法是天天在变的,有些知识是会过时的,里面介绍的一些方法也就会随着变得没什么效果,甚至失效。如果你不自己去发现,去创新,去实践,而是一味的套用过时的方法,你说你会有效果吗? 三不要:不要乱发链接;外链对一个网站来说是非常重要的,而如何去取得一个个优质的外链这是很多人所烦恼的。中国人的开发能力和破解能力非常强,所以一个又一个的群发软件随之而生,先是留言板群发,再来是论坛群发、博客评论群发、博客引用群发等等,大量的群发工具把整个互联网搞得乌烟瘴气的。使得那些群发都变成了垃圾链接,不但使网站排名得不到提升,有可能还会使排名下降,有的甚至被当作作弊把网站给封了。 四不要:不要盲目的跟风;在网上看到了一些词流量很高,很多人做这个词的网站排名赚了多少多少钱。于是做为新手的你也跟着随大流,赶紧做个新网站,注册域名,购买空间,挂上网站就开始优化这个词。一个月两个月过去了,花了多少心思在上面,结果一点效果都没有,到最后搞得自己陪了夫人又折兵,浪费了多少物力人力。我们静下心来思考思考:做为一个新手的你一没优化经验,二没优化资源,你怎么跟其他那些优化的老手比,排名在前面的那些人个个是优化高手,他们比排名比的是他们的技术,比的是他们的资源。这些东西你有吗? 五不要:不要单纯的学习;seo这东西,入手容易,上手难。我想没有哪个人敢说他已经把seo全部学会了。seo需要是自己的钻研,发现。如果你总是等着别人把他的知识经验共享出来,那些都是快过时的东西了,你才宝贝似的捧着那些知识傻傻的研究,那你永远都只能跟在别人的屁股后面转。 六不要:不要半途而废;做seo 是需要很大的耐心和恒心的,如果你自认为自己没有具备这两样东西,那我劝你还是不要来学seo的好。做seo需要研究网站代码,精简网站代码,分析网站关键词,优化网站内部结构,寻找优质的外链,观察关键词排名等等等很多繁杂的工作,这些需要有很大的耐心和恒心。比如有些热门的关键词,你想把网站排名做到前面去,时间少则要两三个月,多则要一年半载的,你说你有那个耐心去做吗?...
    2020-06-28 17:13:51
  • 提高网页关键词搜索引擎排名的5个方法

    <p>但现在不是那么回事了,就像下面的图一样,搜索引擎的爬虫抓取时会有多个进入点,并且每个进入点都同样重要,然后再从这些进入点向外扩散,进行抓取。</p><p>那我们看看有什么方能提高网页被搜索引擎抓取、索引和排名的方法:</p><p>样例网站架构图</p><p>首先通过下图看看通常网站的架构图:</p><p align="center">典型的网站外链分布图</p><p>然后我们看看一个典型网站外链分布图:</p><p align="center">爬虫抓取路径的优先级</p><p>下面要讲到一个被很多SEO们误解的重要概念。很久以前,搜索引擎的爬虫(机器人)大部分时间都会递归地抓取某个网站(通过你提交的网站首页网址,然后通过网页上发现的链接抓取这些链接所指向的网页,周而复始)。但现在不是那么回事了,就像下面的图一样,搜索引擎的爬虫抓取时会有多个进入点,并且每个进入点都同样重要,然后再从这些进入点向外扩散,进行抓取。</p><p>5个提高网页被搜索引擎抓取、索引和排名的方法</p><p>最后,我们看看有什么方能提高网页被搜索引擎抓取、索引和排名的方法:</p><p></p><p>使网站结构扁平化</p><p>如果你的网站能够建立一个理想的、扁平的链接层次,那么可以实现通过3次点击就访问100万个页面页,和通过4次点击就访问100万页面的效果。</p><p>从强力的页面链接到需要链接的页面</p><p>应该知道有很多外链的强力页面(指排名高、外链多的页面,易IT注)的涟漪性效应,并且充分利用这种效应。把这种页面看作是目录(或分类)页面,并通过它们链接到网站的其他页面。</p><p>同样,你以后也可以将这种页面当作着陆页,帮助提高你想用户访问页面的流量。</p><p>减少死胡同和低价值页面</p><p>那些在链接图上边缘的页面价值很低。确认网站上没有那些让PageRank降低的页面。通常这样的页面是PDF、图片和其他文件。你可以用301重定向将这些文件重定向到包含(嵌入或包含下载链接)这些文件内容的页面,并且页面上有返回网站其他部分的链接。</p><p>创作值得链接的分类或导航页面</p><p> 如果你能制作这样值得链接和引人注目的页面,它们会获得更高的PageRank和更优先的抓取率。同时这些PageRank和抓取优先级会通过页面上的链接传递到网站的其他页面(给搜索引擎一个网站上所有页面都很重要的信号)。</p><p>将不重要的页面排除在爬虫抓取路径之外</p><p> 减少不必要的导航级别(或内容页面),并且将爬虫导向真正需要PageRank的网址。</p><p></p><p>原文:Diagrams for Solving Crawl Priority &amp; Indexation Issues</p>...
    2020-06-28 17:13:50
  • 网站优化 关于网页地址URL的约定规则

    <p>SEO 可能会因为几类原因出现问题:内容、结构和链接。大多数人都能明白做内容和链接的重要性,但有很多更大却建得不怎样的站因为一些很基础的问题,例如 URL 结构而深受其害。这样的基础问题会带来更多隐患,例如重复内容的问题。</p><p>以下是在不同网站发现的三种最为常见的 URL 问题。如果你的站带您有一个甚至更多的这类问题,看看解决方案,尽快修正吧。</p><p>问题 1:网站无 www 和有 www 版本的 URLs</p><p>如果你的网站的所有 URL 都有无www和有www两个版本,那么相同内容的链接价值会被两个 URL 拆分。这样一来你就不是按这个 100% 的链接价值获得你想要的搜索排名,而会变成50/50,60/40 或者其他拆分值。</p><p>补救办法:</p><p>1、决定你到底要用哪个版本的 URL,有www 或者 无www。</p><p>2、给你不决定用的 URL 做 301 重定向到对应的另一个。这样才不会因为链接价值被拆分而带来损失。</p><p>3、在Google 网站管理员工具里设置你更确定选用的 domain,这样你出现在搜索结果列表里的结果会和你所选用的 URL 保持一致。</p><p>4、确定无论何时在网站再建立链接,一定要使用选用的同一风格的 URL。</p><p>问题 2:重复主页URLs</p><p>这种情况有点类同第一种,但因为是出现在首页所以状况更糟。</p><p>首页有很多个不同的 URL 是极有可能的,尤其是如果你没有解决有www和无www的重复问题,就会出现更多的不必要的重复URLs。例如:</p><p>http://www.mysite.com</p><p>http://mysite.com</p><p>http://www.mysite.com/index.html</p><p>http://mysite.com/index.html</p><p>这些 URLs 都指向同样的内容。虽然很多网站解决了有www和无www两个版本 URLs 的问题,但还是能够看到多种不同的首页 URL。我曾经看到过有某个网站的同一个页面有不同扩展名(.php, .html,.htm, ect.)的 URL。这样会有更多的内容重复和链接价值浪费的潜在危机。</p><p>补救办法</p><p>1、类同第一种情况,以下是一些小技巧:</p><p>2、把首页 URL 设置成 http://www.mysite.com.将其他全部 301重定向到这个最为基本的 URL上。(如果你更喜欢无www的, 那么就用 http://mysite.com)</p><p>3、如果因为某些特殊的跟踪目的必须要设置不同版本的链接,则设置 canonical tag 让搜索引擎知道你希望哪个 URL 展示在搜索结果中。</p><p>4、要确保当你建立指向首页的链接时链到了正确的版本。</p><p>问题 3:动态 URLs</p><p>搞笑的是很多对 SEO 不那么友好的购物车都是这样的状况。一旦你把 URL 里包含进了各种变量和参数,那么重复内容和浪费链接价值的状况可以说是没完没了。</p><p>看看下面的情况,所有 URL 都可能指向同样的内容:</p><p>http://www.mysite.com/somepage.html?param1=abc</p><p>http://www.mysite.com/somepage.html?param1=abc&amp;dest=goog</p><p>http://www.mysite.com/somepage.html?param1=abc&amp;dest=goog&amp;camp=111</p><p>http://www.mysite.com/somepage.html?param1=abc&amp;dest=goog&amp;camp=111&amp;id=423</p><p>那么如果现在调整参数呢?还是会显示同样的内容。是的,就像你所想象的,会浪费很多的链接价值。</p><p>动态 URL 问题还有一个成因。很多公司为了统计的需要使用带参数的 URL。但务必请确认从 SEO 的角度出发你没有作茧自缚。</p><p>这个问题同样也会出现在网站给其联盟一个独立的 ID 使用其链接的情况。你能有 100 个联盟链接到同样的页面,但所有的 URL 都可能会不同,因为每个联盟都又他们自己独一无二的ID。</p><p>补救办法</p><p>1、可能的话要确定你的站点您使用了对 SEO 有利的 URL。有一个指向内容的基础 URL 比依赖于参数的 URL 要好得多。例如 http://www.mysite.com/unique-product.html 比 http://www.mysite.com/category.php?prod=123 就要好。</p><p>2、设置 canonical tag 告诉搜索引擎使用 URL的基本版本。这样你依然可以用有参数的 URL,如 http://www.mysite.com/unique-product.html?param1=123&para;m2=423 去搜集统计数据, 但搜索引擎会认为基础版本才是官方地址。</p><p>3、解决这个问题更好的办法是从服务器端来获取数据,在获得数据后将访问者重定向到正确的 URL。很多的联盟网络都是这样做的。访问会按这样的路线进行:访问者点击有参数的URL -》访问者打到站点,服务器记录参数数据并且将其重定向到正确的着陆页面 &ndash; 》访问者基本不会注意到这个跳转,因为速度很快。这样你既能获得你想要的数据,也能保证所有链接价值都传递到了正确的页面,访问者也能看到他们所想看到的内容。一箭三雕。</p><p>你的网站有什么问题?</p><p>URL 的问题可能会较差复合出现。例如,你可能存在 无www和 有www 两个版本的问题,同时也有动态 URL 的问题。</p><p>仔细检查站点,看你是否有以上说的情况。如果是,尽快确定好修补方案。只有把这方面的问题很好解决了,你的链接建设工作才会有更大价值。</p>...
    2020-06-28 17:13:49
  • 谷歌站长工具关键字分析页面新的调整

    <p>可能有细心的站长已经注意到了,谷歌网站站长工具(又名谷歌网站管理员工具)在11月中旬对关键字分析部分界面做了新的调整。调整之后,我们会每天更新关键字分析数据,向站长提供网站收录过程中关键字出现频率的信息,并展示一系列包含该关键字的URL。我们将某关键字在网页上的出现频率与全站内出现最频繁的关键字进行对比,从而绘出关键字的重要性条形图(参考下图)。点击某个关键字你将看到10个包含该关键字的站内URL。 </p><p>这个功能可以在站长重组网站架构的时候发挥作用,另外也可以帮助站长迅速找到站内被黑的页面。例如,如果站长发现来自搜索引擎的流量总是由一些很奇怪的关键词所带来的,那么你可以使用谷歌站长工具的这个关键字分析功能来迅速找到包含这些奇怪的关键字的URL,从而帮助站长清除被黑的网页内容。 </p>...
    2020-06-28 17:13:49
  • 1151722