网页作弊与反作弊技术综述_李智超

第46卷 第5期V o. l 46 N o. 5山 东 大 学 学 报 (理 学 版)Journal of Shandong U niversity(N atural Science)2011年5月M

第46卷 第5期

V o. l 46 N o. 5

山 东 大 学 学 报 (理 学 版)

Journal of Shandong U niversity(N atural Science)

2011年5月

M ay 2011

文章编号:1671 9352(2011) 05 0001 08

网页作弊与反作弊技术综述

李智超, 余慧佳, 刘奕群, 马少平

(清华大学智能技术与系统国家重点实验室, 北京100084)

摘要:随着网络信息爆炸式的增长, 搜索引擎成为人们首选的获取信息的主要途径。能否在搜索引擎的排名中占有比较靠前的位置, 将在一定程度上决定网页的访问量。一些网站并不是通过提高网页质量来提高其在搜索引擎中的排名, 而是根据搜索引擎自身的特点, 采用欺骗手段来提高排名, 这就是网页作弊。网页作弊是搜索引擎面临的重大挑战之一。本文将结合常见的网页作弊的方法, 阐述当前已经存在的比较有效的反作弊技术。关键词:网页作弊; 反作弊; 搜索引擎中图分类号:TP391 3 文献标志码:A

A s urvey of web spa m and anti spa m techni ques

L I Zhi chao , YU H u i jia , L IU Y i qun , M A Shao p i n g

(S t a te K ey L ab o f In telligent T echno l o gy and Sy ste m s , T si nghua U n i v ersity , B eiji ng 100084, C hina)

Ab stract :W ith the inc rease o fW eb i nform ati o n , search eng i nes hav e becom e the pr i nci pa l approach to i nfo r m a tion re triev a. l T he acce ssi ng o f a pag e is basicall y dec i ded by its ranki ng in search eng i ne s . Som e site s boo st t he ir page rank i ng w it hout i m pro v i ng the qua lit y o f the pages , but deceive the search eng i nes acco rd i ng to its charac teristi c , w hich is ca lled W eb Spa m. W eb spam is one o f t he cha llenge s o f search eng i nes . V ali d an ti spa m techniques are presented w ith an i n tro ducti on o f comm on W eb spam.

K ey w ords :w eb spam; an ti s pa m; sea rch eng i ne

[1]

, 由于动态网

0 引言

互联网在最近的十几年间得到了飞速的发展, 网络上的信息也成爆炸式的增长, 我国域名总数量

已经超过了1121万个, 截至2010年6月, 域名注册者在我国境内的网站数目为279万

页的广泛使用以及W eb2 0的普及, 真实的网页数目更是难以估算。在如此众多的网页中查找所需要的信息, 搜索引擎(search eng i n e) 成为了人们的首选。搜索引擎也是发现新网站的主要途径。我国4 2亿网民中有76 3声称搜索引擎是他们经常使用的网络服务

[1]

在对大规模的搜索引擎用户日志(user l o g ) 的

分析之后, 发现85的搜索引擎用户只查看返回结果的第1页的内容, 也就是排名在前10名的页面。所以为了能够得到更高的点击率, 获得更高的商业利润, 网站要尽可能使自己的页面排在搜索引擎返回结果中更靠前的位置。

常规的提高页面排名的做法就是努力提高页面的质量, 使页面中的内容更为用户所需要, 与用户的查询更相关。但是有些网站试图通过其他不正当的方法来产生同样的效果, 这就产生了网页作弊(w eb spa m ) 。Z. G yongy i 和H. G arc ia M o li n a 给出了网页作弊的定义:相对于网页本身的实际价值来讲, 使得网页获得不公正的查询相关性和重要性的行

[4]

[2 3]

收稿日期:2011 01 10; 网络出版时间:2011 05 0412 02网络出版地址:http ://www.cnk. i net/kc m s/detail/37.1389. N . 20110504. 1202. 001. h t m l

基金项目:国家自然科学基金资助项目(60736044, 60903107); 高等学校博士学科点专项科研基金项目(20090002120005); 国家重点基础研究

(973) 项目(2004CB318108); 国家高技术研究发展计划(863计划) 项目(2006AA01Z141)

:(), 男, , , . Ema i :l liz @s ohu. co m

,

2

山 东 大 学 学 报 (理 学 版) 第46卷

为就是作弊, 这样的网页被称为作弊网页(spa m pag e) 。通常一般的网站很难通过自身的力量来实现页面作弊, 因而一种被称为搜索引擎优化(search eng i n e opti m izers , SEO ) 的产业应运而生。SE O 专门帮助商业网站来提高网页的排名, 然而大部分SEO 并不是通过建立良好的网页结构和提高页面内容质量等方法来实现网页价值的提高, 而是通过作弊的手段来提高页面排名。随着W eb2 0的发展, 互联网上的作弊手段更加丰富。W eb2 0使得用户能够更方便地对互联网上的内容添加社会标签(soc i a l book m arking ), 这也就使得通过对网页添加不相关的标签而使网页获得更高的排名这种作弊手

[5 6]

段(so cia l spa m ) 变得更加方便。

作弊网页的存在不但降低了搜索引擎的搜索性能, 将许多不相关的结果返回给用户, 降低了用户搜索引擎的信任度, 而且还使搜索引擎索引了大量无用页面, 增加索引的空间开销和查询的时间开销, 降低了搜索引擎的效率

[4]

是页面本身的重要性, 网页重要性的计算使用的是基于链接的Page Rank 算法和H I TS 算法, 通常情况下, 若一个页面有越多的其他网页链向它, 它就会获得更高的重要性评分。作弊网页会针对搜索引擎计算排序评分的算法特点, 对自身内容和链接关系进行不正当的构造, 以提升自己在搜索引擎中的排序。

如果说采用提高评分的作弊方法是针对搜索引擎排序策略的欺骗, 那么采用隐藏技术的作弊方法就是欺骗搜索引擎的抓取模块(爬虫cra w l e r), 它使得作弊页面能够被搜索引擎作为正常页面进行抓取和索引。下面将针对各种作弊手段进行更详细的探讨。1 1 基于内容的作弊技术

基于内容的作弊的主要目的在于提高搜索引擎计算网页得到的相关性评分。作弊网页往往在页面中添加一些热门的查询词, 使得页面能够在用户进行热门词查询时被检索到, 并且获得较高的相关性评分, 从而达到提升页面排名的目的, 即便是页面内容和检索的热门词之间没有任何关系。这些热门词汇将分布在网页的各个不同的域里面, 比如在标题域(title) 中, 这样更能提高页面和热门词的相关性。此外, 热门词还可能被填充到m eta 标签中、锚文本中、URL 中以及社会标签中。有的页面甚至将整个词典级别的词语集合全都放入页面中, 使得页面能够被任意查询检索到

[4]

[11]

[12]

。通过抽样研究发现, 互联

网上大约有10~15的页面是作弊页面, 这也

使反作弊(an ti spa m ) 成为了现代搜索引擎所面临的重大挑战之一

[7]

[10]

[4]

1 网页作弊技术

作弊网页为了使自己排在搜索引擎返回结果的前面, 通常根据搜索引擎的技术特点, 修改页面本身内容或者页面之间的链接结构, 来实现页面评分的内容排在搜索引擎结果列表中本不属于它的位置。Z. G yongy i 和H. Garcia M o lina 将网页作

[4]

弊技术分为两大类, 如图1所示。

[4, 7 9]

。有的网页并不是将热门

词填充到页面中, 而是引用一段内容丰富的文章, 提

高页面内容的质量, 从而达到提高排名的目的。

[4]

提高。还有的网页通过隐藏技术间接地将实际页面

有时候为了能够达到将作弊页面真正呈现在用户眼前的效果, 页面将会对填充到页面中的热门词和大段无关的内容进行处理, 使用户看不到这部分内容, 而只是对搜索引擎进行索引时起作用。比如将热门词的字体设成很小, 或者将其颜色设置成和背景颜色相同等。或者将实际要呈现在用户眼前的内容做成ifra m e 的形式, 躲避搜索引擎的过滤。

基于页面内容的作弊技术是成本最低的作弊方法, 也是比较容易识别的一类作弊方法。1 2 基于链接关系的作弊技术

作弊页面通过构建链接关系来误导Page R ank

图1 网页作弊技术分类F ig . 1 W eb spa m taxonom y

算法和H I TS 算法, 从而提高自身的重要性评分。由于在整个网络环境中, 页面的Pag e Rank 值的分布

不均衡, Page Rank 算法也是易受攻击的, Page R ank 值稍有提高, 就会使页面排名得到较为显著的提升

[13]

提高评分的作弊方法主要针对搜索引擎在进行排序时对网页进行的评分, 这个评分主要来自于两个方面的因素:一方面是网页和查询的相关性, 通常使用BM 25概率模型计算

, 网页中含有查询词数

, ; 。Z. Gyongy i 等给出了基于链接关系进行作

如下:

弊的主要手段

(t):

,

第5期李智超, 等:网页作弊与反作弊技术综述

3

些提供有用资源的网页, 像蜜罐一样吸引其他页面链向它们, 然后它们再链向目标作弊页面, 从而间接提高目标作弊页面的Page Rank 值。蜜罐页面为了能够吸引链接, 会将指向目标作弊页面的链接进行隐藏。

渗入网页目录(w eb directo ry ):一些具有很高Page R ank 值和hub 值的W eb 分类目录允许网站所有者将其网站提交到目录中的某个主题下。作弊者可以将带有目标作弊页面链接的网页提交到目录中, 从而提高目标作弊页面的Page Rank 值和au tho rity 值。

张贴留言链接:在博客(B l o g ) 、信息板、访客留言板或者w i k i 等网络平台上, 网络使用者都可在上面张贴信息。作弊者可以在他们所张贴出的评论和信息中加入指向目标作弊页面的链接, 以提高目标作弊页面的Pag e Rank 值。为了能够大量地张贴链接, 作弊者往往采用机器自动添加的方法, 这样也造成了评论和主题内容偏离的现象

作弊链接交换:作弊者和作弊者之间为了提高

(B r ow ser) 发送不同内容, 比如含有赌博、色情等内容的无意义的页面, 这些内容和用户查询完全不相关。这种同一页面给搜索引擎爬虫和给用户浏览器端发送不同内容的方法被称为掩盖技术。

作弊者之所以能够完成掩盖技术作弊, 是因为作弊网站能够比较容易地识别访问它的客户端是不是一个搜索引擎的抓取模块。一方面, 作弊者可以维护一个搜索引擎抓取时使用的I P 地址列表, 并通过I P 地址匹配来识别; 另一方面, 可以通过HTTP 请求消息中的用户代理域来进行识别

[17]

并不是所有的使用了掩盖技术的页面都是作弊页面, 一些页面在发送给搜索引擎爬虫的内容中去掉了一部分广告信息和链接信息, 而主要的内容和发送给用户浏览器的一样, 从而使得搜索引擎在进行索引时的负荷减轻, 这是搜索引擎所能够接受的。B aoning W u 等人将所有的掩盖技术称为语法层掩盖技术(syntactic cloak i n g ), 将真正影响了搜索引擎工作的掩盖技术称为语义层掩盖技术(se m antic cloa king)

[18]

各自页面的重要性, 通常会进行合作, 令在各自的页面中添加指向对方页面的链接, 从而达到 互利 的

目的。

购买过期域名:站点域名过期时, 链向它的其他可以购买过期域名, 然后安排给自己的作弊网页, 利用陈旧链接来获得较高的Page Rank 值。

构造链接工厂(li n k far m ):作弊者通常将大量的作弊页面组织在一起, 通过链接关系精心设计一个相互链接的复杂的结构, 再利用渗透网页目录或

站点很难在第一时间将链接信息进行更新。作弊者

者张贴留言链接等手段将外部链接链入结构中的某些页面, 从而使结构中的所有作弊页面都会得到一个相对较高的Pag e Rank 值。这样的结构被称为链接工厂

[15]

[14]

。研究表明在搜索引擎对热门词的检索结果

[18]

中, 排名靠前的页面有3~9使用了掩盖技术1 4 重定向技术

重定向(red irection) 技术, 指的是当用户浏览器加载一个URL 之后, 将会跳转到另外一个URL 所指向的页面。页面的跳转可以通过3种方式来实现

[19]

:

(1) 使用H TTP 状态码:浏览器在接收到HT

TP 请求后, 将会根据HTTP 状态码进行响应, 当状态码为302、303、307时将会发生跳转;

(2) 使用M ETA 域刷新:当页面的m e ta 域中(3) 使用JavaScript 脚:JavaScri p t 是可以镶嵌在网页中的脚本语言, 通过简单的语句就能使页面发生跳转。但是, 大多数重定向作弊页面中会使用非常复杂的方法来掩饰跳转语句, 例如编码解码、H TM L 标签重构等

[19]

出现refresh 标签时, 页面将会发生跳转;

二级域名作弊:作弊者利用了具有相同二级域名的大量域名, 它们的最低一级域名是随机生成的, 这些域名的页面要么互相有链接指向, 要么指向同一个目标作弊页面, 从而提高自身或目标作弊页面的Page R ank 值1 3 掩盖技术

作弊网页采用掩盖(C l o ak i n g ) 技术来欺骗搜索引擎的爬虫, 在搜索引擎要进行抓取的时候, 作弊页面向搜索引擎发送一个包含有用资源的高质量页面, 从而使搜索引擎认为它是一个有价值的页面, 并且在用户进行查询时, 将其排在比较靠前的位置, 但[16]

页面的重定向技术可以用于广告页面的轮换、论坛发表文章之后跳转等方面, 但是网页作弊者则利用这项技术进行网页作弊。由于搜索引擎很难将页面重定向之后的内容抓取下来, 所以作弊者可以将URL 对应的原始页面做成一个含有有用资源的页面, 令搜索引擎对其索引, 然后在用户点击URL 之后, 通过m eta 域刷新或者JavaScript 脚本跳转到其他页面, 实现作弊。K. Chellap illa 等人的研究表明在热门的URL 中有大约0 35使用了JavaScri p t [19]

,

4

山 东 大 学 学 报 (理 学 版) 第46卷

作弊网页通常不会只包含一种作弊技术, 而是将各种作弊技术相结合, 以得到最佳的欺骗搜索引擎的效果。

特征的基础上增加了更多的特征来进行作弊页面的识别, 其中包括锚文本的数量、页面中含有热门词汇的数量等。此外他们还融合了一些非页面内容的特征, 比如页面最近一次被更新的时间、页面链接中已经失效的链接比例、页面中有用信息所占的比例、页面制造者的名声、链向该页面的链接数量、页面内容专注于单一话题的程度等。在综合多个特征之后, 文中使用learning to rank 的方法对页面进行作弊程度的排序, 而并非使用分类的形式将作弊页面抽取出来。

D. Fetterly 等

[9]

2 作弊页面识别技术

通过对网页作弊技术的研究, 一些反作弊技术也逐渐发展起来。针对各种作弊技术, 大都有了相应的识别方法。但是作弊技术多种多样, 针对作弊技术进行识别的方法并不能够满足搜索引擎的需求, 所以近年来一些并非针对特定类别作弊技术的作弊页面识别算法得到了很大的发展。2 1 特定类别的作弊页面识别技术2 1 1 基于内容作弊页面的识别

基于内容的作弊方法是针对页面文本域的各部分区域进行关键词填充等, 因此识别这类作弊页面的方法主要是通过挖掘作弊页面不同于正常页面的特征来进行识别。

A. N t o ulas 等提出了一种基于内容的作弊页面

[20]

识别方法, 并给出了很多特征分析结果。他们通过M SNB o t 的爬虫在2004年8月期间抓取105484446个真实网络页面组成数据集。对数据集中的约55000000个英文页面进行了抽样标注, 在17168个抽样页面中共有2364个作弊页面, 比例为13 8。文献[20]中给出了一些易于计算的页

用两个独立收集的数据集进行

实验, 并着重分析了一些特征的规律分布图上出现

的特殊噪声点, 提出了另外一些有用的特征, 如URL 属性, 即作者发现含有很多字符、圆点、破折号和数字的主机名字更像是作弊站点; 映射到同一IP 地址的不同主机数目超过一定阈值后就很可能是作弊站点; 在一个给定站点上的页面变化率, 那些每周页面几乎完全变化的站点基本都是作弊站点。Fetterl y 等还介绍了针对短语级别作弊的识别算法等。

我们对中文网页中作弊页面进行了页面内容的特征提取和分析。在对10000个UR l 页面中的作弊页面和非作弊页面进行分析之后, 发现网页的内容压缩比、标题长度、标题词语在正文中出现的比例、m eta 标签的长度等内容特征在中文作弊页面的识别中也有一定区分度。图2中给出了中文页面中标题长度和作弊页面分布之间的关系。图中横坐标为标题长度, 柱状图为含有对应标题长度的页面在

[22]

面内容特征, 其中包括标题长度、词语的平均长度、可见内容的比例、内容压缩比等。标题长度:作弊者会将关键词堆砌到标题域中, 所以那些标题很长的页面大部分是作弊页面。词语的平均长度:很多英文页面中会存在将一些词合成起来作为新词的作弊现象, 如freebook 等等, 以满足和更多的查询词相关。分析后发现, 如果页面的平均词语长度(字母数) 很长, 那就很可能是作弊页面。可见内容的比例:这是针对内容隐藏作弊情况考察的, 但这类作弊页面识别较容易, 现有的搜索引擎已基本解决。内容压缩比:将文本通过GZ IP 算法进行压缩, 压缩前的文本大小除以压缩后的文本大小即为压缩比。这个特征主要是针对重复部分热门关键词的作弊手法, 压缩比越高说明文档中词语重复度越高, 是作弊页面的可能性就越大。最后, 作者选了一些区分度比较明显的特征对标注的数据集通过C4 5进行了10次交叉验证, 结果是对作弊页面的识别有82 1的查全率和84 2的精确度, 非作弊页面的识别召回率为97 5, 精确度为97 1, 比作弊页面稍高。

[21]

W. W ang 等在A. N to ulas 等所提出的页面

中文页面中的比例Ratio1, 曲线表示含有对应标题长度的页面中作弊页面的比例Rati o 2。从图中可以看出在不同标题长度的页面中, 作弊页面的分布有明显的不同, 通过机器学习的方法能够有效识别这一类作弊页面。基于内容作弊的页面比较容易识别, 这是由于内容作弊的针对性强, 而且这类作弊仅仅依靠自身的变化, 从而使得特征的发现和提取都易于实现。

图2 中文页面中标题长度的分布和作弊页面所占比例`

F i g. 2 T he d istr i bution o f title leng t h o f Ch i nese w eb page

and t rti on o f w eb 品

,

第5期李智超, 等:网页作弊与反作弊技术综述

5

2 1 2 基于链接作弊页面的识别

相比于较容易的基于内容作弊的页面识别, 基于链接关系作弊的识别则相对困难, 研究者们提出了多种方法来识别链接工厂、消弱作弊页面的Rank 值等。

Trust R ank 是由Z. G y o ng y i 等人提出的一个反

[23]

链接作弊的算法, 它可以算作Page Rank 的改进版本。这个算法的核心思想是认为优质页面将链向优质页面, 而很少会链向作弊页面。作者先在众多的页面中挑选出一部分种子页面, 通过人工选择, 得到一个优质页面的集合。对于这些页面, 赋一个T r ust R ank 的初始值, 然后在整个页面集合中进行迭代, 迭代的过程和Page R ank 算法类似, 如下:

t = T t (1- ) d,

其中t 为页面的Trust R ank 值, 为衰减因子, T 为邻接矩阵, d 为页面初始的T rust R ank 值, 对优质页面而言这个值是一个正数, 而对非优质页面, 这个值为0。经过若干次迭代后, 优质页面的Trust R ank 值将会通过链接关系传递给它所指向的页面, 这样被优质页面所链接的页面也将会得到较高的Trus trank 值。最终认为T rust R ank 值高的页面不是基于链接的作弊页面, 那么它们可以被搜索引擎作为结进行排名比通过Page R ank 进行排名的作弊页面的位置明显靠后。T rust R ank 算法虽然不能直接识别出作弊页面, 但是能够通过降低作弊页面排名的方式来提高搜索引擎的检索性能。

*

*

*

相关性, 通过对原帖和张贴内容在语言模型上的分析比较, 来判断他们之间的相关性, 根据相关性就可以识别作弊链接, 从而识别作弊页面。但通常在博客上张贴的内容比较简短, 单单比较这部分内容的语言模型, 不容易得出很高的识别率, 所以文中跟踪了张贴的链接, 将链接指向的内容也进行语言模型的分析。如果张贴的语言模型和原帖的有很大不同, 那么就认为这是机器自动张贴的作弊内容。这个算法可以得到83的准确率。判断博客上的作弊链接的主要的困难还是在于在原帖内容较短时, 对语言模型的估计存在偏差, 况且博客中本身存在主题漂移的现象, 这都对作弊链接的识别产生影响。J . M arti n ez Rom o 等

[26]

也给出了类似的语言模型的

算法, 并且还综合考虑了链接锚文本、URL 、页面标题等之间的KL 距离、以及链接为站内链接还是站外链接等因素, 能够使准确率达到87。

A. A. B encz r 等人从检索的角度给出了一个识别链接作弊的方法

[27]

果页面返回给用户。实验结果表明, 通过T r ust R ank

另一种思路和T r ust R ank 的思想相对, 即认为链向作弊页面的页面大多是作弊页面。那么可以事先从网页中人工选择一个作弊网页集合, 对这些页面赋一个表征作弊可能性的值, 可以称为 作弊度 , 然后通过链入作弊网页的链接, 将这个 作弊度 迭代传播给链向作弊页面的网页, 这个迭代过程也与Page R ank 算法类似。经过迭代之后, 作弊度 高的页面将被认为是基于链接的作弊页面。有很多研究者运用这个思路设计了作弊页面识别算法, 由A. A. B encz r 等人在2005年提出的Spa m R ank 算法

[24]

就是其中之一。在Spa mR ank 算法作

用下, 作弊度 较高的页面有将近90的是作弊页面。V. K rishnan 等人在2006年也提出了类似的A nti Trust Rank 算法。

对在博客上张贴链接而形成的链接作弊, G. M ishne 等人给出了一个基于语言模型的识别方法

[14]

[25]

。他认为在博客上张贴的作弊链接大多是机

。文中先构造一个页面集合,

然后对页面集合中的部分页面是否为作弊页面进行人工标注。对于待判定的页面, 计算它和页面集合中每个页面的相关性, 再根据相关性将集合中的页面进行排序。这个相关性主要是指链接的相关性,

两个页面同时被同一页面所链接, 那么认为这两个页面的链接相关性大于0, 这个相关性可以通过链接层数进行迭代计算。在根据链接相关性排好序的页面集合中, 如果排名靠前的页面中被标注为作弊的页面居多, 则认为待判定的页面更可能是作弊页面。实验表明最好的结果可以在75的查全率时得到90左右的准确率。

各种识别基于连接作弊的方法, 都是针对互联网中页面之间的复杂链接关系, 而且大都是建立在 物以类聚 这样一个基本假设上, 也就是认为产生基于链接作弊的主要原因是有大多数页面链向作弊页面, 而这些提供出链接的页面也大多是作弊页面, 因为正常页面没有理由去链向作弊页面。然而作弊者最核心的作弊方法就是产生正常页面链向作弊页面的链接, 这在前面一章中已经提到过。识别由正常页面链向作弊页面的链接应当是识别链接作弊的重点所在, 同时也是难点所在。图3中被标记为SL 的链接就是一个正常页面链向作弊页面的链接。从图中可以发现T rust R ank 值可以通过SL 从节点4传递给节点5, 从而使得节点6, 7, 8都获得T rus t R ank 值, Spa mRank 也可能会认为节点4为作弊网页。又由于节点3和节点5同时被节点4链接, 也, 从 出

,

6

山 东 大 学 学 报 (理 学 版) 第46卷

这也是各种算法都很难得到非常高的准确率的主要原因。如果能够识别SL 链接, 将会很大程度地提高链接作弊的识别率。H . Y u 等

[28]

容相同, 则认为该URL 没有使用掩盖作弊技术的可能, 便直接认定为非作弊页面。然后对两个版本不同的URL, 再抓取C2和B2, 进行掩盖技术作弊的判别。在判别上, K. Chellap illa 等人将NBC 和NCC 的差的评价指标进行了归一化, 因为直接使用NBC 和NCC 的差对于页面长度较长的URL 来说, 更容易被划分为作弊页面, 导致误判, 归一化之后则不存在这个问题。他们在实验中得到最好的结果可以在100查全率下得到98 54的准确率。

到目前为止, 识别掩盖作弊的主要方法中, 都需要对每个URL 抓取两个版本的内容, 如果直接应用到实际系统中, 搜索引擎爬虫的效率将会大大下降, 而真正使用了掩盖作弊的页面最多也不到10

[18]

通过用户浏览

行为将这样的链接最大程度地进行了去除。文中在构造链接关系图的时候, 只选取了被用户点击过的

链接, 因为用户一般不会从一个正常页面点击进入一个作弊页面, 这样SL 链接将会很少出现在链接关系图中, 在这样构造的链接关系图中使用T rust R ank 算法, 就能够有效地找出作弊页面。文中使用站点级别数据进行实验, 在用户浏览链接关系图中使用T rust R ank 算法得到的Trust R ank 值最低的100个站点中, 有89个站点为作弊站点或低质量站点。

。所以如何根据爬虫抓取的网页的自身特

征来首先排除大部分不可能使用掩盖作弊的页面, 将是提高识别掩盖作弊效率的重要手段。

2 1 4 重定向作弊页面的识别

B aon i n g W u 和B. D. D av ison

[18]

图3 互联网链接结构, 其中黑色节点为作弊网页,

白色节点为正常页面

F i g. 3 L i nk structure o f w eb , i n w h i ch b l ack nodes are

spa m page s w hil e w h ite ones are regular

2 1 3 掩盖作弊页面的识别

[18]

对于掩盖作弊的页面, B aon i n g W u 在2005年给出了一种检测方法。他建立了两个不同的网

页抓取程序, 一个模拟G oo g le 搜索引擎爬虫, 另一个模拟Interne t E xplorer 浏览器。用两个程序对同

一个URL 分别进行两次抓取, 得到4个版本的页面内容, 分别记作C 1, C 2, B1, B 2。通过比较各个版本之间的区别, 来判断对应的URL 是否使用了掩盖技术。如果模拟爬虫抓到的内容和模拟浏览器抓到的内容差别比较大, 就认为页面可能使用了掩盖技术进行作弊。定义C1和C2两个版本之间的差异度为NCC, C 1和B 1两个版本之间的差异度为NBC, 这个差异度可以认为是两个版本之间存在不同的词语的数目或者是不同的链接的数目。NBC 与NCC 的差则更能表征页面使用掩盖技术的可能性。根据这个假设, 对23475个URL 进行语法层掩盖技术作弊的判断, F 值最高可以达到0 891。

2006年, K. Chellap illa 等人对B aon i n g W u 的方案进行了改进。他们并没有盲目地对每一个URL 抓取4个版本的内容, 而是先使用模拟搜索引擎爬虫和模拟w eb 浏览器分别抓取1次, 得到C 1和, , [17]

鸟 鹏

在对重定向作

弊页面进行抽样分析时, 指出95的在m eta 域中含有refresh 标签的页面都会发生页面的跳转, 剩余5的页面的refresh 标签位于NO SCRIPT 域中, 不产生跳转。但是作者在抽样时只抽取了20个带有

refresh 标签的页面, 并不能很好地说明根据re fresh 标签判断重定向作弊具有很好的性能。况且有的页面本身也使用refre sh 标签来进行正常的网页刷新, 这并不能算作是作弊行为。

K. Che llap ill a 等提出了一个收集基于Java

[19]

Scri p t 跳转作弊页面的方法, 可以用来进行JavaScri p t 重定向作弊的识别。他们使用了一个带有JavaScript 解析功能的爬虫和一个不带JavaScri p t 解析功能的爬虫分别对同一个URL 进行抓取。有解析功能的爬虫将会跟踪页面中的JavaScript 语句, 抓取最终跳转到的页面及其URL, 判断这个URL 和初始URL 的异同, 如果相同, 则不存在JavaScri p t 作弊, 否则判断这个URL 和原始URL 是否在同一域名下。因为如果两URL 在同一域名下, 可能是论坛内部跳转, 并不是重定向作弊, 但如果不是同一域名下的URL, 那么这个页面将被认定为JavaScri p t 重定向作弊页面。

2 2 非特定类别的作弊页面识别技术

下面要介绍的作弊识别技术中并不是针对特定的某类作弊技术, 而是通过其他角度来进行识别。传统的针对作弊技术的识别方法都依赖于作弊技术本身, 需要等作弊技术被搜索引擎发现并认知之后, 出

,

第5期李智超, 等:网页作弊与反作弊技术综述

7

进行识别。而非特定类别的作弊页面识别技术则能够克服传统方法中的这个问题, 而且能够应对各种类型的作弊技术, 即使是新出现的作弊类型也能够有效地进行识别。

2 2 1 基于用户行为的作弊识别技术

Y. L iu 等

[29]

以上两类作弊页面的识别技术都是从作弊页面的作用结果出发来进行识别的, 从作弊页面的成因出发不同, 所以它能够更高效地进行工作, 这也是未来作弊页面识别技术发展的主要方向之一。

认为作弊网页的用户访问大多数

3 结论

目前, 网页作弊已经成为了网络搜索引擎所面临的重大挑战之一。作弊者通过使用各种各样的网页作弊手段, 使自己的页面获得本不属于它们的高排名, 以不正当的行为获得经济利益。这些作弊方法主要包括基于内容的作弊、基于链接关系的作弊、掩盖技术作弊和重定向技术作弊等, 实际网页中更是将各种作弊技术相结合, 增加了搜索引擎识别作弊页面的困难。研究人员不但从作弊技术的成因出发, 针对每一种作弊技术都展开了研究, 而且从作弊产生的作用结果出发, 从用户行为、作弊目的等方面也进行反作弊的研究, 并取得了一定的成果。

但是在反作弊的征途中, 依然有很多的困难摆在眼前。首先, 由于作弊页面通常不仅仅使用一种作弊技术, 所以现有的研究成果大都准确率并不高。其次, 由于在复杂性和效率上存在问题, 很难在实际的搜索引擎系统中得到应用。但也正是这样那样的困难推动着搜索引擎技术的不断进步。

参考文献:

都是由搜索引擎所引导的。基于这样的假设, 文中使用用户浏览日志, 抽取用户访问行为的一些特征, 来进行作弊页面的识别。其中包括:(1) 搜索引擎引导访问率:即由搜索引擎引导到页面的访问次数与页面被用户总的访问次数之比。通过统计, 82的正常网页从搜索引擎获得的访问比例不到10, 然而大约有60的作弊页面从检索结果列表中获得的引导访问比例超过了40。(2) 链接源比例:在日志中页面作为链接源被用户点击到其他页面的次数占页面被访问次数的比例。用户通常不会在作弊页面上点击链接, 所以作弊页面的链接源比例会比较小。(3) 少次数引导比例:用户在一次会话中访问站点中页面数量小于N 的比例。用户在浏览到作弊站点之后, 通常不会再在作弊站点中浏览其他的页面, 所以一次会话中浏览站点页面数都会比较少。

在使用这些特征对页面进行分类之后发现, 在被分类为作弊页面的300个页面中, 有21 67的

页面为基于内容的作弊页面, 23 33的页面为基于

链接的作弊页面, 10 67的页面为其他类型的作弊页面, 只有6的页面是非作弊页面。这说明基于准确率, 还能应对各种类型的作弊页面。2 2. 2 基于作弊目的的作弊识别技术

余慧佳等认为无论对于那一种作弊方法, 作弊的目的都是为了获取经济利益, 虽然作弊者能够更新作弊技术以应对搜索引擎反作弊技术, 但是作弊者生成作弊页面的目的却基本不会发生变化, 一般只有如下几类:第一, 广告类, 这类作弊主要是为了引导用户去点击广告, 从而获取代理商处的利益, 广告类作弊主要有JavaScript 嵌入的列表型、视频类和广告联盟等形式; 第二, 增值服务类, 这一类

[30 31]

用户行为的作弊页面识别技术不但能够达到很高的

作弊主要目的是给用户提供一些收费的服务从而获取利益; 第三, 博客类, 主要通过发布链接等行为为其他站点提供流量或进行广告。余慧佳等

[31]

过了对页面中广告在页面中所占的比例、已经非法查询词引导比例等特征对广告类作弊和一些非法宣传类作弊页面进行了识别, 识别的准确率超过了鸟

还通

1 9.

[1]中国互联网络信息中心(CNN IC ). 第26次中国互联网

络发展状况统计报告[R ].北京:CN N I , 2010.

[2]SILV E R ST EIN C, HEN Z I NG ER M , M ARA IS H, et a. l

A naly sis o f a v ery l arge w eb search eng i ne query l o g [J].ACM SI G IR F o ru m, 1999, 33(1) :6 12.

[3]余慧佳, 刘奕群, 张敏, 等. 基于大规模日志分析的搜索

引擎用户行为分析[J].中文信息学报, 2007, 21(1):109 115.

[4]G YONG Y I Z, GARC I A M O L INA H. W eb spam tax ono

m y [C ]//AI RW eb 05. Ch i ba ,

,

8

山 东 大 学 学 报 (理 学 版) 第46卷

Chall enges in w eb search eng i nes [J].ACM SI G I R Fo ru m, 2002, 36(2):11 22.

[8]SAHAM I M , M ITTA L V, BA LU J A S , et a. l T he happy

searcher :chall eng es i n w eb i nfo r m ati on retriev a l [C ]//P ro ceeding s o f 8th Pacif i c R i m Interna tional C onference on A rtif i c ial Inte lli g ence . V erlag , 2004, 3157:3 12.

[9]FET TERLY D, M AN A SSE M , N A J O RK M.

Spam,

da m n s pa m, and statistics[C ]//P ro ceeding s o f the 7th Interna ti ona lW o rks hop on t he W eb and D ataba ses . N e w Y ork :ACM Press , 2004:1 6.

[10]BAEZA YA TES R, R IBE I RO NETO B . M odern info r

m ati on re trieva l[M].L ondon :A dd is on W esl ey, 1999. [11]PAG E L, BR I N S , M O TW A N I R, e t a. l T he PageR ank

c itati on rank i ng :br i ng i ng o rder t o the w eb [R ].Stan ford :D epart m en t o f C om pute r Sc i ence , Stanfo rd U n i v er sity, 1998.

[12]K LE I N BE RG J . A ut ho rita tive s o urces i n a hyper li nked

env iron m ent [J].Jo urnal o f t he A C M , 1999, 46(5):604 632.

[13]BA EZA YA TES R, CA ST I L LO C, LO PEZ V. Pag er

标签: