网站影响力的定量评价指标_网络影响因子述评

第24卷第8期2006年8月情 报 科 学V ol. 24,N o. 8August ,2006・综  述・网站影响力的定量评价指标———网络影响因子述评朱 雷(中南大学医学图书馆, 湖南长沙4100

第24卷第8期2006年8月

情 报 科 学

V ol. 24,N o. 8

August ,2006

・综  述・

网站影响力的定量评价指标———网络影响因子述评

朱 雷

(中南大学医学图书馆, 湖南长沙410078)

摘 要:本文将对网络影响因子(WIFs ) 论。从网络计量学诞生到现在, , 据搜索技术也不断提高。目前WIFs 。。此外本文关键词:Internet ; ; WIF G :A    文章编号:100727634(2006) 0821269206

Web Impact F actors :the I ndex of Q uantitative Analysis for WEB Site

ZHU Lei

(Medical Library o f Centeral South Univer sity , Changsha 410078, China )

Abstract :This paper reviews how this linkbased metric has been developed , enhanced and applied. N ot only has the metric itself underg one im provement but als o the relevant data collection techniques have been en 2hanced. WIFs have als o been validated by significant correlations with traditional research measures. Biblio 2metric techniques have been further applied to the Web and patterns that might have otherwise been ignored have been found from hyperlinks. This paper concludes with s ome suggestions for future research. K ey w ords :internet ; webometric studies ; hyperlinks ; web im pact factors ; WIF

揭示其数量特征和内在规律的一门新兴分支学科。

1 网络影响因子的起源及其概念

20世纪90年代中期, 随着Internet 网络技术飞

  111 网络影响因子的研究基础

11111 链接分析

速发展, 纸质印刷型等传统信息资源向数字化、网络化方向发展的进程不断加快, 使用原有的信息计量方法已不能够满足对电子和网络信息进行测度和计量的需要, 这就促成了新的网络计量学的诞生。网络计量学是应用文献计量学、科学计量学及信息技术, 对网上信息的组织、存储、分布、传递、相互引证和开发利用等进行定量描述和统计分析, 以

收稿日期:2005-10-20

链接分析法是网络计量学研究方法的具体应用, 近年来对Internet 上网站之间相互链接分析的研究呈不断上升趋势。链接分析研究的意义在于:

(1) 通过分析站点被其他站点“引用”的情况, 也就是对其它站点指向某站点的链接数量进行统计分析, 可以帮助确定核心站点。

(2) 为网络信息资源的评价提供依据。可以通

作者简介:朱 雷(1973-) , 男, 湖北宜昌人, 中南大学医学图书馆馆员,

中南大学公共卫生学院社会医学与卫生

事业管理博士生, 从事网络数据库开发、应用, 网络计量学研究.

,

1270情 报 科 学                  24卷

子的测度进行了研究。他选取的研究对象是澳大利

亚的大学网站和电子期刊网站, 并把研究结果与传统的研究方法得出的结果进行了对比。他采用的计算方法与IngWemen 类似, 得出的结论是:大学或者研究机构的网络影响因子是评价其网络影响力的一个有用指标。Vaughan 和Thelwall 对电子期刊

【11】

网站, T ang 和Thelwall 对科研学术网站的网络影响因子进行了研究, 。这一结果表、学术im 研究了学者个人学, 他位学者, 这些学者所在网上发表的学术性论文都存在被外部链接的情况, 研究结果表明上述网页与普通网页的网络影响因子具有一致性, 即内容丰富、信息更新、更快、可利用价值高的网页的网络影响因子越高, 网络影响力就越大。1999

【13】

年, Owen Thomas 和Peter Willett 对英国大学图书情报系网站的网络影响因子做了分析。他们发现链接到图书情报学系网站的网页中有很多是来自非图书情报主题的网页甚至是商业性的网页。他们认为:链接分析的数据不适合用于对图书情报系的研究能力进行定量研究。

实际上AltaVista 搜索引擎统计出的链接数是那些至少包含一个指向被链接网站的网页。

【14】

Egghe 指出网页链接可能是双向的(网页可以相互链接而不论它们出现在网络上的先后顺序) , 但引用却是单方向的, 引用的常见情况应该是后出现的网页链接较早出现的网页。然而在网络上也可能出现这种情况, 即网页的制作者相互交换链接。同时WIF 与J IF 的时效性也是不相同的, J IF 计算的时间段是指期刊已经出版后的一段时间内其他作者对期刊论文的引用, 而WIF 计算的是某一时间点, 即搜索引擎在网上爬行的极小时间段。与期刊内容相比较, 网页的内容缺乏同行的评审, 所以缺乏质量控制, 因此WIF

与J IF 相比较还是存在较大的区别。早期WIF 计算被认为是网络计量学的一个粗

【13、15-17】

略统计工具。首先, 因特网上的链接与其说是对感兴趣的网页内容的认可, 不如说其仅仅只起到了网络导航的作用。Web 站点包含的网页越多, 其内部链接量也就越大。所以说只有外部链接数才能真正代表对目标网页的引用, 才更具有计量学意义。然而区分内、外部链接数并非容易之事, 例如, 英国的计算机信息学院(scit 1wlv 1ac 1uk ) 站

【10】

过计算网络资源被检索或引用的次数来测定网络资源的重要性。

(3) 指导网站建设和网络管理, 完善搜索引擎的功能。高度链接的站点被认为是“核心站点”,

【1】

这样就可以增加网站的知名度, 推动网站建设。

(4) 根据链接深度分析结果, 使网络机器人对不同类型的网络进行不同深度的搜索, 同时删除无效链接, 以提高其检索质量。美国斯坦福大学的数学图书馆计划开发的G oogle 搜索引擎就可以通过对搜索到的网页超链接进行定量分析来对其搜索结果进行排序。

11112 引文分析

要工具。在网络环境下, 。信息科学家从1996, 并将超

【3-7】

。  112 网络影响因子的产生

网络影响因子是链接分析研究中的一个重要概念。它最早出现在Ing wersen 于1998年发表的《网络影响因子的计量》一文中。他选择了包括7个国家(英国、挪威、法国、丹麦、瑞典、芬兰、日本) 域名、4个顶级域名(1Bov 、1orx 、1com 、1edu ) 和6个学术机构域名的网站, 利用A1taVista 的高级检索功能得到了各自的网站总网页数和网页链接数, 在此基础上Ingwersen 计算了各网站的网络影响因子。

  113 网络影响因子的概念

从Ingwersen 的论文中可以得知网络影响因子的概念是借鉴期刊影响因子的计算方法提出来的。它是指网络空间中所有指向某网站的超链接总数除以该网站内的所有页面总数, 在数学上可以用这样的数学公式表示:在某一时间点, 某个网址被其他网址和其自身所链接的网页数目的逻辑和(a ) 除以该网址的所有网页数(b ) , 即WIF =a Πb 。网络影响因子还可以分为外部网络影响因子(某个网址被其他网址所链接的网页数目除以该网址的所有网页数) 和内部网络影响因子(某个网址被其自身所链接的网页数目除以该网址的所有网页数) 。  114 早期网络影响因子的实证测量

Alastair G 1Smith 在1998年10月对网络影响因

【9】

【8】

【2】

,

8期          网站影响力的定量评价指标———网络影响因子述评1271

点是w olverham pton (wlv 1ac 1uk ) 大学网站的下属的子站点, 那么从wlv 1ac 1uk 指向scit 1wlv 1ac 1uk 的链接应该被认为是外部链接还是内部链接呢? 本文认为作为同一所大学网站内的链接, 其应被看作内部链接; 其次, 搜索引擎对链接数据的统计存在着固有的缺陷。如AltaVista 搜索引擎在1999年10月升

【17-18】

级以前其检索结果相当不稳定, 对同一检索目的不同的检索表达式检出的结果不同, 因此信息学家不得不设计多种测量方案以最大限度地减少这

【8、15】

种误差; 第三, WIF 计算公式的分母是该网站所包含的网页总数, 而什么样的内容才能被当作是一个网页并没有公认的标准, 是一个网页, 而作为几个网页进行计算, , , , 那么其WIF 值为100, 100个页面来显示, 那么其WIF 值仅为1。这表明WIF 的结果将会因电子文档在Web 网上出现方式的不同而具有很大的差异性。

检索目的网站的总网页数T

Altavista 的检索表达式H ost :w w w 1csu

1edu 1cn

2 网络影响因子计算公式数据的收集

为了对Web 站点网络影响因子进行计算分析, 那么首先要对Web 站点链接数量进行统计。在网络计量学研究中, 商业搜索引擎和专门的网络爬行工具都被使用。  211 商业搜索引擎

, AltaVista (w w 2AllTheweb (w w w 1alltheweb 1com ) 大, 网页数据库及时动态更新, 并且提供了对网站总网页数及网站总链接数的检索命令, 同时运用布尔逻辑符对检索命令进行组配, 可得到某网站的内、外部链接数, 所以都被用于对链接量及网页数

【8、15、20】

的计算。Altavista 和AllTheweb 搜索引擎的检索表达式和网络影响因子计算见下表(以w w w 1csu 1edu 1cn 网站为例) :

AllTheweb 的检索表达式Must

include in the include in the include in the include in the include in the

表1 AltaVista 与AllTheweb 检索表达式的比较

网站的总链接数L Link :w w w 1csu 1edu 1cn Must

网站的内部链接数S S1:link:w w w 1csu 1edu 1cn AND host :w w w 1csu 1edu 1cn S2:host:w w w 1csu 1edu 1cn AND link :w w w 1csu 1edu 1cn

Must

host :

link to UR L AND NOT Must include http :ΠΠw w w 1csu 1edu 1cn in the

(host :AND

UR L

网站的外部链接数E E1:link:w w w 1csu 1edu 1cn AND

w w w 1csu 1edu 1cn E2:link:w w w 1csu 1edu 1cn AND

w w w 1csu 1edu 1cn link :ww w 1csu 1edu 1cn ) E3:link:w w w 1csu 1edu 1cn AND

w w w 1csu 1edu 1cn host :ww w 1csu 1edu 1cn )

NOT

(link :AND

NOT NOT

总网络影响因子WIF 外部网络影响因子WIFe 内部网络影响因子WIFs

【19】

L ΠT

(E1 E2 E3) Π3ΠT (S1 S2) Π2ΠT

L ΠT E ΠT S ΠT

  如邱均平等利用A LLTheWeb 搜索引擎搜索42种工程类中文期刊网站的外部链接数, 并计算

,

1272

【20】

情 报 科 学                  24卷

商业搜索引擎AltaVista 和专门的爬行器得出的结论

比较类似, AltaVista 也可以用作网络影响因子测度的工具, 但是它们的适用范围不同。A1taVista 更便于做探索性研究, 专门的爬行器在进行验证性的研究方面要好一些。

专门的爬行工具的优点在于它的检索算法更科学, 它可以通过参数设置统计某个单独站点的链接

【32】

数据, Web 其网络影响因子。杨涛采用A LLTheWeb 搜索引擎对中国20所大学的链接进行了统计分析, 指出尽管A LLTheWeb 搜索引擎在处理中文网站的能力上没有处理英文网站那样出色, 但是用来做网络信息计量学的研究还是基本可行的。

G oogle 搜索引擎(w w w 1g oogle 1com ) 同样具有高级检索方法, 但它不具备AltaVista 和AllTheweb 对某一站点的链接数进行检索的功能, 它只能统计某一网页的链接数, 其次G oogle 的高级检索虽然能限定在某一分类域名中, 但它不能准确地区分内外部链接。所以说尽管G oogle 被认为是使用最广

【22】

泛的搜索引擎, 【23-24】

因此, 因为, 所以研究者在很多情况下没有必要自己去开发设计一种专门的爬行工具对整个Web 网或某个国家的Web 网进行爬行分析。但商业搜索引擎也存在缺陷, 比如只对Web 网进行了部分搜索, 统计出的值都是近似值, 检索结果里有许多死链接, 其检索结果在不同时间相差较大, 尤其是其检索算法是保密的, 用户在使用过程中无法对它进行有效控制等, 因此其稳定性和可靠性较【17、25-27】差, 所以使用商业搜索引擎检索出的结果只是被认为是定性分析, 而不能作准确的定量分析

【28】

研究。基于此, Bar -Ilan 敦促信息学家设计专门的爬行工具以便获得准确的数据结果。  212 专门的爬行工具

设计出一种专门的爬行工具来克服商业搜索引擎的弊病:爬行器首先从一所大学的网站的主页开始, 分析网页上全部的链接并下载所有来自同一站点的网页, 上述过程将反复进行, 直到所有链接都被分析完成。该爬行工具能更加准确地区分并排除来自网站内部的重复页面和该网站的镜像站点(相同的网站内容被存贮在不同的服务器上) 上相同的页面。采用这种数据收集方法, 研究

Thelwall

【28-29】

【21】

  311 对网络影响因子计算公式分子的改进尽管早期的WIF 分析并没有什么非常有价值的成果, 但它开创了网络计量学一个新的研究领域。随后信息学家在链接分析过程中发现内部链接存在着种种不确定因素, 因此他们用外部链接量逐步取代了总链接量作为WIF 公式的分子。Smith 研究了澳大利亚的大学网站和电子期刊网站, 他就

【33】

将外部链接量作为WIF 的分子。Thelwall 利用专门的爬行器对英国6所大学网站的链接作了研究, 分子仍然是外部链接数, 分母是网站的总网页数。  312 对网络影响因子计算公式分母的改进利用了两种工具———自己设计的爬行器和商业搜索引擎Alta 2Vista 对英国、澳大利亚、新西兰的大学及中国台

Alastair G Smith 和Mike Thelwall

【31】

【8】

湾大学之间的相互链接情况做了统计, 分别得出了网络影响因子的分子部分。对于分母部分, 也采用了两种计算方法:一是网站所包含的网页数, 另一种为学校的研究人员数, 采用学校的科研人员总数作为分母, WIF 的计算公式就变为:WIF =某大学网站的外部链接数Π该大学科研人员总数

。这是首次在WIF 研究中考虑到网络以外的因素对网络影响因子的作用, 这种改进后的WIF 结果的相关性经分析后被认为是最好的, 而普通的用

【20】

AltaVista 计算出的WIF 相关性最差。杨涛从中国大陆20所大学网站的总链接数、站外链接数、教育网站外链接数入手, 比较总网络影响因子、外部网络影响因子、总科研网络影响因子、科研网络影响因子、教育网影响因子的效用。认为在网络影响

者能更准确有效地计算网站的总网页数及链接数。在搜索过程中, 爬行工具只搜索包含在网站索引中

【30】

的网页, 那些尽管被站外结点链接但没有被自身站点主页直接或间接链接的网页将被排除在网站

【31】

总网页数的范围外。Smith 和Thelwall 比较了自己设计的爬行器和商业搜索引擎AltaVista , 他们认为

,

8期          网站影响力的定量评价指标———网络影响因子述评1273

因子的计量中, 以某大学的总科研人员数(即专任教师数、专职科研人员数、博士生数) 作为衡量某

【34】

网站的大小也是比较科学的。Thelwall 分析了10个不同域类之间的链接和96所英国大学网站的外部链接情况, 研究结果发现顶级域名为edu 、ac 1uk 、uk 、org 及外部网络影响因子都与平均RAE

性的特点, 但利用超链接分析对大范围Web 网而

言, 确实能起到揭示某些规律性的作用。在对WIF 进行改进后, WIF 已经被发现与网络外的其它因素存在密切相关的特点。

网络影响因子可以像传统的影响因子用于对期刊、科学家、研究机构等进行评价一样, 可以用于对网站进行评价。一般说来, 网络影响因子的值越高则该网站的价值就越大。, 站能, 每天都有成千上万的新。网络影响因子的测度主要, 将它应用到网络结构的分析上, 应用其结果, 可以建立网络导航图。另外网络影响因子的研究可以改进网络信息检索工具的性能, 通过对网络影响因子的研究使搜索引擎更加智能化, 使其只在重点区域爬行, 以提高检准率。

对于未来的信息学家而言, 网络计量学不仅仅能在诸如顶级分类域名或某个国家这样大范围的Web 网络中对网络信息进行规律性、特征性的研

指标存在相关性。Smith 和Thelwall 利用AltaVis 2ta 、AllTheweb 以及专门的爬行工具对英国、澳大利亚、新西兰的Web 空间及大学网站的链接作了统计, 并且以大学科研人员数作为分母对WIF 进行了计算。T ang 和Thelwall 也发现在中国内地的大学网站的外部WIF 与大学排名存在相关性。  313 息, 。Thelwall 经研究认为, 接的网页之间的链接数比那些只有单向链接的链接数在链接统计分析中更具可靠性。

【36】

【35】

【20】

  4 引用在网络影响因子和期刊影响因子中的差异

  超链接可被看作是文献计量学研究中的论文相互引证的类似概念。论文之间的引用被认为是评估学术水平的一个指标, 例如某一期刊的某篇论文被其他期刊的两篇论文引用, 或者这篇论文的同一部分被另一种期刊的两篇论文所引用, 那么该论文的被引次数为两次, 但是一篇论文的多个章节都被另一篇论文所引用, 这篇论文的被引次数仍然为一次。对于Web 网上的链接而言, 网页是不同于期刊页面的另一种载体形式。某个网页的被链接次数被定义为是那些至少具有一个超链接指向那个页面的网页数, 如果利用搜索引擎统计链接数, 那么可能会存在与引文统计不一致的地方, 即某个网页包含多个内容, 这些内容被另一网页所链接, 则搜索引擎会认为其链接数为一次; 在Web 网上也会出现某一主题被切分成几个页面来阐述, 或者多个页面论述的是同一主题的现象, 在这种情况下对网页链接进行统计可能会出现偏差。

究, 而且应深入到单个网站内部将其有价值的信息分离出来。

另外, 我们知道在引文分析中不同的引文类型和引文动机的价值是不同的, 在链接分析中同样应根据链接的不同类型和不同动机给出网页的不同权值, 使网络影响因子的值更加准确。

参考文献

1 龚立群. 网络计量学的研究方法及应用[J].新世纪图书

馆,2003, (6) :6-9.

2 ST ANFORD [DB ΠO L ].http :ΠΠdiglib. stan ford. edu Πindex. htm , 2005-09-22.

3 Almind ,T. C. , Ing wersen , P. In formetric analyses on the W orld

Wide Web :methodological approaches to Webometrics [J ].Journal of D ocumentation ,1997,53(4) :404-426.

4 Davenport , E. ,Cronin ,B. . The citation netw ork as a prototype for representing trust in virtual environments , in Cronin , B. (Ed. ) ,The Web of K nowledge :a Festschrift in H onour of Eu 2gene G ar field ,In formation T oday ,Med ford ,N J. 2000. 517-534. 5 R ousseau , R. . S itations :an exploratory study. Cybermetrics. 1997,1(1) [DBΠO L ].http :ΠΠw w w. cindoc. csic. es Πcybermetrics Πarticles Πv1i1p1. html ,2005-09-22.

6 ISI. ISI Web of Science. 2003[DB

ΠO L ].http :ΠΠw w w. isinet.

com Πisi Πproducts Πcitation Πw os Π,2005-09-22.

7 M oed , H. F. . The im pact -factors debate :the ISI ’s uses and

5 结  语

尽管Web 网络结构分散, 具有动态性和多元

,

1274

limits[J].Nature ,2002, (415) :731-732.

情 报 科 学                  24卷

2005-09-22.

24 Sullivan ,D. . G oogle tops in “Search H ours ”ratings. Search 2

EngineWatch, 2002[DB ΠO L ].http :ΠΠsearchenginewatch. com Πsereport Π02Π05-ratings. html ,2005-09-14.

25 Bar -I lan ,J. . Search engine results over time :acase study on

search engine stability. Cybermetrics ,1999,2Π3(1) [DB ΠO L ].http :ΠΠw w w. cindoc. csic. es Πcybermetrics Πarticles Πv2i1p1. ht 2ml ,2005-09-20.

26 Thelwall ,M. . Im plications of search coverage on the vi 2

ability of commercial ,Proceedings of ICEIS 27. Data on the Web for in forme 2

and analysis[J].Scientometrics ,2001, (:7-32.

 Thelwall ,M. . A Web crawler design for data mining[J].Jour 2

nal of In formation Science ,2001,27(5) :319-325.

29 Thelwall ,M. . A publicly accessible database of UK university

Website links and a discussion of the need for human interven 2tion in Web crawling[C].University of W olverham pton ,2001, W olverham pton.

30 Lawrence ,S. , G iles ,C. L. . Accessibility of in formation on the

Web.Nature ,1999, (400) :107-109[DB ΠO L ].http :ΠΠw w w 2metrics. com Π,2005-09-22.

31 Smith ,A. G. ,Thelwall ,M. . Web im pact factors and university

research links ”[C].Proceedings of the 8th International C on 2ference on Scientometrics and In formetrics , Sydney Australia , 2001, (2) :657-664.

32 Thelwall ,M. . Methodologies for crawler -based Web surveys

[J].Internet Research :E lectronic Netw orking and Applica 2

tions ,2002,12(2) :124-138.

33 Thelwall ,M. . Results from a Web Im pact Factor crawler [J].

Journal of D ocumentation ,2001,57(2) :177-191.

34 Thelwall ,M. . A com paris on of s ources of links for academic

Web Im pact Factor calculations[J].Journal of D ocumentation , 2002,58(1) :60-72.

35 T ang ,R. ,Thelwall ,M. . Exploring the pattern of links between

Chinese university Web sites[C].Proceedings of the 65th An 2nual Meeting of the American S ociety for In formation Science and T echnology ,2002, (39) :417-424.

36 Thelwall ,M. . Evidence for the existence of geographic trends in

university Web site interlinking[J].Journal of D ocumentation , 2002,58(5) :563-574.

37 Thelwall ,M. . C onceptualising documentation on the Web :an

evaluation of different heuristic -based m odels for counting links between university Web sites[J].Journalof the American S ociety for In formation Science and T echnology ,2002,53(12) :995-1005.

(责任编辑:滕代娣)

8 Ing wersen ,P. . The calculation of Web Im pact Factors[J].Jour 2nal of D ocumentation ,1998,54(2) :236-243.

9 Smith ,A. G. . The Im pact of Web sites :Acom paris on between Australasia and Latin America. In Proceedings of I NFO π99,C on 2gres o Internacional de In formacion ,Havana ,4-8October 1999. Retrieved January 3. 2003[DBΠO L ].http :ΠΠw w w. vuw. ac. nz Π~agsmith Πpublns Πaustlat Π,2005-09-20.

10 Vaughan ,L. ,Thelwall ,M. . Scholarly use of the Web :Whatare

the key inducers of links to journal Web sites ? [J].Journal of the American S ociety for In formation Science and T echnology , 2003,54(1) :29-38.

11 T ang ,R. ,Thelwall ,M. . Disciplinary differences in US ic departmental web site interlinking[J].In 2tion Science Research ,2003,53(412 K im ,H. J. . M articles of American S ociety for In ,2000(10) :887-899.

13 Thomas ,O. ,P. . Webometric analysis of departments of

librarianship and in formation science[J].Journalof In formation Science ,2000,26(6) :421-428.

14 Egghe ,L. . New in formetric aspects of the Internet :some reflec 2

tions -many problems [J ].Journal of In formation Science , 2000,26(5) :329-335.

15 Smith ,A. G. . A tale of tw o Web spaces :comparing sites using

Web im pact factors [J].Journal of D ocumentation , 1999, 55(5) :577-592.

16 Thelwall , M. . rdquo ; Web im pact factors and search engine

coverage[J].Journal of D ocumentation , 2000, 56(2) :185-189.

17 Bjorneborn ,L. , Ing wersen , P. . Perspectives of Webometrics

[J].Scientometrics ,2001,50(1) :65-82.

18 R ousseau ,R. . Daily time series of comm on single w ord search 2

es in AltaVista and N orthern Light. Cybermetrics ,1999,2Π3(1) [DB ΠO L ].http :ΠΠw w w. cindoc. csic. es Πcybermetrics Πarticles Πv2i1p2. html ,2005-9-22.

19 邱均平, 安 璐. 中文期刊影响因子与网络影响因子和

外部链接数的关系研究[J].情报学报,2003,22(4) :398

-402.

20 杨 涛. 网络信息计量学实证研究:对国内20个大学网

站的分析[J].图书情报工作,2003, (9) :61-66.

21 Smith ,A. G. ,Thelwall ,M. . Web Im pact Factors for Australa 2

sian universities[J].Scientometrics ,2002,54(1Π2) :363-380. 22 Sullivan ,D. . Search engine features. SearchEngineWatch ,2001

[DBΠO L ].http :ΠΠsearchenginewatch. com Πfacts Πassistance. ht 2ml ,2005-09-20.

23 Sullivan , D. . Search engine sizes. SearchEngineWatch , 2001

[DBΠO L ].http :ΠΠsearchenginewatch. com Πreports Πsizes. html ,

标签: