2003年4月24日--4月26日广东78个网站分析

2003年4月24日--4月26日广东78个网站分析闫宏飞1 修正任务文件给定任务文件“相关网站.doc ” 总共包括编号1-94个网站,存在如下毛病:有两个编号30的网站,修改为30.1, 30.2

2003年4月24日--4月26日广东78个网站分析

闫宏飞

1 修正任务文件

给定任务文件“相关网站.doc ” 总共包括编号1-94个网站,存在如下毛病:

有两个编号30的网站,修改为30.1, 30.2。

有两个编号75的网站,修改为75.1, 75.2。

编号24与编号39的网站重复,去掉编号39。

编号42的网站实际包括编号44的网站,从域名中可以看出,去掉44。 编号52的网站实际包括编号93的网站,从域名中可以看出,去掉93。 编号25,68,69,78没有给定网址。

得到实际任务数94 1 1-1-1-1-4=89个,为“修订后的相关网站.doc ” 。 1) 2) 3) 4) 5) 6) 2 执行抓取任务

按照“修订后的相关网站.doc ”,依据给定的网址,2003年4月24至4月26日抓取文件(只要有URL 就抓取,不限于.html, .txt等格式文件)。成功抓取的网站按照规则存放:编号1到9的网站存在目录0中;编号10到19的网站存在目录1中;„„;编号90到94的网站存在目录9中。

其中有下述问题的编号网站没有放入相应目录中。完成89-11=78个网站的抓取。

有问题网站:

1) 编号为3,40,86,88的网站是利用数据库文件提供WWW 服务的,量大,两天中没有抓取完成。

2) 编号为7,26,53的网站域名解析不到,不能抓取URL 文件。

3) 编号为10,20,30.2,70的网站有问题,导致抓取程序不能完成工作。

a) 其中 编号10, http://www.gz-gov.org/index.htm,其实际有效URL 为

b) 编号20,http://www.gdyc.gov.cn/ ,只能抓到首页,尽管通过IE 可以继续访问其他链接。

1

,

c) 编号30.2,http://www.chaozhou.gov.cn/framework/browse/0/ ,中的链接有问题,误导搜集程序。

d) 编号70,http://www.pingyuan.gov.cn/ ,只能抓到首页,尽管通过IE 可以继续访问其他链接。

3 结果分析

根据抓取的URL 文件和抓取过程纪录的日志,分析得到:

1) 78个网站(不包括编号2,9,47网站的9个共1.2GB 的视频文件。因为影响统计规律,因此单出)共196,778个文件,占用3.5GB 空间。平均每个网站有2,523个文件,占用44.8MB 空间。

2) 静态网页(消息体首部有Last-Modified ,最后修改时间)(静态网页:严格的说,静态网页并不是绝对“静止”的,它有可能包含了Flash 动画,也可以包含脚本语句,但是与动态网页相比,它的脚本语句都不是在服务器上运行的。特征是网页消息体都有Last-Modified )的共 103,169个,动态网页(动态网页:并不是说包含了各种动画效果的网页就是动态网页,而是指那些包含了在服务器上运行的脚本语句的网页才能称为。当一个网页中包含了在服务器上运行的脚本语句之后,它就可以处理服务器上的各种资源(比如数据库),换句话说,它能够“命令”服务器按它的要求对各种数据资源进行处理。特征是网页消息体都没有Last-Modified )共196,778 – 103,169 = 93,609个。 可以看出静态网页与动态网页的比例基本是1:1。

3) 文件类型:

a) 其中文本类型文件(文件包含可打印的字符和少量的控制字符,可以在ASCII 终端上阅读)有145,284个;

b) 数据文件类型(通常是二进制的或者是不可以打印输出的文件,并且不是可执行文件类型)有51,106个,并且都是静态网页,各种格式的文件分布如图1所示。其中:

图1. 数据文件中各种格式文件的分布

2

,

i) 图像格式文件有49,919个: JPEG格式有29,559个,GIF 格式有20,066

个,其他格式(PNG,TIF )图像文件94个。 ii) Macromedia Flash格式有329个。

iii) 其他格式(PDF, DOC, ZIP, MIDI, Java Class, PC bitmap, MPEG)有352

个。

c) 可执行文件类型(文件包含编译程序的结果)有28个,并且都是静态网页;

d) 未知类型文件有196,778-145,284-51,106,28 = 360个。

4) WWW 服务器中可以直接阅览的文件(文本类型文件)占145,284/196,778 = 73.8,其他格式文件占26.2。静态网页中可直接阅览的文件占(103,169 – 51,105 – 28 ) /145,284 = 35.8,即静态可直接阅览的文件占所有文件的73.8 *35.8 = 26.4 .(利用这个统计规律,如果已知静态可直接阅览的网页,可以推出WWW 上的总网页数。)

5) 静态网页“最后修改时间”分布如表1所图示。这是针对103,169个静态网页文件的统计。

表1 静态网页最后修改时间分布

图2. 涉及“非典”事件网站的网页数分布

3

,

6) 当前两个热点事件分析,都是针对网站中包含的文本类型文件进行的分析。 a) 涉及“非典”事件网页的分析。包含“非典”字眼的网页为1,376个,其中静态网页316个。占文本类型文件1,376/145,284= 0.9;共有44个网站涉及“非典”话题,占所有网站的44/78 = 56.4。涉及“非典”事件网站的网页数分布如图2所示。其中蓝色表示该网站拥有的静态网页数,紫色表示该网站拥有的动态网页数,每一个柱条表示该网站的文本类型文件之和(由静态和动态网页构成)。可以看出:

i) 多数涉及“非典”事件的网站都是以动态网页形式体现,间或有少量的

静态网页体现。

ii) 有的网站完全采用动态网页体现;有的网站完全采用静态网页体现;有

的网站采用动、静态网页混合来体现。

b) 涉及“伊拉克”事件网页的分析。包含“伊拉克”字眼的网页为2,994个,其中静态网页1305个。占文本类型文件2,994/145,284= 2.1;共有30个网站涉及“伊拉克”话题,占所有网站的30/78 = 38.5。涉及“伊拉克”事件网站的网页数分布如图3所示。颜色表示与图2的一致,结论也与依据图2得出的基本一致。

图3. 涉及“伊拉克” 事件网站的网页数分布

----------------------------------------

Note: 如果需要分析单个网站的数据可以同样方法分析得到。

4

标签: