第二部分 调查说明
第二部分 调查说明一、调查对象所有域名注册单位属于中国(不包括香港、澳门、台湾)的网站总和,包括.COM, .NET, .ORG和.CN 域名(含ORG.CN ,GOV .CN, EDU.CN等) 下
第二部分 调查说明
一、调查对象
所有域名注册单位属于中国(不包括香港、澳门、台湾)的网站总和,包括.COM, .NET, .ORG和.CN 域名(含ORG.CN ,GOV .CN, EDU.CN等) 下的所有网站。 二、调查内容
表 1 调查内容和指标


三、调查时间
调查时间:2002年11月-2003年3月;数据截至时间:2002年12月31日。 四、有关概念
1
在本次调查中,中国互联网络信息资源定义为:中国互联网络上公开发布的网页和
在线数据库的总和。 2 3 4
中国互联网络是指所有域名注册单位属于中国大陆的网站总和。 在线数据库是指以Web 为界面,提供公共检索的收费或免费的数据库。
网站是指有独立域名的web 站点,其中包括CN 和通用顶级域名(gTLD )下的web
站点。此处的独立域名指的是每个域名最多只对应一个网站"WWW. 域名" ,如:对域名sina.com.cn 来说,它只有一个网站www.sina.com.cn ,并非它有news.sina.com.cn 、mail.sina.com.cn……等多个网站。 5
商业网站指业务主要在网上进行的电子商业网站,如新浪、搜狐、网易等网站;企
业网站是相对于商业网站而言,指业务主要在网下进行的企业所建立的网站,如赛迪顾问股份有限公司的网站www.ccidconsulting.com 。 6
网页搜索是指对抽取的网站从其首页(WWW 域名)开始搜索,通过网页上的层层
,链接,抓取所有属于该网站的网页的特征及其文本内容。
7 静态网页是指URL 中不含?和输入参数的网页,包括:*.htm、*.html、*.shtml、*.txt、*.xml等。
8 动态网页是指URL 中含?或输入参数的网页,包括:ASP ,PHP ,PERL ,CGI 等在Server 方进行处理的网页。
9 网页的编码形式:是根据网页本身的信息通过分析得到的,不是通过一篇网页在HTML 中的声明来判断的。因为大量国内的英文网页在其HTML 声明中都是简体中文。 10 网页的内容形式:是通过文件后缀获得的。关于图像、音频、视频的文件后缀定义标准参考MIME 标准。
11 网页的更新情况:网页的更新时间是指搜索到该网页的当日日期与该网页的最后更新日期之间的时间段。
五、调查方法
(一)数据获取方式和渠道
域名和网站的总量数据通过国内各国际域名注册商和CNNIC 联合获得。
网页的特征数据由百度公司利用搜索技术对全国网站进行搜索获得。搜索时通过URL 判断同一网页是否有多个链接指向,避免了对这类网页的重复计算,通过判断不同网站的IP 地址和首页字节数是否相同, 排除了不同域名指向同一网站的情况。
网站的特征数据及在线数据库的特征数据通过赛迪Call Center电话问卷调查的方式获得。
(二)调查问卷的抽样方法
1.各家域名管理机构或注册商应抽取的样本网站数
考虑到参与本次调查域名管理机构或注册商的信息保密要求,抽样过程由调查工作组提供抽样办法,由域名管理机构或注册商按照抽样办法抽取指定数量的网站作为样本网站。抽样时取样本容量为6000个网站,样本网站按照域名管理机构或注册商所注册域名的网站数占全国网站总数的比例进行分配。
具体计算办法如下:M i = 6000×(n i / N)
其中:M i 表示第i 家域名管理机构或注册商所应抽取的网站数,n i表示第i 家域名管理机构或注册商所注册域名的网站总数,N 表示全国网站总数。由于调查过程中需要替换、补充样本,因此从各家域名管理机构或注册商抽取的网站样本数将多于最终进行调查的网站数。
2.委托各家域名管理机构或注册商进行网站样本抽取
各家域名管理机构或注册商在提供了具有要求信息的网站名录(抽样框)的前提下,按
,照以下步骤抽取样本: 步骤1:
先排序:由域名管理机构或注册商对其抽样框(所注册域名的网站名录及相关要求信息)首先按照" 省市区" 进行排序,然后在各省市区下再按网站域名类型排序,进而在网站域名类型下按网站所属单位性质排序(排序的次序参考下表)。
注:这实际上是一个多关键字排序,第一关键字为" 省市区" ,第二关键字为" 网站域名类型" ,第三关键字为" 网站所属单位性质" ,如果没有" 网站所属单位性质" 则考虑按照" 网站建立时间" 进行排序。
后编号:最后按照三次排序后的顺序依次对网站进行编号。 省市区排序的先后次序规定如下:
表 2 地区排序表

注:本次调查暂不包括香港、澳门、台湾。 网站域名类型排序次序规定如下
表 3 域名类型排序表
步骤2:

按照前面指定的数量从网站库中随机抽取M 个网站作为贵单位所需提供的网站样本。抽取规则:首先在所有排完序的网站中从序号1网站至序号[n/M]网站中随机抽取一个网站(假设为序号S 网站),则序号S +i[n/M] (i=0,1,2…M-1) 的所有网站即为样本网站。
步骤3:
将以上步骤所抽取的样本网站及其相关信息(包括:网站名称、网站域名、网站所在地、网站域名类型、网站所属单位性质、网站联系人、联系电话、E-mail )存为Excel 工作表文件。
六、调查问卷
本次问卷调查的实际网站样本数为5932个,采用专业呼叫人员进行电话问卷,最终获得有效网站样本数为2254个,有效样本率为38.0。在置信度为95的精度要求下,可保证最大允许绝对误差小于2。
调查问卷时间为2002年12月-2003年3月。问卷所采集数据的相应记录时间为2002年12月31日。关于网站问卷调查表内容请见本报告附录。
七、组织单位
1、委托单位:
国务院信息化工作办公室
2、实施单位:
中国电子信息产业发展研究院(CCID )
中国互联网络信息中心(CNNIC )
3、协助单位(按字母排序):
百度在线网络技术(北京)有限公司
北京东方网景信息科技有限公司
北京信诺立兴业网络通信技术有限公司
创联万网国际信息技术(北京)有限公司
东方通信股份有限公司
厦门精通科技实业有限公司
新网Chinadns -北京信海科技发展公司