××年中国互联网络信息资源数量调查报告
信息资源数量调查报告主持单位:国务院信息办推广应用组承办单位:中国互联网络信息中心完成时间:××年月(本文图均略)目录第一部分调查背景第二部分调查说明一、调查对象二、调查内容三、调查时间四、有关概念五
信息资源数量调查报告
主持单位:国务院信息办推广应用组
承办单位:中国互联网络信息中心
完成时间:××年月
(本文图均略)
目录
第一部分调查背景
第二部分调查说明
一、调查对象
二、调查内容
三、调查时间
四、有关概念
五、调查方法
六、调查问卷
七、组织单位
第三部分调查结果
第一章域名、网站数及地区分布
一、域名数
二、网站数
第二章网站性质及服务内容
一、网站按性质分类
二、网站的基本情况
三、各类型网站信息服务内容及信息更新情况
第三章网页数量及性质特征
一、全国网站的网页情况
二、国内前家大型网站的网页情况
三、全国网站的网页与国内前家大型网站的网页情况比较
第四章在线数据库数量及性质
一、在线数据库数量及各类网站拥有在线数据库情况
二、在线数据库按内容和记录数分类情况
第五章总结
一、域名统计
二、网站统计
三、网页统计
四、在线数据库统计
图目录
图地区域名数量分布
图站点性质分类
图地区网站数量分布
图不同性质类型网站分布图饼状图
,图不同性质类型网站分布图柱状图() 图平均每个网站每天的页面访问数 图网站每天的页面访问数按类型分布 图企业网站每天的页面访问数按行业分布() 图制造业企业网站每天的页面访问数() 图业企业网站每天的页面访问数() 图各类网站的网站链接情况 图各网站链接数的网站比例 图各类网站的信息主要来源情况 图各类网站提供的语种文字阅读情况 图各类网站提供全站信息搜索的情况 图各类网站的网页上提供网站地图的情况 图各类网站的网页上提供联系方式的情况 图各类网站服务器拥有情况 图拥有服务器的网站比例 图各类网站拥有服务器情况 图拥有服务器的各类网站所采用的操作系统情况 图负责网站运营的全职员工人数情况 图各类网站负责运营的平均全职员工人数 图各类网站负责运营的全职员工人数拥有情况 图网站的成立时间饼图 图提供各类信息服务的政府网站的比例 图政府网站交互性服务 图政府新闻更新周期 图政府职能业务介绍更新周期 图统计数据资料查询更新周期 图法律法规政策文件更新周期 图办事指南说明更新周期 图办公业务咨询信息更新周期 图政府通知公告更新周期 图办事进程状态查询更新周期 图企业行业经济信息更新周期 图便民生活住行信息更新周期 图表格下载更新周期 图政府公告、新闻、政策等信息通过网站发布情况 图政府日常办公事务与网站相关服务的结合程度 图提供以下信息服务的企业网站的比例 图提供以下交互服务的企业网站的比例 图企业网站信息总体更新情况 图企业介绍更新周期 图产品服务介绍更新周期 图行业新闻更新周期 图企业动态更新周期 图售后服务技术支持更新周期
,图行业解决方案更新周期
图行业报告更新周期
图电子期刊更新周期
图招聘信息更新周期
图企业网站的行业分布
图制造业中各类网站的分布
图业中各类网站的分布
图企业产品、服务、企业新闻等信息通过网站发布情况
图企业业务与网站的结合程度
图提供各类服务
。
网站地图等
安全性防火墙、操作系统等
网站效果指标信息发布可用性度量
业务结合
网页网页按内容形式分类比例计算机搜索包括图像、音频和视频
网页按性质分类比例政府、企业、商业等
网页按地域分布比例省域及七大区分布
网页长度以字节数计算
网页的更新周期
网页编码状况简、繁体中文、英文等
在线数据库按性质分类比例问卷调查政府、企业、商业网站等
按地域分布比例华北、华南等七大区分布
按内容分类比例产品、科技信息数据库等
按形式分类比例图形文字数据综合等
按使用情况分类比例分自用和公用
公用下分免费和收费
收费下分收费方式
按服务方式分类比例面向终端用户或中介
在线数据库更新状况-
数据库容量物理存储量()
是否同时具有其它载体
否、是(光盘、纸质等)
三、调查时间
调查时间:××年月-××年月;数据截至时间:××年月日。
四、有关概念
.在本次调查中,中国互联网络信息资源定义为:中国互联网络上公开发布的网页和在线数据库的总和。
.中国互联网络是指所有域名注册单位属于中国大陆的网站总和。
.在线数据库是指以为界面,提供公共检索的收费或免费的数据库。
.网站是指有独立域名的站点,其中包括和通用顶级域名()下的站点。此处的独立域名指的是每个域名最多只对应一个网站域名,如:对域名来说,它只有一个网站,并非它有、……等多个网站。
,.商业网站指业务主要在网上进行的电子商业网站,如新浪、搜狐、网易等网站;企业网站是相对于商业网站而言,指业务主要在网下进行的企业所建立的网站,如联想集团的网站。
.网页搜索是指对抽取的网站从其首页(域名)开始搜索,通过网页上的层层链接,抓取所有属于该网站的网页的特征及其文本内容。
.静态网页是指中不含?和输入参数的网页,包括:、、、、等。
.动态网页是指中含?或输入参数的网页,包括:,,,等在方进行处理的网页。
.网页的编码形式:是根据网页本身的信息通过分析得到的,不是通过一篇网页在中的声明来判断的。因为大量国内的英文网页在其声明中都是简体中文。
.网页的内容形式:是通过文件后缀获得的。关于图像、音频、视频的文件后缀定义标准参考标准。
.网页的更新情况:网页的更新时间是指搜索到该网页的当日日期与该网页的最后更新日期之间的时间段。
五、调查方法
(一)数据获取方式和渠道
域名和网站的总量数据通过国内各国际域名注册商和联合获得。
网页的特征数据由百度公司利用搜索技术对全国网站进行搜索获得。搜索时通过判断同一网页是否有多个链接指向,避免了对这类网页的重复计算,通过判断不同网站的地址和首页字节数是否相同,排除了不同域名指向同一网站的情况。
网站的特征数据及在线数据库的特征数据通过电话问卷调查的方式获得。
(二)调查问卷的抽样方法
总体界定
按照对中国互联网络信息资源的定义(中国互联网络上公开发布的网页、在线数据库的总和),同时考虑到未注册域名而提供服务的网站数量较少以及调查的难度,本次调查中所指的总体为:中国(不包括香港、澳门、台湾地区)所有已注册域名的网站,包括,,和域名含,等下的所有网站。
抽样框
关于抽样框,最直接的作法是选择抽样框为全国有域名的网站名录。由于保密性的原因,抽样过程需要委托各域名注册代理商完成,从方便实施并提高数据精度的角度考虑选择抽样框为全国(不含港、澳、台)范围内的域名名录。
由于一个网站可能会有两个或两个以上域名,而有的域名没有建立网站。这样对于总体而言,就出现了抽样框单位没有对应的抽样单位、抽样框单位和抽样单位不一一对应等问题。对此,考虑采用排除、事后加权等方法来解决。
抽样方法
本次调查的抽样方法采用分层按比例抽样:考虑到各域名类别下网站特征的差别,首先按域名类别分层;之后在每个类别内采用定距抽样的方法来抽取样本,最后对调查结果进行事后加权处理以估计全国范围的估计量。下面分阶段叙述抽样方法:
第一阶段:将样本量分到各层
因为到目前(××年月)为止只有截止××年月日的全国范围的域名数的情况;同时考虑到我们主要是利用各类别域名数之间的比例关系来确定样本量在各层的分配,而这种关系应该不会有较大的变化。因此本方案按照截止××年月日的各类别域名数占全国域名总数的比例将样本总量分配到各域名类别。
第二阶段:将样本量分配到各域名注册代理商
抽样过程由域名注册代理商按照抽样办法(由中国互联网络信息中心提供)抽取指定数
,量的域名作为样本。样本按照各域名注册代理商所注册拥有的域名数的比例进行分配。具体计算办法如下:
=×()
其中:表示第家域名注册代理商所应抽取第类的域名数,表示第类应抽取的域名样本数,表示第家域名注册代理商所拥有第类的域名总数,表示第类的域名总数。
第三阶段:各家域名注册代理商抽取域名样本
考虑到尽可能简化各域名注册代理商抽取样本的工作量和保证抽样的精度,要求各域名注册代理商在整理了域名名录(抽样框)后采用等距抽样,抽取样本步骤如下: 步骤:分组
以域名的类别为单位对域名名录进行分组。
步骤:排序
由域名注册代理商对其抽样框(域名名录及相关信息)内各组域名首先按照域名注册单位所属省份排序,进而在域名注册单位所属省份下按域名注册先后时间进行排序。 步骤:编号
对各组内完成排序的域名进行编号。域名注册单位所属省份排序和编号规则规定如下: 序号省市区序号省市区序号省市区序号省市区
北京上海湖北云南
天津江苏湖南西藏
河北浙江广东陕西
山西安徽广西甘肃
内蒙古福建海南青海
辽宁江西重庆宁夏
吉林山东四川新疆
黑龙江河南贵州
步骤:抽取样本
以第个域名注册代理商、抽取第类样本的过程为例叙述如下。第个域名注册代理商在第组域名列表中抽取出指定数量的个域名作为其提供的第类域名的样本,抽取的规则如下:首先计算一个抽样距离×(×()),×为第个域名注册代理商在第类样本中的抽样间距,然后随机从到中选出一个数,那么编号为×、⒈⒉的域名即为被抽取的样本域名(当时,取)。 其他组的样本抽取过程类似,将各组中抽取到的样本综合到一起可组成第个注册代理商应抽取的样本。
步骤:获取样本相关资料
将以上步骤所抽取的样本域名及其相关信息(包括:域名、域名类型、域名注册时间、域名所属单位、域名单位所在地、域名联系人、联系电话等)存为工作表文件。格式如下: 序号域名域名类型域名注册时间域名所属单位域名单位所在地联系人及联系方式 北京
将所有注册代理商提供的样本合并即成为调查所需样本。
六、调查问卷
本次问卷调查的有效网站样本数为个,在置信度为的精度要求下,可保证最大允许绝对误差小于。
调查问卷时间为××年月-××年月。问卷所采集数据的相应记录时间为××年月日。
七、组织单位
,⒈委托单位: 国务院信息化工作办公室 ⒉实施单位: 中国互联网络信息中心() ⒊协助单位(按字母排序): 百度在线网络技术(北京)有限公司 北京东方网景信息科技有限公司 北京信海科技发展公司 北京信诺立兴业网络通信技术有限公司 创联万网国际信息技术(北京)有限公司 东方通信股份有限公司 搜狐爱特信信息技术(北京)有限公司 厦门必信电脑网络有限公司 厦门精通科技实业有限公司 厦门中资源网络服务有限公司 第三部分调查结果 (以下调查结果截止到××年月日) 第一章域名、网站数及地区分布 一、域名数 .全国域名数:个 注:包括域名和通用顶级域名(),不含中文域名。 .分地区域名数比例 表地区域名数量分布 北京天津上海重庆安徽 福建甘肃广东广西贵州 海南河北河南黑龙江湖北 湖南吉林江苏江西辽宁 内蒙古宁夏青海山东山西 陕西四川西藏新疆云南 浙江 图地区域名数量分布
,二、网站数
.全国网站数(包括、、、下的网站):约个
.站点分类状况
表站点性质分类
行政区域名
百分比略
图站点性质分类
.分地区网站比例
表地区网站数量分布
北京天津上海重庆河北山西内蒙古
百分比
辽宁吉林黑龙江江苏浙江安徽福建
百分比
江西山东河南湖北湖南广东广西
百分比
海南四川贵州云南西藏陕西甘肃
百分比
青海宁夏新疆
百分比
图地区网站数量分布
第二章网站性质及服务内容
一、网站按性质分类
将网站按照主体性质不同分为政府网站、企业网站、商业网站、教育科研机构网站、个人网站、其它非盈利机构网站以及其它类型等。
本次调查结果显示,企业网站数的比例最大,占整个网站总体的,其次为商业网站,占,第三是个人网站,占,随后依次为教育科研机构网站占,其它非盈利机构网站占,政府网站占,其它类型占。如下图所示。
注:商业网站指业务主要在网上进行的电子商业网站,如新浪、搜狐等网站;企业网站是相对于商业网站而言,指业务主要在网下的企业所建立的网站,如联想集团的网站。