搜索引擎与信息检索
搜索引擎与信息检索Search Engine & Information Retrieval 张雪娟中国科学技术大学图书馆Xuejuan Zhang, USTC Library2015/07/14
搜索引擎与信息检索
Search Engine & Information Retrieval 张雪娟中国科学技术大学图书馆Xuejuan Zhang, USTC Library

2015/07/14
,CONTENT
01
02
03
04网络信息资源概论搜索引擎概述综合型搜索引擎学术搜索引擎介绍
,PART ONE网络信息资源概论Introduction to network information resources
,1.1 IP地址
在网络中为了区别不同的计算机,需要给计算机指定一个连网专用号码,这个号码就是“IP地址”。其遵循IP协议,即“网络之间互联的协议”。
IP地址是一个32位的二进制数,分为静态IP和动态IP两种例如:科大静态IP地址:202.38.74.91◆◆
,1.2 网址和域名
由于IP地址全是数字,为了便于用户记忆,Internet上引进了域名服务系统DNS(Domain Name System)。域名主要由以.分隔的若干数字或字母组成,如百度域名为:“baidu.com”。
域名加上协议类型和主机名,构成网址,比如“http://www.baidu.com”。输入网址时,www通常可省略。
统一资源定位符(URL):由协议类型、主机名和路径及文件名组成,如:http://wenku.baidu.com/view/288e6ac2aa00b52acfc7ca42.html
,
1.3 域名与网络信息资源的关系
,1.3 域名与网络信息资源的关系
.com 商业公司
.net 网络服务
.org 组织协会.edu 教育机构.gov 政府部门.mil 军事机构
随着internet向全世界的发展,除.edu、.gov、.mil一般只被美国专用外,另外三类.com、.net、.org则全世界通用,因此通常称为“国际域名”。由于国际域名资源有限,又加上地理域名,如.us、.cn,而.cn顶级域下也按照类别和区域划分了二级域:如.ac (科研机构)。
.com.cn 中国商业公司.org.hk 香港组织协会.edu.sg新加坡教育机构
,1.4 网络信息资源的类型及特点
按来源划分:
可分为政府信息资源、研究机构信息资源、大学信息资源、公司企业信息资源、社会团体信息资源、个人信息资源等
按内容的表现形式和用途划分:
可分为全文型信息、事实型信息、数值型信息、数据库类信息、实时活动型信息等
,




1.4 网络信息资源的类型及特点共享程度高
使用成本低数量庞大,增长迅速特点SE 内容丰富
覆盖面广
质量参差不齐,有序与无序并存
,CNNIC统计数据(截至2014.12 )中国网民规模达6.49 亿,全年共计新增网民3117 万人;我国域名总数为2060 万个,其中“.CN”域名达到1109万,中国网站总数为335 万,年增长4.6;
中国网页数量为1899 亿个,年增长26.6 ;我国搜索引擎用户规模达5.22 亿,使用率为80.5,搜索引擎是网民除即时通信外使用率最高的互联网应用;
有54.5的中国网民对互联网上信息表示信任;60.0的中国网民对于在互联网上分享行为持积极态度;
10◆◆◆◆◆