下一代互联网技术-2015试卷李楚煌
深圳大学期末考试试卷开/闭卷 命题人(签字) 崔来中 审题人(签字) 年 月 日 综述报告下一代互联网技术A/B卷 学分 2.5


深圳大学期末考试试卷
开/闭卷 命题人(签字) 崔来中 审题人(签字) 年 月 日 综述报告
下一代互联网技术
A/B卷 学分 2.5
课程编号 1502320001 课程名称
课程综述报告由个人独立完成。 要求学生从教师的授课专题,包括:
(1) 下一代互联网过渡技术(翻译技术和隧道技术) (2) 云计算(资源调度、存储、安全) (3) 社交网络(推荐、影响力分析、传播模型) (4) 物联网(无线传感器网络、节能技术) (5) 搜索技术(爬虫技术、图片搜索、语义搜索) (6) P 2P (文件下载、流媒体分发)
(7) 大数据处理与分析技术(网络与机器学习)
(8) 多媒体网络(多媒体网络与SDN 、流媒体与机器学习)
(9) 软件定义网络(SDN 与安全、SDN 与流量优化、SDN 与网络管理) 选择一个专题中的具体技术问题(上述括号内为推荐的问题内容)作为综述报告主题,综述报告名称自拟,参照附件一“综述报告格式模板”与附件二“综述报告写作指导完成综述报告”;评分标准见附件三。 提交的课程综述报告要符合深圳大学相关的格式规范。
第17周提交课程综述报告电子版到blackboard 系统,纸质版交到任课老师处。
《 下一代互联网技术 》试卷 卷 第 1 页 共 15 页
,附件一 综述报告格式模板
深圳大学考试答题纸
(以论文、报告等形式考核专用)
二○一 学年度第
课程编号 1502320
001 课程名称 下一代互联网技术 主讲教师 崔来中 评分 20131503
学 号 83
姓名 李楚煌 专业年级 大三网络工程01

题目:
网页搜索中爬虫技术的若干研究
1. 前言
在21世纪互联网高速发展的背景下,搜索引擎在人们生活中有着举足轻重的作用,而网络爬虫是搜索引擎中的重要的信息采集器,是搜索引擎技术的核心部分。
本文是对爬虫技术在现今网络环境中出现不同的问题、漏洞提出一些针对性的探究方法,并对各种方法进行实验分析,主要研究分析工作如下:
网络爬虫中的核心技术部分,即网络爬虫系统的多线程设计与实现,详细介绍网络爬虫的概念及信息分类涉及到的算法,技术要点,并探讨实现对漏洞平台当中的爬虫技术的聚焦。
网络爬虫的核心在于,以端口接通为设计基础,依据HTTP 协议,使用SOCKET 套接字相关函数向服务器端发送HTTP 请求,得到目标URL 对应的网页内容,再从该网页提取出未爬取过的URL ,将该URL 重新作为源URL 进行新的一轮向下爬取搜索工作,按照各种优先算法向下爬行,从而完成网络爬虫系统的爬行工作。 在互联网中有着很多协议,它们彼此联系着,支持着许多网络程序的运行。网络爬虫系统是基于SOCKET 协议的,而SOCKET 协议的基础建立在TCP/IP协议之上。由此,网络爬虫是基于最原始的协议,依靠算法技术,组织分布式系统,非常有潜力进行强有力的数据探索与挖掘。既然网络爬虫的优势潜能如此巨大,接下来我会详细讨论近期我对这个技术的若干研究。
2. 阅读文献概述
《 下一代互联网技术 》试卷 卷 第 2 页 共 15 页
,基于此次希望探讨的研究方向:网络爬虫,在中文文献方面,主要有以下阅读:多线程进行网络爬虫的过程优化, 基于网络爬虫的Web 信息采集技术,爬虫对漏洞管理平台核心帮助。在英文文献方面主要有:《A Cloud-based Web Crawler Architecture 》 ,《A Spatial Web Crawler for Discovering 》, 《Design of improved focused web crawler》。这几篇文献探究的层次在于如何对信息进行有效地采集、采集的量如何够快够大、以漏洞管理平台为切口,看爬虫技术有哪方面的发展潜力。
多线程爬虫又可以理解为分布式爬虫,主要阅读的部分有分布式网络爬虫结构设计,其中又细分为爬行节点的结构设计,控制节点的结构设计。分布式网络爬虫的关键技术在于,种子集合的优化选取,分布函数的选择。有这些分布式策略来带领多线程下载。而对网络信息的阅读,在于有效采集,需要对信息检索引擎有所划分:全文检索、目录索引型检索、元检索。再深入到网络爬虫的搜索策略,有深度优先搜索策略、宽度优先搜索策略、聚焦搜索策略。针对信息的实质内容,爬虫有其特色性质:布告栏的数据分类及并联式关联、视频的可预览及真实寻址、论坛的自动动态更新实现。对漏洞平台的爬虫聚焦技术的阅读,首先了解的是在漏洞平台这个领域,爬虫子模块的划分:爬虫接口模块、配置文件解析模块、网页爬取模块、网页解析模块、URL 过滤去重模块、漏洞信息保存模块。在漏洞平台管理这个框架下,对爬虫效率如何改进、URL 相关内容如何改进有所阅读了解。
此外,《A Cloud-based Web Crawler Architecture》主要论述的网络爬虫为代表的应用程序,如何在网络上更好得进行有趣的信息的查找。因为网路上有巨量的索引的链接或非结构化的数据,这需要网络爬虫去应对这些挑战:链接和高密度计算的复杂性。在这种背景下,该文献提供了云计算模式,支持弹性的资源化和非结构化的数据,并提供读写加注功能。采用云计算的功能和MapReduce 编程技术,可以使我们能够分布式抓取网页和存储在云计算中所发现的Azure 表。《A Spatial Web Crawler for Discovering》,这篇文献其实与单纯地谈论爬虫技术不一样,一般地讨论爬虫技术,是如何在物理、软件层面提高单体计算机的速度、分布式地进行搜索,又或者对URL 等算法策略的优化。而这篇文献谈论的可以归属另一个学科,它围绕地缘服务器提供的地理特征,进行空间信息的划分,使用空间的数据源。核心来说,这是一个对地理领域信息系统的研究。地理空间数据在本质上常常动态并在异构的形式提供,网上空间数据是一个基于地理的形式进行发布的。空间网络爬虫专注于地理空间在地缘服务器上的功能。《Design of
《 下一代互联网技术 》试卷 卷 第 3 页 共 15 页
,improved focused web crawler》这篇文献讲述的东西比较细,是对URL 和锚文本的语义性质的研究分析。它提出了一种技术,偏重于基于语义重点的网络履带的分析探讨。
3. 课题研究方向的现状与发展趋势
研究方向主要有以下六个分支: 多线程(分布式)进行网络爬虫的过程优化, 基于网络爬虫的Web 信息采集技术,爬虫对漏洞管理平台核心帮助,云计算模式这种支持弹性的资源化和非结构化的数据的爬虫技术,空间网络爬虫这样专注于地理空间在地缘服务器上研究的新科技,锚文本的语义性质的研究分析。
分布式网络爬虫的理论基础:它由多台PC 机组成,其中一台是控制节点,其他为爬行节点,控制节点负责维护所有结点的信息,对所有结点的信息进行同步,同时在控制节点上进行结点的添加和删除。它分为5个模块:URL 分析模块、下载模块、网页分析模块、结点通信模块 、URL 分配模块。
分布式网络爬虫的方法可以具体到5个模块来分析探讨。URL 分析模块是接受来自分布式模块分配的URL 任务,判断该URL 是否被访问过。访问过,进队列;没访问过,忽略。那在分布式网络爬虫中与单台PC 有所不同的是:单台PC 机只需要对URL 地址进行记录,还有域名转换,计算复杂度低;分布式网络爬虫中对需要IP 与域名转换的计算量大,复杂度高。下面具体解释:维护URL 队列,在每个节点维护一个本节点将要访问的URL 队列模块,可以参照Mercator 系统,每一道指向一个domain ,这样可以避免多个线程同时访问一个domain 。刚刚已经谈到计算量大的问题,是由于多道队列的数据结构在爬行进行到一定阶段时,数据量一定分成庞大。如何解决?在内存不能够承载时,将队列的中间部分放在硬盘上,在内存中只保留队列的头和尾。还有就是,完整的URL 是没必要记录的,只需要判断URL 是否已经下载过了。因此,可以采用哈希表存储URL 的checksums, 高位存储hostname 的checksum ,这样一来,来自同样的domain 的URL 就会排列在一起。之前说过,把数据放在硬盘上。这样实现:建立一个LRU cache 。明显,网页链接的聚簇性和高位存储hostname 的数据结构,使硬盘的读写概率非常小,提高了爬虫分布式系统的运行速度。IP 与域名需要转换,是因为URL 地址不同但可能指向同一物理网页。譬如,多个域名共同拥有一个IP ,而各个域名下的内容是不同的;DNS 转换导致的同一域名对应的IP
《 下一代互联网技术 》试卷 卷 第 4 页 共 15 页
,是不一样的;一个站点多个域名。面多这种情况如何解决呢?首先,积累一定数量的域名和IP ,下载一些网页判断分别属于哪种情况,积累下来,然后针对性地取舍,避免重复收集使用。下载模块的核心在于节点线程控制。主要解决的是本地节点与Web 端服务器的通信问题。在前言中提到,爬虫技术也是基于TCP 协议的。客户有时在同一次会话中希望从服务器端下载更多的HTML 页面,由于HTTP1.0,该TCP 需要终止。这是可以这样,为了节省时间和网络带宽,可以保留上次已经建立好的链接。如果该链接没有失效,本次可以继续使用。详细点说,就是服务器接收爬虫客户端发送的请求消息后,先返回一个HTTP 头信息,包含文件类型,大小,最后修改时间等内容,后续添加包含网页的文本内容。根据网页体的大小,申请内存空间准备接收,有两种情况需要放弃接收:一、网页类型不符合要求。
二、超出预定接收大小。毕竟我们现在讨论的是多线程的网络爬虫技术,在下载模块,重点在于结点线程模块。结点线程:根据控制计算机硬件的运行情况,把并行开设的线程数控制在一个最佳的数量上,并监控保证同时访问同一个domain 的线程数不超过n ,这样是为了保证web 服务器不会出现类似于拒绝服务攻击DOS 反应使得一些URL 的漏取。最好建立一个DNS 缓冲区,即是缓存。这样可以避免频繁地查询DNS 服务器。网页分析模块相对简单,HTML 比较灵活,URL 出现的语境较多,我们应该参照HTML 的语法,给出相应的URL 出现的语境。URL 分配模块工作是为了协调各个节点,将任务分配给不同的节点,并且能够增删节点。节点通信模块负责节点间的相互通信,除了采集器采集网页时直接与Internet 交互外,其他时候所有网络通讯都通过通信器完成。上次模块通过Send ,把它的数据包以单体为目标标识发布。接收上层的发送请求后,通信器先将数据包缓存起来,再通过目标标识维护每个节点的节点号和IP 对应的节点信息。有节点通信模块,可以只关注本身的策略,并且和其他模块松耦合,方便架构在不同的对等网络上。
分布式网络爬虫的方案,可以先讲述一个中级规模的网页搜集,当然,对于一些大型的网站如凤凰网、腾讯首页等网站的全站下载,分布式系统仍有用武之地。先了解下对中等规模的网站的爬虫搜集,一个网站的host 是一样的,因此需要在普通的任务分配基础上做出一些改动,首先任务的粒度不能再选择host ,因为这样一来,同一网站的网页的哈希函数的数值是唯一的,任务只能分配在节点上,对于分布式网络爬虫系统,显然是不
《 下一代互联网技术 》试卷 卷 第 5 页 共 15 页
,行的。粒度如果按URL 分配,粒度又太小了,由此,可以对网站的URL 信息收集和分析,总结出网站全站下载多机协同任务分配算法。举例说明,大型网站下有很多子网站,而同一子网站网页的URL 有一些共同点,它们的URL 前一两个字都相同,这些子网页的互联关系比较紧密,子网站与子网站网页的引用频繁度没有那么高,差别较大,可以把任务分配的粒度定为子网站。由于粒度的合理分配,分布式对中大型网站进行全站下载是可实现的。
关于分布式网络爬虫技术的现状,国内外的一些大公司已经有很成熟的解决方案,并已投入使用。其中以Google 研究的最早,也最先进。在Google 公开的网络爬虫设计中,Internet Archive Crawler是可以使用多台机器进行爬行的,每个Crawler 进程可分配64个站点同时爬行,每个站点只分配一个Crawler 进行爬行。谷歌的分布式网络爬虫技术能够在全球处于领先地方,也在于它的搜索引擎在全球处于领先地位。Google 每天都会对使用它搜索引擎的网站进行一定量的爬虫,有了大量的数据分析,它对于网络上的语义分析是领先的,而在全球大量分布的服务器,也促进了它在分布式网络爬虫的发展。其中它研发的Mercator 是一个非常出色的Crawler ,该技术完全用Java 实现,它才用的数据结构可以不管爬行规模的大小,在内存只占有限的空间。分布式网络爬虫现阶段采用的技术主要是服务器集群技术,由中央控制软件进行任务发布、负载平衡和运行监控。
基于爬虫的Web 信息采集技术的理论基础:分析目标网站结构,确定抓取规则,扩展Heritrix 爬虫,对于网页内容,可以分析所得网页的页面结构特点,利用Jsoup 过滤页面噪声信息,提取内容,在内容索引方面,运用Lucenne 对存储在数据中的信息进行索引,实现对采集信息的全文索引,在内存呈现方面,可以整合Struts2、Spring 、Hibernate 这三种技术框架,搭建三层J2EE 框架,利用Web 页面展示所抓取过滤后的信息。
Web 信息采集的的方法可以分为三部分介绍,一是Heritrix 这类基于Java 程序语言的开源聚焦Web 网络爬虫工具,二是Jsoup 这类HTML 解析器,方便用户进行内容抽取操作。三是Lucene 这种可以完整地进行全文检索和查询的开源程序库。Heritrix 是一个可以通过Web 操作界面,实现对网络爬虫的启动、监控和运行调整。用户利用Heritrix 可以较完整地获取目标站点的内容,实现对站点内容的深度复制,这里甚至可以包括对图像、文档在内的非文本内容。Heritirx 突出特点在于强大的可扩展性,允许用户
《 下一代互联网技术 》试卷 卷 第 6 页 共 15 页
,灵活地选择扩展组件。有五个组件是比较重要的。中央控制器(组件),是Heritrix 进行抓取任务的核心组件,它全程控制着整个抓取流程。它决定了哪些URL 入队,控制当前抓取内容的范围。Frontier 组件,作用是为每一个线程不断地提供URL 。ToePool ,负责抓取任务所创建的所有子线程。ServerCache 负责缓存所抓取的所有Host 名称及Server 名称。Crawl 组件,整个抓取工作的开始点。Processor 组件,是其他多种处理器的共同父类。上述基本让我们了解了一个Heritrix 是如何工作的,那么Heritrix 又具备什么优点呢?首先,它可在多个独立的站点上持续进行内容爬去。其次它是采用广度优先搜索策略进行页面爬去,有利于对扩大页面内容的范围。然后,它可以仅从提供的一个种子地址即可开始爬行,进行准确地站点URL 内容的收集和主机信息的收集。而且它各项主要部件都是高效可扩展的,易于定制。最后它又全面良好的配置,如配置输出日志、归档文件、带宽上限设置。Jsoup 是一种HTML 解析器,它是基于MIT 许可协议发布的,可以用于商业项目。它的功能主要包括:(1)从某个URL 、字符串或文件中解析HTML 。(2) 利用DOM 遍历或CSS 选择器来查找、提取数据。(3)可操纵HTML 元素、属性和文本(4)可依据一个安全的白名单过滤用户提交的内容,以防止XSS 攻击。DOM 树算法是Jsoup 的核心部分。DOM ,即文件对象模型,是处理可扩展标志语言的通用标准编程接口。DOM 常用于表示和处理HTML 或HTML 文档。完整遍历一棵DOM 树既即可以访问和处理页面中的任何一个元素。Lucenet 提供了简单而强大的接口,用户可以轻松地实现对全文的索引和搜寻。需要提醒一点的是,Lucene 仅仅是一个信息检索程序库,而不是一个完整的搜索引擎。换言之,需要开发者对其构建特定的全文搜索应用,普通用户是很难直接使用它的。Lucene 具有以下优点:(1)跨平台适用性。Lucene 生成的索引文件以8位字节为基础,明显的,这是能够在兼不同平台下使用的,CPU 的起源是8位字节的,后期才逐渐扩展到16字节,但仍然能兼容8位字节。 (2)索引优化。在对传统倒排索引应用的基础上,Lucene 实现了分块索引机制,能够面向新的文件构建小文件索引,从而提升索引速度。另外Lucene 支持增量索引,即可以只为新插入的数据创建索引文件,然后与原有索引进行合并,同样提升了索引速度。(3) 易学习。Lucene 是一款基于Java 的优秀的面向对象的系统架构,因而对于Lucene 扩展的学习难度较低,开发人员可以十分方便地扩充新功能。(4) 独立的文本分析接口。Lucene 内置了一套独立于语言和文件格式的文本分析接口。用户只需要实
《 下一代互联网技术 》试卷 卷 第 7 页 共 15 页
,现对文本分析的接口,就能实现对特定语言和文件格式的文本分析。简而言之,不同的语言都可以用Lucence 进行文本分析,只要相应地写好接口
(5)提供检索工具包。Lucene 本身提供了一套强大的查询引擎,用户可以直 接方便地使用。Lucene 提供的查询功能实现了布尔操作、模糊查询(Fuzzy Search), 分组查询等等。
基于网络爬虫的网站信息采集技术有个案例,针对百度百家网站,直接获取某个作者的文章列表页面。首先完成对WebClient 对象的初始化,这是访问网页的入口对象。接着选定Js 解析核心、禁用CSS 样式、设置Ajax 控制器、设置超时时间、确定目标URL 。在触发操作对象方面,采用DOM 技术,实现对事件触发对象的定位。其次是明确触发事件的类型。最后利用DOM 技术实现对目标结点的定位,实现对动态内容的获取。通过上述动作,即可完成对所有作者文章链接信息的采集。
基于爬虫的Web 采集技术的研究现状。目前,信息采集系统在国内外已经足够多了,或开源,或商用,突出特点是面向整个Web 范围来研究。可以分为以下几类:基于整个Web 的,它给定若干个种子URL 进行扩充,理论上可以到整个明网(相对于暗网而言);面向主题的Web 信息采集;增量式采集,英文名是Incremental Web Crawling,特点是,在采集过后的一段时间,对这段内容中发生变化的部分会再次采集,其他则不予理会;Customized Web Crawling,通过与用户交互等手段,尽可能地满足用户多元化的信息需求。分布式信息采集,前文已叙述,在此不赘述。迁移的信息采集,将Web 采集器上传至目标站点实现信息采集,再将采集结果回传到本地。
基于漏洞管理平台的聚焦爬虫技术的理论基础:漏洞管理平台是按照当下用户的需求,利用爬虫功能从国内外各大知名漏洞网站上爬取漏洞信息,并解析保存到本机,方便用户的管理查看。那管理平台的聚焦爬虫技术,是由漏洞管理平台项目根据项目的具体、特殊需求,借鉴当前国内外前沿爬虫技术,自主创新研发的一个新式爬虫技术。
这个技术的方法可以从它的爬虫接口窥探。它有爬虫接口子模块,提供调用爬虫模块的所有接口。它有以下三种功能:1. 设置更新爬虫策略,设置信息存放路径2. 启动停止漏洞采集任务3. 查询漏洞采集任务的状态信息。配置文件解析子模块,这是为了漏洞解析这一部分而服务的。它将每个网站的漏洞解析方式设置为一个XML 配置文件,简化漏洞信息解析的编
《 下一代互联网技术 》试卷 卷 第 8 页 共 15 页
,码量。这里的漏洞编码是:CVEID ,即每一个漏洞信息的漏洞编码,每一个CVEID 都和一条漏洞信息相对应,国内外各大漏洞网站都采取了这种命名方式来发布每一条漏洞信息。网页爬取子模块,与普通的爬虫技术并无二致。网页解析子模块,在对于漏洞信息,有一个特点,从NVD 和OSVDB 采样,进行格式分析。URL 过滤去重子模块,这与一般的过滤去重技术也大同小异。漏洞信息保存子模块,以XML 格式保存,写入文件时需要进行加密,毕竟这些信息比较敏感。
基于爬虫技术的漏洞管理平台,有一个案例。因为漏洞管理平台是华为安全能力中心的涉密项目,对其中的具体技术暂不讨论。这里提供一些测试结果进行讲解。在网页解析优化前,新浪首页的页面大小是408/Kb,任务数量20,所有任务完成时间在优化前是3.2min ,优化后是2.7min 。网易首页的页面大小是369/Kb,任务数量20,所有任务完成时间在优化前是3.0min ,优化后是2.6min 。明显可以看出域名检索表方式优化是有效的,这个漏洞管理平台的聚焦爬虫技术是可行的。
漏洞管理平台的爬虫聚焦技术的现状是,爬虫技术已经渐渐成为人们检索信息的工具,慢慢成为互联网的入口和指南。这时候,用户需求是不断发展和丰富的过程,当然,也就有对漏洞信息的需求。聚焦爬虫不追求大的覆盖率,而将目标定为抓取某一特定主题内容相关的网页。当然,它有不足的地方,两点:爬虫效率瓶颈问题、URL 相关内容改进问题。
云计算模式下的爬虫技术的理论基础其实与前面讲的分布式爬虫非常类似,它的特点不在于技术上的更新,而在于计算范围是几何级地扩张。分布式可以理解为系统,而云计算即是网络。其中以Hadoop 为典型代表,它是Java 语言开发的作为云计算的开源平台。
云计算爬虫技术的方法可以以Hadoop 为例简要讲解。它是Apache 下面的一款分布式并行计算框架,依据HDFS 高容错的特点,可以安置在便宜的硬件上。在Hadoop 框架中,负责计算的model 称为Map/Reduce负责,HDFS 是Hadoop 的关键部分。HDFS 的特点在于其使得存储便宜,譬如Google 在全球范围进行云计算的爬虫分布,每个服务中心每分钟都可能烧坏一个硬件,此时硬件的成本一定不能太高。
云计算的案例之前在分布式爬虫已以Google 为例讲解,此不赘述。 云计算式的爬虫技术现状:已在国内各地逐步发展,在国内,中国移动通信公司、百度公司、新浪公司都已经搭建起以Hadoop 为框架的数据处理
《 下一代互联网技术 》试卷 卷 第 9 页 共 15 页
,平台。云计算模式由于提供了平台独立性、可按需自助等功能,在2015年18届智能下一代网络的国际会议,云计算的一些提供商已经开始把资源整合在一起。
空间网络爬虫的核心在于其根据地理空间研究的协议。这个协议可以使变换后的URL 发送到WFS 模块。而WFS 模块是记录了检索函数信息。例如,世界粮食首脑会议,GetCapability ,由这些关键字自动生成对应相关的URL 。当出现重复的GetCapability 信息。检索时,不会再提取相关的URL 。 基于爬虫的语义智能履带式算法:基于域名的URL 算法,估计网页上链接的相关性,在找到页面的相关性的过程中,继续已确定内容的爬行,达到平衡的最佳水平。例如,可以使用词汇数据库,是网络爬虫更准确和精准。还有一些更细的方法,我已在前文间断地提及过。这样的履带式算法,是可以我们的爬虫效率大大提高到。
网络爬虫技术有个关键问题:爬虫效率。目前爬虫效率的问题主要体现在:网络的带宽利用率低、爬虫的模块功能设计性较差。网络的带宽问题,一来随着电信等网络运营商的不断发展,带宽在可预见的将来是有望增加的,这时带宽的利用率不再那么重要了,因为原本的带宽已经相当大了;二是可以采用并发工作流作为设计,以此尽可能充分地利用网络带宽资源。至于模块功能的设计性较差,可以在网络爬取模块的工作流程上进行优化,减少因任务等待而造成时间浪费,在网页解析模块进行优化,减少重复采集工作。这些技术已经发展得越来越成熟。
网络爬虫技术有一个尚未解决的难点:如何将不同的爬虫系统,统一到一个爬虫平台。这样的整合要使得它们的爬虫效果有一加一大于二的效果。
这几年,Internet ,尤其是互联网,在令人难以想象的速度发展,以至于有些脍炙人口的句子:这是一个猪都会飞的时代。信息的增长何尝不是让人难以想象。越来越多人在互联网上发布信息,发表自己的见解,也越来越多人需要找到有效的信息。而Web 是无结构的、动态的,这是爬虫技术发展的动力是巨大的。在如此巨大的动力推动下,加之目前所了解到爬虫技术现状,我相信,爬虫技术还有相当大发展的空间。毕竟Google 在我写这篇文章时,还没有把每个IP 的location 可爬取技术公布出来。
4. 总结
我在这篇文章主要针对爬虫的效率问题,讲解了分布式爬虫的相关技
《 下一代互联网技术 》试卷 卷 第 10 页 共 15 页