酷米网(kmw.com),专注高端域名快速交易!

  1. 当前位置: 
  2. 首页 > 
  3. 域名资讯  > DNS数据挖掘与搜索引擎技术相结合提升网络安全
服务器时间:2018-05-24 23:58:39 (CST +08:00)

DNS数据挖掘与搜索引擎技术相结合提升网络安全

2017-12-17 16:42:50     浏览量: 67

DNS数据挖掘与

搜索引擎技术相结合提升网络安全杨世标  王晶晶 梅汝鹏 中国联合网络通信有限公司广东省分公司针对目前基础运营商无法监控日益增长的网络安全问题,设计出DNS数据挖掘和搜索引擎技术相结合的架构,查找存在安全隐患的网站和页面,提升网络完全,净化网络环境。在广东联通城域网实施后,在打击域名备案及不良信息网站等方面取得良好效果。DNS 搜索 爬虫

随着网络应用的日益普及和复杂化,互联网信息呈现爆炸式增长,已经渗透到日常生活的方方面面,安全事件不断出现,信息手段日益翻新,网络与信息安全越来越成为人们关注的重点。如何快速、准确和全面地查找存在安全隐患的网站和页面,对提高网络安全级别、净化网络环境有着重要意义。

当前针对网站的安全监控主要是借助于第三方网关探针在硬件上实施部署,这种方式的不足之处在于以下4个方面。

⑴采用网络抓包方式,只能检测ID C机房内部的IP,属于被动检测,需要网站有访问时才能检测到。

⑵只能部署在ID C网关出口处,硬件成本较高。

⑶无法针对专线用户进行检测。⑷无法对动态ADSL线路的网站进行检测。针对以上问题,广东联通提出了使用搜索引擎技术结合DN S数据挖掘实现对网络信息安全全面、准确的防控方案,其原理及意义如下。利用搜索引擎技术结合DN S服务器日志数据分析,实现海量域名数据挖掘,形成全球域名基础数据库,通过对海量的域名信息自动获取、特征匹配、智能分类、敏感词提取、自动安全评级、热点信息追踪、舆情分析、并建立网站黑名单等,实现对网站信息的安全监控。搜索引擎技术和D N S 数据挖掘的相互弥补可以保证域名基础数据的完整性与实时性,降低部署成本,通过对扫描域名网站的分类和分级可实现对指定类别、特征的网站的定向扫描,提高扫描的针对性与准确性,并缩短扫描周期。www. ttm . com.cn

,

特别策划完善安全防护 助力运营转型

URL

URL数据容器

例行过滤策略

基础信息检查策略

插件引擎数据分析接口数据处理策略PR处理策略

抓取页面内容

排重策略

数据存储容器

数据审计策略二级缓存策略

图1 网络蜘蛛系统流程

2.1 搜索引擎技术2.1.1搜索引擎技术

搜索引擎技术是仅次于门户的互联网第二大核心技术,要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,具有综合性和挑战性。伴随互联网的普及和网上信息的爆炸式增长,它越来越引起人们的重视。

搜索引擎技术的作用表现为如下几个方面。

⑴可以作为定向收集网络数据的一种方式,实现途径是通过网络蜘蛛进行抓取。

⑵可以实现对网站及网页数据的分析,为用户搜索互联网信息提供基础数据和数据索引。

⑶可以作为研究网民行为的有效工具,通过收集用户网上登录、搜索、社区行为等信息,对用户的上网行为习惯等进行分析。

2.1.2网络蜘蛛技术

网络蜘蛛是一个自动抓取网页的程序,为搜索引擎从互联网上下载网页内容,并对内容进行数据挖掘,提取出所需要数据,是搜索引擎技术的核心。

传统网络蜘蛛从一个或若干初始网页的U R L 开始,获得初始网页上的U R L ,在抓取网页的过程中,不断从当前页面上抽取新的U R L 放入队列, 同时分析页面上的其他信息,获取系统所需信息,并存储到数据库中,直到满足系统的一定停止条件时停止抓取。

网络蜘蛛从抓取方式上可分为通用蜘蛛和聚焦蜘蛛。常见的搜索引擎所用的蜘蛛都属于通用蜘蛛,特点是追求数据的完整性及覆盖的全面性。聚焦蜘蛛是为了满足特定范围的数据需求,进行定向地抓取。

般采用Un i x/Li n u x BI N D解决方案,B I N D在DN S服务软件领域保持着80以上的市场占有率,Un i x平台也以其出色的性能在网络服务领域占据重要的位置。

通过对D N S 访问日志的分析,提取出所有被访问网站的域名和IP地址等信息,对域名基础数据库进行补全,并通过接口找到网站的具体物理位置,分析网站是否已在工业和信息化部备案供工作人员查询。

根据D N S 服务器的种类及配置的区别,其日志数据的格式也各有不同,对此需要针对不同的D N S 服务器日志提供不同的日志分析模块进行处理。

2.3 搜索引擎技术与DNS数据挖

掘结合的域名信息采集

网络蜘蛛终端服务器通过部署网络蜘蛛系统收集大量域名信息,提

2.2 DNS服务器数据挖掘

目前市场上主流的DN S服务器一

交至域名基础数据库。DN S服务器将实时的DN S日志提交至数据分析服务

38

TELECO MM U NICAT IONS TECHNOLOGY /2011·5

,

爬虫客户端

爬虫客户端

PR分析器

爬虫客户端

URL排重

爬虫服务器

数据服务器

爬虫客户端

策略管理

爬虫客户端

图2 网络蜘蛛系统部署

存取方案及蜘蛛本地运行效率等因素的限制。

⑴网络延时是影响蜘蛛运行效率

域名提取

DNS服务器提取DNS日志数据

数据提交

数据分析入库

过滤排重

最重要的因素,蜘蛛需要不断从互联网下载数据,进行分析,如果网络状况不理想,蜘蛛的抓取速度会受严重的影响。网络蜘蛛从设计上应该支持分布式抓取,这样可以把网络压力分散到不同的区域。

日志分析服务器

域名基础数据库

⑵抓取算法的选择对蜘蛛的运行效率是至关重要的,目前较先进的智能型蜘蛛大都采用最佳优先搜索或广度优先 抓取策略。

⑶抓取策略的选取是判断一个网

图3 DNS日志分析流程

站是否有必要继续抓取的关键,通过制定抓取策略,可以尽早结束某一网

器,数据分析服务器通过数据处理提取出最近访问的域名信息,将域名等信息提交至域名基础数据库。蜘蛛抓取域名和DN S收集域名两者结合实现了全面性和实时性的互补,能够显著提高域名信息收集的完整性。

3.1 网络蜘蛛系统

3.1.1网络蜘蛛的瓶颈与解决方案

网络蜘蛛的理想状态是能够快速、有效地遍历整个待抓取区域的网页内容,蜘蛛的效率主要受网络延时、抓取算法、抓取策略、数据

站的抓取,避免不必要的、盲目的抓取。抓取策略在聚焦型蜘蛛中是很常见的。

⑷数据存取方式也是重要组成部分,如何高效地存取抓取的数据、处理数据并发,是一个必要的研究课题。

www. ttm . com.cn

,

特别策划完善安全防护 助力运营转型

互联网

网络蜘蛛

蜘蛛一蜘蛛二蜘蛛三蜘蛛…

日志提取

DNS 日志分析

数据存储

日志分析

域名基础数据库

域名采集

域名信息查询,按地区、IP、类型等条件

图4 系统架构

⑸蜘蛛程序应该能够支持多线程、多进程并行抓取,从而能更加有效地利用网络空闲资源,并能够快速稳定地对已经抓取到的数据进行分析处理。

根据指定条件进行定向抓取。如图2所示。网络蜘蛛系统支持分布式,多终端、多进程、多线程并行抓取,各个终端可以运行在不同地域。这种部署方式提高了系统的并发处理能力,能够更有效地利用网络带宽,把数据处理的压力从服务器转移到各个终端,而各个终端相互并行协同工作,互不影响。通过这种系统架构,系统的抓取能力及数据处理能力得到成倍的提升。

3.1.3聚焦型网络蜘蛛系统流程

聚焦型网络蜘蛛系统流程如图1所示。蜘蛛从UR L数据容器中获取到下一个待抓取的UR L,通过一系列过滤策略进行过滤,抓取到页面内容,然后通过调用SpiderPlug进行数据分析处理,通过数据处理策略及PR策略对数据进一步分析,分析完成后,将数据提交到数据审计模块,经审计后提交到缓存模块,最后由缓存处理模块提交到数据容器。

蜘蛛系统的数据抓取模块、数据分析模块、数据存取模块互相独立,可根据需要进行单独配置。

3.1.2聚焦型网络蜘蛛的设计方案

由于网络数据数量庞大,即使最强的搜索引擎也只能抓取到其中的一小部分数据,聚焦型网络蜘蛛与传统蜘蛛的重要区别就是支持智能选择机制,而智能选择机制的核心是数据反馈机制,采用聚焦搜索方式,扫描可以更具针对性,扫描结果更加精确,可以有效利用有限的硬件资源最大可能地抓取所需要的信息。一个良好的蜘蛛系统不仅具有高效的数据抓取能力,而且应该具有智能的分析机制,可以自动计算出最佳爬行路径并能够

3.2 DNS服务器日志挖掘模块

D N S服务器日志分析流程如图3所示。通过对网络爬虫进行域名和网站数据的采集能够准确地抓取到网络上大部分的域名,但仅通过爬虫来收集域名数据仍有部分不足,原因如下。

3.1.4聚焦型网络蜘蛛系统部署

聚焦型网络蜘蛛系统部署情况

40

TELECO MM U NICAT IONS TECHNOLOGY /2011·5

,

⑴如果域名无外部链接,则爬虫无法按正常途径抓取到该域名。

⑵如果网站域名外链较少或者较隐蔽,爬虫抓取到的机率就会降低。

对于以上问题,通过提取DN S日志对域名信息进行补全,解决方案如下。

D N S日志分析服务器实时提取DN S 查询日志,然后对数据进行分析处理,提取出用户访问的域名,通过排重过滤等数据处理,将域名提交到域名基础数据库,作为域名基础数据源。

通过爬虫和DN S结合的方式对域名数据进行收集,能够确保域名数据的完整。

别和等级对网站进行不同级别的监控与扫描,使扫描覆盖面更全,针对性更强。

域名反查系统根据用户需要可支持多种条件进行筛选。

⑴按I P 段进行查询,如可查询10.3.3.1—10.3.5.255的域名。

⑵按地区进行查询,如可查询“深圳联通”所有域名。

⑶按域名后缀进行查询,如可只查询 .com的域名。

⑷按类型进行查询,如可选择只查询WAP类型的网站。

心、基础运营商,该技术的使用将会大大提高区域内的网络安全级别,对降低部署成本、提高网络监管力度、净化网络环境、提升网络安全级别有

着重要的现实意义。

如对本文内容有任何观点或评论,请发E-ma i l至editor@ttm.com.cn。

杨世标

网络设计师,现任职于中国联通广东分公司运维部数据互联维护主管,具有丰富的IP网络维护及网络安全实战经验。

4.3 DNS域名分析组件

3.3 系统架构

D N S数据挖掘与搜索引擎相结合的系统架构如图4所示。

通过分析DN S日志信息,提取用户访问的域名,可以对蜘蛛抓取不到的部分域名进行补全,能够较高地提升域名数据的全面性。

梅汝鹏

工程师,现任职于中国联通广东分公司运维部安全管理经理,具有丰富的通信网络安全管理经验。王晶晶

4.1 领先的爬虫技术

广东联通开发的分布式爬虫引擎组件采用广度优先算法结合抓取策略,具有稳定高效、高并发性、高智能等特点,能够对指定地区、指定类型、指定后缀的网站进行定向抓取与数据分析,通过条件设定可提高爬虫系统的抓取针对性与抓取效率。

采用该爬虫引擎进行域名信息的采集测试,单个蜘蛛客户端进程每天可以发现新域名50万以上,并可以长时间稳定、高速、高效率运行。而同行业的整个系统每天发现的新域名仅数万,不及广东联通单个客户端发现数量的1/10,经过一个月的抓取,采集了2 000多万的域名。

4.4 系统效率

广东联通省内互联网网站检测发现率达到99以上,且对新检测出的域名在30 min内和工业和信息化部网站备案接口(接口状态正常)完成IC P备案信息验证;对检测出的网站,比对关键字词典,在2 h内完成初次内容检测报告,并在12 h内完成网页内容变化重检测;对检测出的网站,比对W e b 、W A P 网站漏洞特征库,在2 h内完成初次内容检测报告,并在12 h内完成网页内容变化重检测,极大地提高了广东联通网络信息安全的维护效率。

网络安全员,现任职于中国联通广东分公司运维部网管中心互联网安全维护,具有丰富的IP网络安全维护经验。

欧胜推出创新的图像处理解决方案系列新品

欧胜微电子有限公司推出一系列全新的模拟前端(AFE)数字化芯片,它们能够很方便地集成到新一代办公或家用图像处理设备中,包括数字复印机、扫描仪和多功能打印机。

作为欧胜图像处理产品组合的一部分,WM8232、WM8233、WM8234 和WM8235处理和数字化从电荷耦合器件或者接触式图像传感器输出的模拟信号。它们提供多样化的通道和模拟数字转换配置,可让系统设计师去选择最适合其目的的配置。对于用户来讲,这意味着在得到更高的扫描分辨率时实现更高的扫描速度。

通过搜索引擎技术在网站域名数据采集中的实际应用,结合DN S数据挖掘,不仅能够完成对网站域名数量的提高,而且可以对网站域名进行智能分类、安全等级测评、特征提取、舆情监控等处理。

本项目可广泛应用于各大数据中

4.2 完整的网站域名基础信息数

据库

广东联通通过搜索和DN S日志数据挖掘可采集有效的域名数据库,并对每一网站进行归类、关键词提取及网站分级的处理,从而可根据网站类

www. ttm . com.cn

上一篇  linux常用 操作 总结

下一篇  第1章 引论