如何采集各大招标网站的招投标信息

如何监控并采集各大招标网站的招标信息在网上听很多做招投标网站的朋友说,每天都是有大量的招标信息需要整理,工作量大到惊人,而且最重要效率还是不高,在这里,笔者准备做一个关于采集招投标网站信息的一个教程,

如何监控并采集各大招标网站的招标信息

在网上听很多做招投标网站的朋友说,每天都是有大量的招标信息需要整理,工作量大到惊人,而且最重要效率还是不高,在这里,笔者准备做一个关于采集招投标网站信息的一个教程,此教程里面的方法可以采集目前网络上大部分招投标网站。

此次的教程需要用到的是熊猫采集软件,这是新一代的智能采集器,操作非常简单容易,不需要专业基础,新手首选。且功能特别强悍复杂,只要是浏览器能看到的内容,都可以用熊猫批量的采集下来。如各种电话号码邮箱,各种网站信息搬家,网络信息监控、网络舆情监测、股票资讯实时监控等等。

熊猫采集器是唯一拥有正文自动解析功能功能的采集软件,对于本案例涉及到的招投标的信息获取,利用这个功能,会节省很大一部分的时间,从而我们的工作效率就会变的更高。这里我们首先以一个get 翻页的招投标网站作为例子,后面再讲一个针对post 翻页的招投网站的例子,基本上所有网站所使用的方式都是这两种之一了,第一个例子用的是江苏招标网,第二例子用的是四川省公共资源交易服务中心的里面的招标信息。

有需要的看官可以去百度收索一个熊猫采集软件下载即可。熊猫的免费版就包含实现本演示示例的所需要的全部功能。

好了,下面进入我们的采集环节吧!

首先,我们打开我们这次采集需要的工具, 也就是熊猫采集器,点击新建项目(标准)

这个时候是进入我们的基础设置,在这里,我们可以给我们创建的项目命名一个名称已方便我们以后好区分我们之前设置过的项目,当然,我们不设置也是可以的,因为我这里是采集招投标的信息,我就去了一个招标采集的名称。

,

点击下一步设置,进入标题列表页及其翻页设置,列表页是包含我们要采集内容的链接网址的页面,比如百度搜索一个关键词,会列出来很多网页,这些网页我们就可以认为是标题列表页面。我们采集江苏招标网的时候进入招标信息,里面就是我们要的标题列表页。

下面我们将这个标题列表页的网址拷贝到我们的软件中来

,

点击开始进行预分析的按钮,会出现下图的提示

如果我们需要翻页采集,那么选择是即可,不要则选择否即可。我这里并不是说只采集一页,所以我选择的是,这个主要根据你们的实际情况来决定。下面post 的翻页的案例,我们会通过选择否去进行操作

,

点击下一步设置,进入选择内容页的设置,随便选择一个我们要采集的链接,会发现右边我们要采集的链接全部被红框框选起来了。那么这里我们就不要进行调整,直接再次下一步设置

来到内容页面模板管理,这里我会用到我刚刚说的熊猫正文自动解析功能,也就是方式2,由系统为我们自动自动分离出标题和正文,如图所示:

,

这样,一个普通的get 翻页的招标网站就设置完成了。如果看官我们想通过方式1设置内容的采集,那也是很简单的,这里我就不详细说了,下面的另一个例子我就用方式一来设置内容的采集。这里我们点击保存,确认出来查看结果就可以了。

通过结果可以看出,改网站上面的招标信息已经被我们采集下来了。以后对改网站实行招标监控只需要将我们的软件定个时间运行即可,是不是感觉很好用而且设置还很简单?

好了,下面笔者再演示一个post 翻页的招标信息网站,希望可以帮助到大家

前面的两步我们直接跳过,直接进入到标题列表及翻页设置的环节。普通的标题列表页我们在翻页的时候,网址是有会有翻页参数在变化的,而我们的以post 提交的翻页网址是不会有任何变化,如下图的我们要演示招标网站:

,

可以发现,第二页和第三页网址是一模一样的,后面的的页数网址其实都是一样的,

这种情况,在网站中实现这种效果可能有两种可能,一直是框架页面,它把真实的翻页网址给隐藏了,只要我们找到真实的网址,利用真实网址采集即可。还有一种就是post 翻页了,这个时候我们就需要用抓包工具来分析一下是post 的还是框架了,当然,这里我们讲的肯定是post 翻页了,所以在进入我们标题列表的设置时候,需要进行一个抓包工作, 现在的浏览器大部分都是自带一个抓包工作的,你可以在你的浏览器空白处右击一下,会出来一个小界面,点击里面的审查元素,如下图:

,

点击一下:

到这里,我们就来看看我们的列表页是如何翻页了,先点击第二页,发现如下图所示:

,

我们看到一个post ,说明了这个网页是post 的翻页的,我们点击打开看看里面的参数

将我们的响应网址拷贝到熊猫中去,由于是post 的翻页,所以我们在分析的时候要用

post

的方式:

,

点击开始分析:

如果选择的是,系统会将post

提交的参数默认提供给我们,但是有时候未必会准备,

所以我们以抓包的参数以及参数值为准,只需将参数值粘贴复制到熊猫中即可,选择否的话那么所有的参数我们就复制粘贴进去即可

,

仔细将上面的参数和你抓包的参数进行对比,最好和抓包的一样,不多不少。否则可能出现我们不想要的结果。下面我们在post 翻页里面进行翻页处理。

在我们上图翻页参数框填写一个3,点击post 参数验证,看右侧是什么效果,如下图:

标签: