爬虫爬取数据 请问一下你知道如何用爬虫爬取到动态的JS写的网站信息吗?

请问一下你知道如何用爬虫爬取到动态的JS写的网站信息吗?当我使用jsup编写爬虫程序时,我通常会遇到HTML不返回的内容。但是浏览器显示了一些东西。所有这些都是分析页的HTTP请求日志。分析页面JS代

请问一下你知道如何用爬虫爬取到动态的JS写的网站信息吗?

当我使用jsup编写爬虫程序时,我通常会遇到HTML不返回的内容。但是浏览器显示了一些东西。所有这些都是分析页的HTTP请求日志。分析页面JS代码来解决问题。1某些页面元素被隐藏->替换选择器解决方案2。一些数据保存在JS/JSON对象中->截取相应的字符串,分析并求解3。通过API接口调用-> forge请求获取数据。还有一个终极方法4。使用无头浏览器,如phantomjs或casperjs

动态加载的数据由用户通过鼠标或键盘执行,在操作后加载。

所以我们使用selenium提供的webdriver工具调用本地浏览器,让程序代替人类行为,滚动页面,单击按钮,提交表单等等。从而得到所需的数据。所以我认为使用selenium方法抓取动态页面的中心思想是模拟人类行为。