爬虫爬取数据请问一下你知道如何用爬虫爬取到动态的JS写的网站信息吗？

2021-03-13

2255

请问一下你知道如何用爬虫爬取到动态的JS写的网站信息吗？当我使用jsup编写爬虫程序时，我通常会遇到HTML不返回的内容。但是浏览器显示了一些东西。所有这些都是分析页的HTTP请求日志。分析页面JS代

请问一下你知道如何用爬虫爬取到动态的JS写的网站信息吗？

当我使用jsup编写爬虫程序时，我通常会遇到HTML不返回的内容。但是浏览器显示了一些东西。所有这些都是分析页的HTTP请求日志。分析页面JS代码来解决问题。1某些页面元素被隐藏->替换选择器解决方案2。一些数据保存在JS/JSON对象中->截取相应的字符串，分析并求解3。通过API接口调用-> forge请求获取数据。还有一个终极方法4。使用无头浏览器，如phantomjs或casperjs

动态加载的数据由用户通过鼠标或键盘执行，在操作后加载。

所以我们使用selenium提供的webdriver工具调用本地浏览器，让程序代替人类行为，滚动页面，单击按钮，提交表单等等。从而得到所需的数据。所以我认为使用selenium方法抓取动态页面的中心思想是模拟人类行为。

请问一下你知道如何用爬虫爬取到动态的JS写的网站信息吗？

相关推荐