爬虫能做什么 java如何抓取网页上的动态信息，获取源代码后如何分析JS？

2021-03-13

1357

java如何抓取网页上的动态信息，获取源代码后如何分析JS？当我使用jsup编写爬虫程序时，我通常会遇到HTML不返回的内容。但是浏览器显示了一些东西。所有这些都是分析页的HTTP请求日志。分析页面J

java如何抓取网页上的动态信息，获取源代码后如何分析JS？

当我使用jsup编写爬虫程序时，我通常会遇到HTML不返回的内容。但是浏览器显示了一些东西。所有这些都是分析页的HTTP请求日志。分析页面JS代码来解决问题。1某些页面元素被隐藏->替换选择器解决方案2。一些数据保存在JS/JSON对象中->截取相应的字符串，分析并求解3。通过API接口调用-> forge请求获取数据。还有一个终极方法4。使用phantomjs或casperjs无头浏览器

Python

强大的网络功能，模拟登录和解析JavaScript，缺点是用Python解析网页非常方便。著名的Python爬虫有很多解析器，比如scratch、Java和Java。它对网页有很好的解析支持。缺点是网络中有很多Java开源爬虫。著名的解析器，如nutch，在中国有webmagicjava，优秀的解析器，如Htmlparser和jsoop，无论是Java还是python，都能满足一般的需求。如果需要模拟登陆和反采集，选择python更方便。如果需要处理复杂的网页，解析网页内容生成结构化数据或精细解析网页内容，可以选择Java。

java如何抓取网页上的动态信息，获取源代码后如何分析JS？

相关推荐