爬虫能做什么 java如何抓取网页上的动态信息,获取源代码后如何分析JS?

java如何抓取网页上的动态信息,获取源代码后如何分析JS?当我使用jsup编写爬虫程序时,我通常会遇到HTML不返回的内容。但是浏览器显示了一些东西。所有这些都是分析页的HTTP请求日志。分析页面J

java如何抓取网页上的动态信息,获取源代码后如何分析JS?

当我使用jsup编写爬虫程序时,我通常会遇到HTML不返回的内容。但是浏览器显示了一些东西。所有这些都是分析页的HTTP请求日志。分析页面JS代码来解决问题。1某些页面元素被隐藏->替换选择器解决方案2。一些数据保存在JS/JSON对象中->截取相应的字符串,分析并求解3。通过API接口调用-> forge请求获取数据。还有一个终极方法4。使用phantomjs或casperjs无头浏览器

Python

强大的网络功能,模拟登录和解析JavaScript,缺点是用Python解析网页非常方便。著名的Python爬虫有很多解析器,比如scratch、Java和Java。它对网页有很好的解析支持。缺点是网络中有很多Java开源爬虫。著名的解析器,如nutch,在中国有webmagicjava,优秀的解析器,如Htmlparser和jsoop,无论是Java还是python,都能满足一般的需求。如果需要模拟登陆和反采集,选择python更方便。如果需要处理复杂的网页,解析网页内容生成结构化数据或精细解析网页内容,可以选择Java。