java开源web爬虫哪个好用

发布网友 发布时间:2022-04-23 22:46

我来回答

2个回答

热心网友 时间:2023-10-07 01:44

Lucene+nutch+heritrix网上可以找得到源代码,开源的搜索引擎,包含爬虫、检索等功能。
Heritrix是一个爬虫框架,可加如入一些可互换的组件。 它的执行是递归进行的,主要有以下几步: 1。在预定的URI中选择一个。 2。获取URI 3。分析,归档结果 4。选择已经发现的感兴趣的URI。加入预定队列。 5。标记已经处理过的URI 是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的..

热心网友 时间:2023-10-07 01:45

我之前就做过网络爬虫,我只用过这一款wireshark工具,我觉得挺好用,功能齐全强大,其他的我不好评论,每个软件各有千秋。jar库用的是Jsoup,方便简单。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com