发布网友 发布时间:2022-04-23 22:46
共2个回答
热心网友 时间:2023-10-07 01:44
Lucene+nutch+heritrix网上可以找得到源代码,开源的搜索引擎,包含爬虫、检索等功能。
Heritrix是一个爬虫框架,可加如入一些可互换的组件。 它的执行是递归进行的,主要有以下几步: 1。在预定的URI中选择一个。 2。获取URI 3。分析,归档结果 4。选择已经发现的感兴趣的URI。加入预定队列。 5。标记已经处理过的URI 是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的..
热心网友 时间:2023-10-07 01:45
我之前就做过网络爬虫,我只用过这一款wireshark工具,我觉得挺好用,功能齐全强大,其他的我不好评论,每个软件各有千秋。jar库用的是Jsoup,方便简单。