搜索资源 - 蜘蛛多线程

搜索资源列表

SubjectSpider_ByKelvenJU

1下载：
1、锁定某个主题抓取； 2、能够产生日志文本文件，格式为：时间戳(timestamp)、URL； 3、抓取某一URL时最多允许建立2个连接（注意：本地作网页解析的线程数则不限） 4、遵守文明蜘蛛规则：必须分析robots.txt文件和meta tag有无限制；一个线程抓完一个网页后要sleep 2秒钟； 5、能对HTML网页进行解析，提取出链接URL，能判别提取的URL是否已处理过，不重复解析已crawl过的网页； 6、能够对spider/crawler程序的一些基本参数进行
所属分类：JSP源码/Java
- 发布日期：2008-10-13
- 文件大小：1912263
- 提供者：祝庆荣

05df9e4596ac

0下载：
Web爬虫（机器人，蜘蛛）Java类库，最初由Carnegie Mellon 大学的Robert Miller开发。支持多线程，HTML解析，URL过滤，页面配置，模式匹配，镜像，等等。-a Web Crawler (robots, spiders) Java class libraries, initially by the Carnegie Mellon University s Robert Miller development. Supports multi-threading, HTM
所属分类：Java Develop
- 发布日期：2017-04-17
- 文件大小：474334
- 提供者：hiac