搜索资源列表
armydog_5
- 开源的网络爬虫
topicCrawler
- 一个主题相关的网络爬虫,实现与某一主题相关的网页的爬取
heritrix-1.10.1
- 一个开源的网页爬虫
heritrixProject
- 最强的爬虫工程,只需要简单的配置即能实现自己的功能
mywebgather[NoMaxLink]
- 这是一个改进的网络爬虫源代码,采用多线程技术对网页进行采集.
reptile
- 用java做的一个类似网页爬虫的东西
spider
- 网页抓取器又叫网络机器人(Robot)、网络爬行者、网络蜘蛛。网络机器人(Web Robot),也称网络蜘蛛(Spider),漫游者(Wanderer)和爬虫(Crawler),是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。他们能自动漫游与Web站点,在Web上按某种策略自动进行远程数据的检索和获取,并产生本地索引,产生本地数据库,提供查询接口,共搜索引擎调用。
MAIYIGO采集程序
- MAIYIGO采集程序 ·智能全自动建站系统:你要做的仅仅是设置几个关键词 ·全自动更新:MAIYIGO自动寻找信息,随时自动更新 ·在线的WEB系统:无须安装软件,买个空间就能用 ·非作弊:我们不要关键词堆砌,不要作弊,我们是正规站! ·会上网就会使用:无需懂任何网站建设知识 ·自动赚钱的机器:放上广告,在家睡觉!等着赚美元 MAIYIGO是由工作在顶级门户网站的几名资深高级工程师利用爬虫技术(蜘蛛机器人,spider)、
nicewords4.5中文版
- Nicewords是由工作在顶级门户网站的几名资深高级工程师利用爬虫技术(蜘蛛机器人,spider)和分词技术,结合白帽SEO,利用URL重写技术、缓存技术,使用PHP语言开发的一套能根据设置的关键词自动抓取互联网上的相关信息、自动更新的WEB智能建站系统。利用NiceWords智能建站系统,只需要在配置页面上设置几个关键词,NiceWords就能全自动的生成一套能自动更新的网站了。 NiceWords最主要是解决了自动建站的问题。以前的自动建站软件内容都还是需要自己发,有了NiceWord
sinaCrawler
- java编写的新浪微博爬虫,不需要数据库支持-Sina microblogging java crawler written, no database support
Chap02
- 分布式爬虫,实现爬虫的分布式抓取,提高效率-Distribute parser
crawler
- 这是一个简单的java爬虫,功能比较全面。-This is a simple java reptiles, features more comprehensive.
cobra
- 有js逻辑的页面,对网络爬虫的信息抓取工作造成了很大障碍。DOM树,只有执行了js的逻辑才可以完整的呈现。而有的时候,有要对js修改后的dom树进行解析。在搜寻了大量资料后,发现了一个开源的项目cobra。cobra支持Javascr ipt引擎,其内置的Javascr ipt引擎是mozilla下的 rhino,利用rhino的API,实现了对嵌入在html的Javascr ipt的解释执行-There js a logical page, the information on the Web
weibobee_OpenSrc
- 新浪微博的爬虫程序,贡献给大家可以分享一下,里边有源代码,更加有接口,注释很明了,可以参考!-Sina microblogging crawler, we can contribute to the share, inside the source code, more interfaces, comments are clear, you can refer!
SinaUtils
- 新浪微博爬虫,使用新浪微博开放的API,通过大量僵尸账号抓取粉丝用户的最新的微博信息,以及个人关系状态(关注数、粉丝数等)-web spider for sina microblog
Synonym
- 网络爬虫相关,同义词替换,JAVA编写,适宜初学者。-Web crawler related, synonyms replace, JAVA write
GetWeb
- java爬虫程序,运行时输入网址作为参数,然后可以爬下来一些网页内容。采用多线程结构,可以设置爬虫深度-It is a net-spider which can define the deepth of it and get the HTML and save as an static file at your disk.
CrawlerTest
- java编写的简单的网络爬虫,通过设定种子页面,可以爬取一系列相关网页。-java web crawler written in simple, by setting the seed page, you can crawl a website.
Spider-Width
- java实现宽度优先的网络爬虫,经过测试可以爬数据,也就是实现那个《自己动手写网络爬虫》,里面有各种需求的包等-java breadth-first web crawler can climb the data tested, is to realize that " web crawler" to write himself, there are a variety of needs package
myCrawler
- java下的 多线程爬虫 输入线程数目, 生成相应线程-java crawler