搜索资源列表
openwebspider-0.7
- 网页抓取程序,开源的Web蜘蛛程序,可以多线程现在Web页面
RefreshCase
- 多线程搜索网页程序,主要实现了对网页内容的抓取!
webCatch
- 实现多线程WEB网页内容批量抓取。 代码少,一个文件搞定。
GetDonews
- 抓取别人网页的一个例子,可以把所有链接取下来
BFFetch
- C#编写的网页内容抓取工具,多线程采集,效率很高
miniSearch
- 搜索,2006年4月开发出来。开发之初,搜索就将自己的目标定位于打造专业化的搜索引擎。力争用“最”短的时间为广大搜索用户提供“最”有用的信息。 搜索目前主要提供“美容经验” “大杂烩” “旅行资讯”三个领域的网页信息。 注:我们提供各行业专业搜索引擎索引库定制服务,您只需提供需要索引的网址,我们便会为您提供强大的网页信息抓取服务,丰富您的搜索引擎数据库,抓取内容可嵌入本搜索系统中。我们按所提供的网址数量收费。欢迎广大公司、站长和个人联系!
netget
- 网页抓取。 实现对指定网址的网页内容进行抓取。网页抓取。 实现对指定网址的网页内容进行抓取。
ib
- linux下的网页抓取与分析源码,可以实现在linux下的网页抓取,并呈现网页header的分析报的功能
3
- 网页密码抓取
nicewords_2.0.0128_for_3790_4659.tar.dezend_cc_php
- Nicewords-Dzend版 Nicewords是由工作在顶级门户网站的几名资深高级工程师利用爬虫技术(蜘蛛机器人,spider)、分词技术和网页萃取技术,结合白帽SEO(规避了一切风险的搜索引擎优化),利用URL重写技术、缓存技术,使用PHP语言开发的一套能根据设置的关键词自动抓取互联网上的相关信息、自动更新的WEB智能建站系统。利用NiceWords智能建站系统,只需要在配置页面上设置几个关键词,NiceWords就能全自动的生成一套能自动更新的网站了。 您要做的仅仅是设置几个关键词
analyzer
- 一个简单的网页分析器 系统需求: 1. 编写Socket客户端访问WEB服务器,获取网页至本地硬盘; 2. 分析第1步中抓取的网页内容,找出所有图片链接URL信息。3. 统计第1,第2步中下载文件(包括网页文件与图片文件)的大小(即字节数和); 4. 统计第1,第2步所消耗的时间和; 5. 在屏幕上打印该WEB网页的访问速度(bytes/second) = 下载文件总大小/下载总耗时。
lucene
- lucene 是java 的版的搜索引擎公共模块, 本人使用此模块, 已经开发实现了网页的抓取。
collectEmail
- 最近一直琢磨着写一个网络蜘蛛程序,专门负责收集一些自己感兴趣的东西。用.net写程序从网上取得网页源码比较容易实现,蜘蛛程序的难点在于两个方面,一是如何多线程的自动化处理(即从一个地址跳到另一个地址),另一个是从网页中提取指定的信息。自动化处理方面正在研究,从网页中提取信息,我觉得网上某些网友用String/StringBuilder来处理的方法不可取,用“正则表达式”无疑是最好的。尽管“正则表达式”不容易书写,但查一查资料,还是不难的。 以下是我写的一个从网页中抓取EMail的方法,可
ngetweb
- 网页抓取简单源代码 定时抓取、下载保存。
dl
- [功能] 本源码是一个因特网下载工具。他可以扫描整个网站的页面及各种图片音频视频等资源,你可以给这些待下载的资源设定最小的大小。 程序还使用了一个剪切板钩子(HOOK),使用它监控任何拷贝到剪切板中的文字,如果你复制了一个URL网页链接或者是一个URL的图片等链接,程序会立即弹出一个对话框让你配置下载任务。 用户可以通过设置文件名和文件大小,来下载整个站点的资源,或限制下载图片等等。 本质上来说,这是一个网络蜘蛛,可以多线程抓取网站。
zhang
- 页面抓取新闻并自动生成网页的代码 有兴趣的可以看看,很有意思的东西
tse
- 北京大学网络实验室出品的Tiny Search Engine,“微型搜索引擎源代码”。 包括网页抓取、索引生成等模块,可以看做北大天网的袖珍版。 强烈推荐想要详细了解搜索引擎原理的朋友们学习借鉴。
Sources
- 这是一个从指定网页格式分离单词的小程序,自动从链接抓取分析其它可用链接,然后对所有链接进行分析找到可用页面然后分离中英文单词,并进行分类。
spider
- 网页抓取器又叫网络机器人(Robot)、网络爬行者、网络蜘蛛。网络机器人(Web Robot),也称网络蜘蛛(Spider),漫游者(Wanderer)和爬虫(Crawler),是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。他们能自动漫游与Web站点,在Web上按某种策略自动进行远程数据的检索和获取,并产生本地索引,产生本地数据库,提供查询接口,共搜索引擎调用。
crawler
- 网页抓取软件源代码