搜索资源列表
netget
- 网页抓取。 实现对指定网址的网页内容进行抓取。网页抓取。 实现对指定网址的网页内容进行抓取。
nicewords_2.0.0128_for_3790_4659.tar.dezend_cc_php
- Nicewords-Dzend版 Nicewords是由工作在顶级门户网站的几名资深高级工程师利用爬虫技术(蜘蛛机器人,spider)、分词技术和网页萃取技术,结合白帽SEO(规避了一切风险的搜索引擎优化),利用URL重写技术、缓存技术,使用PHP语言开发的一套能根据设置的关键词自动抓取互联网上的相关信息、自动更新的WEB智能建站系统。利用NiceWords智能建站系统,只需要在配置页面上设置几个关键词,NiceWords就能全自动的生成一套能自动更新的网站了。 您要做的仅仅是设置几个关键词
lucene
- lucene 是java 的版的搜索引擎公共模块, 本人使用此模块, 已经开发实现了网页的抓取。
zhang
- 页面抓取新闻并自动生成网页的代码 有兴趣的可以看看,很有意思的东西
spider
- 网页抓取器又叫网络机器人(Robot)、网络爬行者、网络蜘蛛。网络机器人(Web Robot),也称网络蜘蛛(Spider),漫游者(Wanderer)和爬虫(Crawler),是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。他们能自动漫游与Web站点,在Web上按某种策略自动进行远程数据的检索和获取,并产生本地索引,产生本地数据库,提供查询接口,共搜索引擎调用。
WebCrawl
- 自己写的网络蜘蛛,主要是包括网页抓取,以及内容提取等一些功能-Web Spider,can catch the html and anayise the content and so on.
NekoHtml
- 基本功能:抓取指定网面指定表格的数据; 使用说明:输入指定网页地址,网页编码、表格索引,过滤行、旬索引或者过滤内容条件-Basic functions: crawl the specified network face designated form data Usage: Enter the specified web page address, web page encoding, indexing tables, filtration lines, or filter the con
java-spider
- 一个用JAVA写的网络爬虫,效率比较高。可以对网页中的URL进行选择性的抓取。-A written using JAVA Web crawler, more efficient. The URL of the page can be selectively crawl.
heritrix-1.14.4-src
- 强大网络爬虫开源代码heritrix,下载动态网页。hertrix如何抓取动态页面的-heritrix
Other web content grab
- 我们可以通过这个源码从其他网页上面抓取有用的信息
news
- 新闻小偷实现对指定网址的网页内容进行抓取。asp版本-News thief to achieve the designated URL web content to crawl. asp version
heritrixexample
- 对网页进行解析并抓取,用Java语言编写的。在heritrix中比较常用的-Analysis of web pages and crawl, using Java language. In the more commonly used heritrix
ir.jar
- 一个使用的搜索引擎,实现网页的抓取预处理等功能-One used by search engines, web crawling Preprocessing implementation functions
photo
- 最快捷,最方便的图片上传,管理系统! ·支持批量上传,抓取远程图片,FTP导入图片 ·采用PHP5.0+MYSQL架构 ·基于最新的MP框架构建,详尽注释,方便二次开发和扩展 ·采用项目缓存机制,单入口模式,简洁,小巧,高效 ·完全UTF-8编码,方便安装在国外主机 ·自由分类,自动生成导航和内容调用 ·直接从网页复制粘贴图文,自动过滤 ·外部图片自动保存在本地 ·自动控制上传图片和本地化图片尺寸 ·自动给上传及本地化图片添加水印 ·自
tq
- 天气小偷源码,可以远程抓取天气数据,显示在您的网页中,使用缓存保证天气数据更新及时而且不超时!-Weather thieves source code, you can grab the remote weather data displayed on your page, use the cache to ensure timely weather data update and is not time-out!
heritrix12project
- heritrix12project可实现对指定网页的抓取控制-heritrix12project can realize the control of the specified web pages
heritrix
- 开源网络爬虫heritrix,网络上下载的爬虫往往不能正确运行,本爬虫经过修改,可以抓取手机方面的网页-Open source network reptiles heritrix, network downloaded reptiles often not correctly, this reptiles revised, can crawl phone aspects pages
spider
- 在线抓取网页源码,非常实用的一款在线抓取网页源码工具(Online grab web source code)
JAVA程序设计
- 用JAVA编写一个抓包程序,可以抓取网页10000页数据并导入excel
changtuizhizhu
- 是一个全自动采集插件几乎可采集任何网站,设置轻而易举,只需要设置定向采集网址,通过CSS选择器精准识别采集区域,包括(内容,摘要,TAG,缩略图,自定义字段等…)然后自动检测抓取网页内容,文章去重,更新发布,这个过程全自动完成,无需人工干预。