搜索资源列表
newsparser
- 基于HTMLPARSER,采用职责链模式进行定向新闻抓取的代码,通过定义正则模式,可以抓取任何新闻网站的内容。-Based HTMLPARSER, use in directional news crawl , by defining the regular mode, you can grab the content of any news site.
ROSTDM
- 网页文本抓取,通过设置XML可以批量抓取任意网站的任意数据-Web text crawl, crawl any website any data volume by setting XML
gethtml
- 机器人源码,可后台自动抓取你指定的网上的连载书籍,每书一个子目录,每章一个文本文件。适当配置可适应大部分网站。-Robot source, the background automatically crawl your designated online serialized books, a subdirectory of every book, each chapter a text file. Appropriate configuration can be adapted to most
wo99
- 抓取程序,用来抓取相关网站的音乐,并且下载。-Crawler to crawl websites music, and download.
EComputerRobot
- Web Crawler,网络蜘蛛即Web Spider。找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止-failed to translate
PHPCrawl
- 使用PHP脚本编写的一个网络爬虫,用来抓取对应网站的一些基本信息。-A web crawler using PHP scr ipting to grab some basic information of the corresponding website.
Crawler
- 后台用PHP,前端用javascr ipt,编写的一个网络爬虫,用来对对应网站的链接和指定文字图片进行抓取的一个小工具。-Background with PHP front-end javascr ipt, the preparation of a Web crawler to grab a small tool on the corresponding websites and specified text picture.
jsoupAPI
- Java抓取网站数据,语法类似于jquery,很简单,很容易上手,比起用httpclient抓取数据方便的多-Java crawl Website data
MiddleWareTest
- 一个中间件的demo,比较简单。从网页(此处是自己搭建的网站)上抓取数据之后,转换成json对象以供调用。-A middleware demo, is relatively simple. Grab data from the website (here is to build their own website), convert the json object to call.
crawler-1.0-sources
- 网络蜘蛛是通过网页的链接地址来寻找网页 网络蜘蛛 ,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 ----这样看来,网络蜘蛛就是一个爬行程序,一个抓取网页的程序-internet crawler
lzzSearch-0.4
- 1 完全基于人工收录,每个被收录的帖子都是我们认为不错的。 2 任何人都可以加入,别人也可以分享到你加入的内容 3 收录的内容,不是简单的抓取,而是只收录里面最有用的部分,比如主题,内容,作者,发言时间等 4 由于上一个的原因,所以不是任何网站都能加入,后面有目前支持的网站列表。 5 增加新的网站支持,需要写3个正则表达式,进行帖子内容的精确匹配 6 使用Lucene进行存储和查询 7 开源,可以在自己的机器上部署一个,拥有自己的收藏和搜索工具。 8 同
qire
- 最新版粉红电影模板上线了!属于精仿最新版的奇热! 1、此次增加了观看历史记录,让网站更容易留住用户,提高用户体验。 2、同时在播放页中增加了播放列表,使用户体验更上一层楼。 3、调整栏目页,以字母的模式展现,与奇热的相似度更高。 4、一键采集,方便每天更新内容供搜索引挚抓取。 5、触发式自动采集,只要有流量就能实现自动采集更新。 6、强大的观看历史记录 7、独特的播放帮助文件 8、独立的频道页利于优化 9、
ReadNovel
- 抓取readernobel小说网站目录及章节文本。-Text crawl novel site
GetPostsList
- 抓取网站帖子,文章等,用于采集其它网站资源-Crawl the site posts, articles, etc., used to collect
mihao3.0
- 米号文章管理系统采用ASP+ACCESS语言环境(),DIV+CSS构架及APPLICATION缓存技术,代码简洁标准,全面兼容IE6、IE7、IE8、IE9、Firefox、Firefox、Chrome、Safari等等主流浏览器。 功能特点: 首页静态生成;全站模板标签灵活调用,方便用户制作多样的风格模板; 会员注册登录全站通;会员支持头像(整站系统)、积分等等常见功能; 文章系统:支持无限栏目(二级分类),支持栏目类型选择(如文章类型、图片类型),自动分页功能;自定义
eetime_product
- 完整的httpxml方式网站内容抓取。所有数据保存在一个多位数组内。-Complete Web site content to crawl httpxml way. All data stored in an array with a number.
lzdHw1
- 一个在Linux平台上执行的程序,用来抓取特定网站上指定类型的文件-a Linux implementation of the procedures used to capture specific web sites designated types of documents
songtaste
- 抓取SongTaste网站最新的音乐地址。-requit SongTaste Music address.
yemianzhuaqu
- 模拟蜘蛛,抓取页面信息,在指定网站上抓取数值-Analog spiders crawl the page information
scraping
- 抓取网站数据的爬虫程序,使用异步模型进行网络访问,获取页面的速度很快。-Scrape items information on website, use Twisted web frame for requests html pages.