搜索资源列表
zhuaquwangye
- 一个简单的抓取网页并保留该网页的程序,并记下抓取所用的时间-grasp a simple retention of the website and the website of the procedures and record grasping the time
Snoopy-1.2.3.tar
- snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。 下面是它的一些特征: 1、方便抓取网页的内容 2、方便抓取网页的文字(去掉HTML代码) 3、方便抓取网页的链接 4、支持代理主机 5、支持基本的用户/密码认证模式 6、支持自定义用户agent,referer,cookies和header内容 7、支持浏览器转向,并能控制转向深度 8、能把网页中的链接扩展成高质量的url(默认) 9、方便提交数据并且获取返回
SubjectSpider_ByKelvenJU
- 1、锁定某个主题抓取; 2、能够产生日志文本文件,格式为:时间戳(timestamp)、URL; 3、抓取某一URL时最多允许建立2个连接(注意:本地作网页解析的线程数则不限) 4、遵守文明蜘蛛规则:必须分析robots.txt文件和meta tag有无限制;一个线程抓完一个网页后要sleep 2秒钟; 5、能对HTML网页进行解析,提取出链接URL,能判别提取的URL是否已处理过,不重复解析已crawl过的网页; 6、能够对spider/crawler程序的一些基本参数进行
fdminstV2.0.423
- dminstV2.0.423源码介绍: 是一个完全免费的多功能的下载和管理工具。支持多线程下载,支持计划任务下载,支持以目录列表查看检索站点内容,支持下载网页内容、图象、文件,支持抓取网页上的链接,支持下载整个网站内容
nicewords_2.0.0128_for_3790_4659.tar.dezend_cc_php
- Nicewords-Dzend版 Nicewords是由工作在顶级门户网站的几名资深高级工程师利用爬虫技术(蜘蛛机器人,spider)、分词技术和网页萃取技术,结合白帽SEO(规避了一切风险的搜索引擎优化),利用URL重写技术、缓存技术,使用PHP语言开发的一套能根据设置的关键词自动抓取互联网上的相关信息、自动更新的WEB智能建站系统。利用NiceWords智能建站系统,只需要在配置页面上设置几个关键词,NiceWords就能全自动的生成一套能自动更新的网站了。 您要做的仅仅是设置几个关键词
lucene
- lucene 是java 的版的搜索引擎公共模块, 本人使用此模块, 已经开发实现了网页的抓取。
zhang
- 页面抓取新闻并自动生成网页的代码 有兴趣的可以看看,很有意思的东西
spider 用java实现的网络爬虫
- 用java实现的网络爬虫,用来抓取网页图片。可以抓取美女图片到本地硬盘哦-Achieved using java web crawler, to crawl the page image. You can capture beautiful images to your local hard Oh
NekoHtml
- 基本功能:抓取指定网面指定表格的数据; 使用说明:输入指定网页地址,网页编码、表格索引,过滤行、旬索引或者过滤内容条件-Basic functions: crawl the specified network face designated form data Usage: Enter the specified web page address, web page encoding, indexing tables, filtration lines, or filter the con
java-spider
- 一个用JAVA写的网络爬虫,效率比较高。可以对网页中的URL进行选择性的抓取。-A written using JAVA Web crawler, more efficient. The URL of the page can be selectively crawl.
heritrix-1.14.4-src
- 强大网络爬虫开源代码heritrix,下载动态网页。hertrix如何抓取动态页面的-heritrix
Other web content grab
- 我们可以通过这个源码从其他网页上面抓取有用的信息
CodeOfJavaSpider
- Spider Java 实现的简单网络爬虫,可以抓取网页和其中的URL-Java Spider
news
- 新闻小偷实现对指定网址的网页内容进行抓取。asp版本-News thief to achieve the designated URL web content to crawl. asp version
heritrixexample
- 对网页进行解析并抓取,用Java语言编写的。在heritrix中比较常用的-Analysis of web pages and crawl, using Java language. In the more commonly used heritrix
J2EEtools
- j2EE中用到的jar包及说明,包括上传,连接池,excel表导入导出,json串生成,xml,网页抓取等-j2EE used in the jar package and instructions, including upload, connection pooling, excel table import and export, json string generation, xml, web crawling, etc.
ewrfsr
- 网页抓取、() jquery前台控制、ajax跨域() 客户端处理服务器端发送的json数据。 使用时候请在struts2环境下,其他别无要求。-Web crawling, () jquery reception control, ajax cross-domain () client processing server sends the json data. When used in struts2 circumstances, no other requirements.
WebSpider-v5.1
- 蓝蜘蛛网页抓取,欢迎研究 ,非常不错,可以改造实际程序-get net information, welcome you to study,verygood ,you can make it better for using
ShanKeDa
- 网页抓取,解析,封装json服务器端,供参考使用-webservice json
ecshop-comment-v1.2
- 使用说明 单个商品评价 安装完插件之后,进入Ecshop后台的“商品列表”,会看到如下图: 点击上图的“生成评论”进入单个商品评论配置部分,如下图: 插件根据输入的“商品关键词”到淘宝网搜索相关的热销商品评论,也可以通过“淘宝商品URL”到对应的网页抓取评论,注意: 评论时间设置即第一条评论的开始时间-instructions Individual product uation After installing the plug-in, enter the Ecshop