搜索资源列表
spiderRss
- 一个rss 搜索引擎,专门抓取各个rss 聚会网站信息用来分析。 此项目的目录结构、组织相当的规范,包括单元测试、linux shell脚本等等。对于学习java来说是一个非常正规、标准的写代码案例。-A rss search engine dedicated to capture all the information to analyze site rss gathering. The project directory structure, organization fairly stan
kuaso
- 仿百度搜索引擎软件蜘蛛组件包括三大功能模块:链接采集、网页分析、无效网页扫描; 自动识别GB2312、BIG5、UTF-8、Unicode等网页编码; 文件类型证察防止非文本类型文件采集; 蜘蛛可以采集ASP、PHP、JSP等动态数据网页和HTML、SHTML、XHTML等静态网页; 支持续采功能,如果因系统、网络等故障问题终止采集,系统将在下次启动采集时提示您是否“继续采集”或“结束任务”; 采集任务管理功能可以设置多个采集任务安排计划工作,每一个采集任务将会
Nutch-Web
- 在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关 键问题进行重点探讨。 -The paperanalyzes typicalopen sourceWeb crawl software, such asNutch, Heritrix, WCT, andWeb-Har- vest. Following the a
Webpagemonitoring
- 通过抓取页面并获得返回值来监控网站 通过conf配置要抓取的页面。 如果抓取失败,会调用IE浏览器打开再次确认。并音乐报警,具体看源码,很早的代码了,音乐报警的路径写死了,有兴趣的自己改改用。 log里有详细的失败日志,便于查询并处理。 该程序采取防死锁功能,即有线程监控主线程是否死锁——如果网站一直处于等待便是死锁。那么会报警,但有时仍然会发生死锁。这还是http无状态链接的问题。 很久以前的老程序,源代码没了,用java反编译工具反编译的源代码,凑合用吧。
GrabRecipe
- 针对某一特定美食网站的菜谱抓取,保存了菜谱的描述和步骤。在磁盘上以一个文件夹对应一个菜谱的形式保存。-Web site for a particular food recipes capture, save the recipes and steps described. On disk to a folder corresponding to a menu is stored.
LoginWeb
- 从网页上抓取自己需要的信息,住区一个台湾网站上的股票信息!-Web page crawled from the information they need, settlements, a Taiwanese stock information on the site!
en_amazon-
- 图书销售网站的后台数据抓取上传等管理-Book sales website backstage data grab
Analyzer
- 帮别人做的一个自动分析服装网站数据抓取图片,分析网站服装更新上架下架的工具-Someone else to do an automatic data capture images of clothing site, analysis of Web site updates shelves shelves clothing tools
NekoHtml
- 抓取网站内容,输入指定条件下,例如网址 www.google.com.cn-Grab website content, enter the specified conditions, such as site www.google.com.cn
javacrewhtml
- java解析html抓取网站数据,-Download html file with java
tool_v2.0
- 1、JS加密/解密(将代码以js形式进行加密或解密。)2、UTF-8编码转换工具(UTF-8编码转换。)3、Unicode编码转换工具(Unicode编码转换。)4、友情链接(通过本工具可以批量查询指定网站的友情链接在百度的收录、百度快照、PR以及对方是否链接本站,可以识破骗链接。)5 、META信息检测(通过本工具可以快速检测网页的META标签,分析标题、关键词、描述等是否有利于搜索引擎收录。)6、MD5加密工具(对字符串进行MD5加密。)7 、身份证号码值查询(查询身份证所在地、性别及出生日
www
- 输入URL,可以下载指定URL的HTML文件,对于有不允许复制内容的网站有信息抓取功能-Enter the URL, you can specify a URL to download the HTML file, there may not copy the content for the website there is information capture function
metastudio_Linux_gcc_gecko1.8_zh
- MetaSeeker工具包V3是GooSeeker团队自主开发的网页抓取/数据抽取/信息提取软件,经历了垂直搜索、SNS等多个互联网浪潮的实战检验,已经发展到V3版本,并且分成企业版和在线版,对于不愿支付昂贵的企业版费用的用户可以免费下载使用在线版。 MetaSeeker工具包V3版本包括如下软件工具: 1,MetaStudio,网页数据结构定义工具,通过图形界面免编程定义网站数据抓取规则 2,DataScraper,数据抽取工具,能够连续大批量抓取网页内容,不是普通的网络爬虫,而是适应力-Me
Test
- 抓取页面内容,通过HttpURLConnection对指定路径的网站内容进行抓取-Crawl the page content, to crawl through the site content HttpURLConnection for the specified path
1323272283473_zcool.com.cn
- SXW Flash CMS v3.0更新说明: 1.全站采用UTF-8编码,解决多种语言字符兼容问题; 2.增加自定义网页显示功能,可在菜单中链接独立的网页作为栏目显示; 3.支持视频外链功能,支持土豆、优酷、56网等网站视频链接; 4.新增RSS订阅功能,输出动态RSS;可作为网站地图方便搜索引擎收录和关键字抓取; 5.新增会员系统功能,会员等级可无限级分级;栏目可设置指定会员等级才能浏览。 6.媒体内容采用双模板展示,可选底部滚动式和列表式展示。
SXW-Flash3.0VIP
- SXW Flash 是在Supernova XML Website基础上开发的一套Flash网站管理系统; 酷炫的FLASH整站,后台采用ACCESS+ASP; 可完美用于:企业形象、产品展示;组织团队主页;个人主页; 主要特点; 1.网站炫彩背景自动更换(可使用JPG格式桌面壁纸); 2.全站使用二级下拉菜单(后台智能管理) 3.音视频智能播放控制(在播放视频时背景音乐自动关闭,关闭视频后背景音乐自动开启) V3.0更新说明: 1.全站采用UTF-8编码,解决多种语言字符兼容问题; 2.增加自
chaogu
- 炒股资讯小偷采集程序,404伪静态,程序自动采集最新炒股资讯,自动更新速度很快,每次访问首页内容都有更新,资讯内容非常多,可供相关站点上传使用,亦可作为asp程序爱好者共同交流之用,目标站有两个,如果其中一个偶而宕机或者其他原因无法抓取时,则自动转为抓取另一个目标站,提高你的网站稳定性!-Stock the information thief acquisition program, 404 pseudo-static, the program automatically collecting
admin73_tool_1.0
- 73站长网站长查询工具包含了: 搜索引擎收录和反向链接情况查询 中文 Alexa 网站排名查询 Google PageRank值查询 百度关键字排名查询 关键词密度查询 蜘蛛、机器人模拟抓取工具 META信息检测工具 域名 WHOIS 信息查询工具 安装说明: 服务器(虚拟主机)必须支持ASP和PHP,才能正常运行,请检查自己的服务器是否支持! 上传文件至服务器即可运行! -73 webmaster website long query to
yuzhiguobot2.0
- 该程序采用ASP编写,使用Access数据库,主要功能是记录常用搜索引擎蜘蛛最近来访时间、IP、来访次数、抓取页面地址。 经过2周的亲自测试,截至2009.8.30,本系统可统计95种蜘蛛。由于搜索引擎抓取网页不抓取JS代码,所以JS的统计方式不能统计到蜘蛛(经测试只能统计到腾讯soso),所以本系统只适合动态ASP网站使用,静态网站请飘过。 文件说明: bots.asp 统计蜘蛛访问记录文件,把这个文件插入到要统计的页面中,比如插入到conn.asp公共文件里,以达到整站统计蜘蛛的
adseo
- 企业网站SEO优化:强大的SEO网站优化功能,快速让您的网站在搜索引擎中脱颖而出,让更多的客户找到您。 企业SEO网站V4.5 无组件生成HTML。 企业SEO网站安装: 1、上传至虚拟主机[根目录]。 2、若上传至虚拟主机根目录则要修改文件(特别注意修改 网站配置中 网站地址 域名+“/” 如然后 点击生成静态化 因为本站专注优化网址是绝对路径利于搜索引擎抓取)注意:子目录下可留空 3、网站常规设置(网站名称、网站关键词、网站描述、网站地址、联系方式、备案统计等)都在"网站