CDN加速镜像 | 设为首页 | 加入收藏夹
当前位置: 首页 资源下载 WEB源码 JSP源码/Java 搜索资源 - 网站抓取工具

搜索资源列表

  1. Java

    0下载:
  2. 是用纯Java开发的,用来进行网站镜像抓取的工具,可以使用配制文件中提供的URL入口,把这个网站所有的能用浏览器通过GET的方式获取到的资源全部抓取到本地,包括网页和各种类型的文件,如:图片、flash、mp3、zip、rar、exe等文件。可以将整个网站完整地下传至硬盘内,并能保持原有的网站结构精确不变。只需要把抓取下来的网站放到web服务器(如:Apache)中,就可以实现完整的网站镜像。-Is developed in pure Java, used to crawl Web site m
  3. 所属分类:Java Develop

    • 发布日期:2017-05-17
    • 文件大小:4.71mb
    • 提供者:blackieliu
  1. Webpagemonitoring

    0下载:
  2. 通过抓取页面并获得返回值来监控网站 通过conf配置要抓取的页面。 如果抓取失败,会调用IE浏览器打开再次确认。并音乐报警,具体看源码,很早的代码了,音乐报警的路径写死了,有兴趣的自己改改用。 log里有详细的失败日志,便于查询并处理。 该程序采取防死锁功能,即有线程监控主线程是否死锁——如果网站一直处于等待便是死锁。那么会报警,但有时仍然会发生死锁。这还是http无状态链接的问题。 很久以前的老程序,源代码没了,用java反编译工具反编译的源代码,凑合用吧。
  3. 所属分类:Java Develop

    • 发布日期:2017-04-06
    • 文件大小:7.68kb
    • 提供者:yuandejiong
  1. metastudio_Linux_gcc_gecko1.8_zh

    0下载:
  2. MetaSeeker工具包V3是GooSeeker团队自主开发的网页抓取/数据抽取/信息提取软件,经历了垂直搜索、SNS等多个互联网浪潮的实战检验,已经发展到V3版本,并且分成企业版和在线版,对于不愿支付昂贵的企业版费用的用户可以免费下载使用在线版。 MetaSeeker工具包V3版本包括如下软件工具: 1,MetaStudio,网页数据结构定义工具,通过图形界面免编程定义网站数据抓取规则 2,DataScraper,数据抽取工具,能够连续大批量抓取网页内容,不是普通的网络爬虫,而是适应力-Me
  3. 所属分类:Java Develop

    • 发布日期:2017-03-29
    • 文件大小:319.33kb
    • 提供者:highyun
  1. lzzSearch-0.4

    0下载:
  2. 1 完全基于人工收录,每个被收录的帖子都是我们认为不错的。 2 任何人都可以加入,别人也可以分享到你加入的内容 3 收录的内容,不是简单的抓取,而是只收录里面最有用的部分,比如主题,内容,作者,发言时间等 4 由于上一个的原因,所以不是任何网站都能加入,后面有目前支持的网站列表。 5 增加新的网站支持,需要写3个正则表达式,进行帖子内容的精确匹配 6 使用Lucene进行存储和查询 7 开源,可以在自己的机器上部署一个,拥有自己的收藏和搜索工具。 8 同
  3. 所属分类:Jsp/Servlet

    • 发布日期:2017-11-27
    • 文件大小:6.96mb
    • 提供者:王京
  1. Java

    0下载:
  2. 是用纯Java开发的,用来进行网站镜像抓取的工具,可以使用配制文件中提供的URL入口,把这个网站所有的能用浏览器通过GET的方式获取到的资源全部抓取到本地,包括网页和各种类型的文件,如:图片、flash、mp3、zip、rar、exe等文件。可以将整个网站完整地下传至硬盘内,并能保持原有的网站结构精确不变。只需要把抓取下来的网站放到web服务器(如:Apache)中,就可以实现完整的网站镜像。-Is pure Java development, used to crawl the site mi
  3. 所属分类:Java Develop

    • 发布日期:2017-05-22
    • 文件大小:5.95mb
    • 提供者:涂惠明
  1. YahooCrawler

    0下载:
  2. 通过webcollector爬虫工具抓取雅虎网站的定的一些个网址,通过这些可以练习抓取网站-web crawler in yahoo
  3. 所属分类:Java Develop

    • 发布日期:2017-04-11
    • 文件大小:1.04kb
    • 提供者:jjj
搜珍网 www.dssz.com