搜索资源列表
nutchbook
- Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。本电子数据里有详细的介绍-Nutch is an open-source, Java to achieve search engine. We run it offers its own search engine all the necessary tools.
crawler-on-news-topic-with-samples
- java做的抓取sohu所有的新闻;可以实现对指定站点新闻内容的获取;利用htmlparser爬虫工具抓取门户网站上新闻,代码实现了网易、搜狐、新浪网上的新闻抓取;如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站;实现对指定站点新闻内容的获取-java do crawl sohu news access to the designated site news content using htmlparser reptiles tools crawl news portal, c
