资源列表
Manning.Lucene.in.Action
- Lucene是一个开源世界瑰宝- 高度可扩展的,快速的搜索引擎。它提供的性能,是disarmingly易于使用。在行动Lucene是Lucene的权威指南。它描述了如何索引你的类型,包括你一定要知道,如MS Word,PDF格式,HTML和XML数据。它向您介绍了搜索,排序,筛选,突出搜索结果。 -Lucene is a gem in the open-source world--a highly scalable, fast search engine. It delivers perfo
GoogleHackingforPenetrationTesters
- google hacker:google搜索的高级技巧-google hacker
verticalIndex
- 是用Lucence做的一个搜索引擎的demo-Lucence do is a search engine demo
Search-Engine
- 实现了搜索引擎大部分功能,而且实现的相当不错-Most of the search engines to achieve a functional
webcollector-2.71-bin
- 网络爬虫代码,关于凤凰网和河工大的网页爬取。(Web crawler code, page crawling on phoenix net and river industry.)
LuceneAndNuch_Ch1-10
- Lucene+Nuch搜索源代码_Ch1-10.rar-Lucene+ Nuch search source code _Ch1-10.rar
heritrix.rar
- heritrix网络爬虫开源项目带源码使用!,heritrix Web crawler to use open-source project with source code!
heritrixDktj131_2012
- 扩展Heritrix开发包开发的面向主题的网络爬虫-The extended the Heritrix development package developed theme-oriented web crawler
webSpider
- GOOGLE查询分析注入系统 一,通过关键字检索把提取前10个网站的网址 二,通过提取的网站地址做为搜索关键字搜索该网站地址的所以查询结果 三,实现GOOGLE的自动分页排查所有结果直到末页; 四,根据查询后的结果对每一个结果链接做为索引进入网站分析当前页与当前页所有的站内链接页进行分析检测是否有留言板、论坛或其它有注入特征的页面如有发现则将可疑网站及表单信息记录到数据库中,在此环节中加入了多线程,用户在搜索时初始线程数,每个线程针对一个网站的索引页面,如有线程完成了单个网站
SearchHistory
- 搜索记录查看器,用于读取goole,yahoo,live等搜索引擎的搜索历史,以及yahoo车站搜索的车站历史信息。-Search record viewer, for reading goole, yahoo, live search history and other search engines, and yahoo search station station history information.
Chap10
- 垂直搜索引擎,检索代码,创建索引文件,搜索关键字,并返回结果-Vertical search engine