资源列表
luceneheritrixCDROM
- 开发自己的搜索引擎——Lucene 2.0+Heriterx随书光盘源码
WebCrawlers
- 搜索是网络技术的热门课题,网络爬虫是搜索技术的基础,用VC++编写的网络爬虫可以很好的学习这门课题,适合初学者
WebNewsCrawler-1.0
- 垂直搜索的网络爬虫,收集新闻信息的爬虫,采用java编写,附带源代码
网格搜索引擎技术研究
- 网格搜索引擎技术研究:一篇论文。网格搜索引擎对于当前热门的网格技术(grid)来说是一个空缺,值得研究。-grid search engine technology : a thesis. Grid search engine for the current hot Grid (grid) is a vacancy, it is worth studying.
EasyXSpider
- EasyXSpider不仅仅是一个简单的Linux下的爬虫程序。更包括了,索引制作,检索,分词(英文及中文二元法切词),以及Google PageRank算法和CGI查询界面的实现。可以看做是一个完整的小型搜索引擎。
搜索引擎
- vc编写的搜索引擎
python
- python写的网页爬虫,抓取制定网址所有图片收录本地-Web crawlers, crawl image
rdf3x-0.3.8
- RDF-3X引擎较好的支持了RDF三元组的搜索索引功能,大大提高了SPAEQL的功能。-RDF-3X better support the search engine indexing RDF triples, greatly improving the SPAEQL function.
SearchEngine
- dySE 是个开源的 Java 小型搜索引擎。该搜索引擎分为三个模块:爬虫模块、预处理模块和搜索模块。其中详细阐述了: 多线程页面爬取、正文内容提取、文本提取、分词、索引建立、快照等功能的实现。-dySE is an open source Java small search engines. The search engine is divided into three modules: crawler module, pretreatment module and search module
TCSC
- simulink仿真,串联电容器在电力系统中的无功补偿-simulink simulation series capacitor reactive power compensation in power system
用Python写网络爬虫
- 本书讲解了如何使用P川lOil来编写网络爬虫程序, 内容包括网络爬虫简 介, 从页面中抓取数据的三种方法, 提取缓存中的数据, 使用多个线程和进 程来进行并发抓取, 如何抓取动态页面中的内容, 与表单进行交互, 处理页 面中的验证码问题, 以及使用 Scarpy和Portia 来进行数据抓取, 并在最后使 用本书介绍的数据抓取技术对几个真实的网站进行了抓取, 旨在帮助读者活 学活用书中介绍的技术。 本书适合有一定Python 编程经验, 而且对爬虫技术感兴趣的读者阅读。(This book ex
nwebcrawler网络爬虫
- 一个C#写的网络爬虫,功能简单,有界面,实用性强,是学习的好材料。
