资源列表
jocws500
- 可以帮助建立网站的搜索目录,能够高速建立目标URL数据库,提取超过70亿网页、目录及搜索引擎中的metadata(标题,关键字,描述)信息,并和用户的关键词作匹配 -can help establish a web site's search directory, a high-speed target URL database, Extraction of more than 7 billion web pages, directory and search engine
SogouW.20061127
- 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 ADV 副词 CLAS 量词 ECHO 拟声词
Topic_spider_bemjh
- 主题蜘蛛,用于下载与主题相关的蜘蛛,种子网站可从百度的搜索引擎下载.-theme of spiders, for download and relevant to the theme of spiders, seeds from the site search engine Baidu download.
lucene-core-2.0.0
- 超强的全文检索lucene-core-2.0.0源代码java完整版,以前网上找到的一般不是完全的代码,好不容易要来一份完全版的。大家一起分享-super text retrieval lucene-core-2.0.0 integrity of the source code version of java, find online before the general code is not complete enough to want to come to a complete vers
clucene-0.9.10
- 一个搜索引擎的基本代码,其算法有一定的参考价值,与大家共享 - A search engine basic code, its algorithm has the certain reference value, shares with everybody ,Visual C++,搜索引擎/Search Engine -a search engine's basic code, the algorithm has some reference value. and share - A s
zilverline-src-1.5.0
- 桌面搜索引擎代码,供大家自由下载此源码,具体的可以参照网站上的-desktop search engine code for all to download this free source, the specific reference could look at the website
dejycx
- 单文件倒排档源程序 hao 单文件倒排档源程序 单文件倒排档源程序-single source document reversing stall hao single source document reversing stall, stall, single-source document reversing
ftpqqqqqqqqq
- 本程序由哈工大软件学院学生开发,具有国内领先的搜索速度,对ftp搜索引擎感兴趣的朋友可以下-the procedures by college students HIT software development, with a leading domestic search speed, ftp search engine to interested friends under
Larbin互联网蜘蛛索引系统源代码
- 互联网蜘蛛索引 系统源代码互联网蜘蛛索引系统,可迅速对互联网中的web页面进行索引,生成搜索引擎的数据库。 采用了相当快速的索引算法,在一台普通pc上可即时索引超过100 000 000的页面数量 。-Internet spiders index system source code Internet spiders index system. quick to Internet web pages for indexing, search engines generate the data
NetCrawler
- :把网络爬虫爬取的网页加以分析,去除网页中的控制命令和格式,只保留内容-: Reptile climb the network's website for analysis by removing the website of control commands and format, retaining only content
flooding
- 基于Gnutella协议的P2P网络路由搜索算法Light_Flooding的源代码-agreement based on the Gnutella P2P network routing algorithm Light_Floodi Vi source code
nutch-0.8
- nutch-0.8刚出来不久的一个很好用的搜索引擎工具 nutch-0.8刚出来不久的一个很好用的搜索引