CDN加速镜像 | 设为首页 | 加入收藏夹
当前位置: 首页 资源下载 WEB源码 搜索资源 - 文本信息提取

搜索资源列表

  1. SubjectSpider_ByKelvenJU

    1下载:
  2. 1、锁定某个主题抓取; 2、能够产生日志文本文件,格式为:时间戳(timestamp)、URL; 3、抓取某一URL时最多允许建立2个连接(注意:本地作网页解析的线程数则不限) 4、遵守文明蜘蛛规则:必须分析robots.txt文件和meta tag有无限制;一个线程抓完一个网页后要sleep 2秒钟; 5、能对HTML网页进行解析,提取出链接URL,能判别提取的URL是否已处理过,不重复解析已crawl过的网页; 6、能够对spider/crawler程序的一些基本参数进行
  3. 所属分类:JSP源码/Java

    • 发布日期:2008-10-13
    • 文件大小:1912263
    • 提供者:祝庆荣
  1. SurveyTextMining

    0下载:
  2. 这是一本关于文本挖掘的书籍,包括聚类 分类 信息提取的内容
  3. 所属分类:WEB源码

    • 发布日期:2008-10-13
    • 文件大小:4111844
    • 提供者:youyou
  1. 网页搜索引擎

    1下载:
  2. K-PageSearch是由Kwindsoft在2007年自主研发的专为行业、专类信息检索设计的网页搜索引擎。主要功能特点:网络蜘蛛、定向采集、正文提取、中文分词、全文索引、相关度排序、网页快照、相关搜索、竞价排名;后台数据库采用Microsoft SQL Server,静态化搜索系统设计采用XML数据岛缓存搜索结果提高系统的稳定性和性能、节省服务器资源减轻系统负担。 网络蜘蛛 K风蜘蛛组件包括三大功能模块:链接采集、网页分析、无效网页扫描; 自动识别GB2312、BIG5、UTF-8、Unic
  3. 所属分类:ASP源码

    • 发布日期:2011-04-14
    • 文件大小:716570
    • 提供者:gongcolin
  1. FetchTxtYang

    0下载:
  2. 从eco文本里提取几条相关信息,然后保存到output文本文件中-To extract text from a few eco-related information, and then save the output text file
  3. 所属分类:Java Develop

    • 发布日期:2017-04-11
    • 文件大小:1294
    • 提供者:yangmei
  1. GCC_ASP_C

    0下载:
  2. 描述了一种利用GCC抽象语法树(AST)文本来提取源程序静态信息的方法.-Describes a use of GCC Abstract Syntax Tree (AST) to extract the source text of the static information.
  3. 所属分类:WEB(ASP,PHP,...)

    • 发布日期:2017-03-29
    • 文件大小:642037
    • 提供者:yy
  1. jahmm

    0下载:
  2. 基于隐马尔科夫模型的文本信息提取,压缩包中带有源码和相关资料-Hidden Markov Model based text information extraction, compressed packets with source code and related information
  3. 所属分类:Java Develop

    • 发布日期:2017-05-12
    • 文件大小:2990080
    • 提供者:李丽
  1. IDF

    0下载:
  2. IDF反映了在文档集合中一个单词对一个文档的重要性,经常在文本数据挖据与信息提取中用来作为权重因子。在一份给定的文件里,词频(termfrequency-TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(inversedocument frequency,IDF)是一个词语普遍重要性的度量。-IDF reflects the importance of a word in a document collection for a document, often in the text
  3. 所属分类:JavaScript

    • 发布日期:2017-04-06
    • 文件大小:58513
    • 提供者:yc
搜珍网 www.dssz.com