搜索资源列表
SogouW.20061127
- 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 ADV 副词 CLAS 量词 ECHO 拟声词
ProbWordSeg1
- 基于最大概率的分词,首先读入.mdb数据库(字典与其统计词频),然后读入你要分词的.txt-based on the maximum probability of the word, first read into. Mdb database (with dictionary word frequency statistics). Then you should read into the word. txt
TextFreq
- 自己编写的统计词频的代码.已经调试为可用.
wordcount
- 利用将词表存入BST树然后对词频进行统计,统计词表中词语出现次数。
tfidfshiyan
- tfidf算法源码,实现、验证,附试验报告文档。这是web数据挖掘课程的大作业。我们实现了对文档中出现的每个词统计,有计算词频,权值,排序功能。
MFC编程,功能是查词典(用户可自己导入文本),分词,统计词频
- AppWizard has created this RMM application for you. This application not only demonstrates the basics of using the Microsoft Foundation classes but is also a starting point for writing your application. This file contains a summary of what you
TF/IDF 算法
- 统计词频,和对文档进行分词处理,计算tf-idf值,JAVA实现
tokenizer_and_compute_frequency
- 思路:将文件逐行读入,然后用StringTokenizer进行处理,将一个个word以(名称,出现次数)存入hashmap,依次统计如果出现多次出现次数递加,文件全部处理完后再读出,这样就算出了词频-Idea: read the file line by line, and then processed using StringTokenizer will be a word to (name, frequency) into the hashmap, followed by statistic
051_276_project3
- 根据分词程序结果用倒排文件对词频进行统计,并输出索引-Segmentation results of the proceedings in accordance with the inverted file used to compile the statistics on the frequency and the output index
testchar
- 统计一些文档的每个词的词频,计算出每个词的词的权值,并按次权值大小排序输出。-Statistics of some of the document term frequency of each word to calculate the right word for each word value, in accordance with sub-weight size of the sort output.
cipin
- 实现了读入文章,英文短文,并能够实现词频个数的统计,计算出现频率-Achieved a read articles, essays in English and be able to achieve the number of word frequency statistics, the calculation of frequency of occurrence!!!!!!!
Wordfrequencystatistics
- 对英文文章的单词进行统计词频 并输出 主要应用文本分类中的对文章的处理-Word article on the English word frequency and the output of the main statistical application of text categorization of the articles deal with
txt
- 该程序实现文本中总词数的统计,各个词之间用空格隔开,并实现各个词频的统计。-Implementation of the program text, the total number of statistical terms, separated by spaces between each word, and to achieve the various word frequency statistics.
Word-Segmentation
- 分词程序,用于文本分词,可以进行分词,统计词频-Segmentation procedure, used for text segmentation
lex_new
- c语言词法分析,判断是关键字,还是其他的,并且统计词频-c language lexical analysis to determine the keyword or the other, and word frequency statistics
tfidf
- TF-IDF算法,用于统计词频,并找出关键字,以及计算出权重值。-TF-IDF algorithm, used for statistical word frequency, and find out the key, and calculates a weight value.
UserTreeMap
- 读取一个txt文档,统计词数和词频,按照字母顺序进行排序-txt reader
自然语言处理课程设计代码
- 一、宋词词频统计:语料库:ci.txt 要求:编程序,输入ci,自动分析统计ci.txt,统计宋词的单字词,双字词等。统计后,输出的是单字词和双字词的词典文件。文件中包括相应的词和频度(次数)。 二:宋词自动生成:语料库:ci.txt 要求:输入词牌,基于宋词的词典和宋词的词牌,可以随机或者按照语言模型,自动生成宋词。设计相应的Ui或者Web界面。 四、中文词法分析系统:语料库:1998-01-2003版-带音.txt 要求:根据构建的单词词典和双词词典,用n-gram模型,或者前向最
ROST CM6
- baiROST CM 是武汉大学沈阳教授研发du编码的国内目前唯一的以辅助zhi人文社会科学研究dao的大型免费社会计算平台。该软件可以实现微博分析、聊天分析、全网分析、网站分析、浏览分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本分析,用户量超过7,遍布海内外多所大学,包括剑桥大学、日本北海道大学、北京大学、清华大学、香港城市大学、澳门大学众多高校。写论文的一把利器。
python词频统计分词
- 利用其可以对csv文件进行分词统计词频,并保持成txt文件,利于科研