搜索资源列表
SogouW.20061127
- 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 ADV 副词 CLAS 量词 ECHO 拟声词
SogouT.mini.tar
- 百度搜索引擎具有响应速度快、查找结果准确全面、时效性强、无效链接少、符合中文语言特点和中国人使用习惯等优点。 1...这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定- IHTMLDocument3* pHTMLDoc3 HRESULT hr = m_pHTMLDocument2->QueryInterface(IID_IHTMLDocument3, (LPVOID*)&pHTMLDoc3)
RMM
- 这个是RMM算法,支持正向、逆向最大匹配,是自然语言处理的重要算法之一,只要替代程序中的词库即可。本词库取自1988年人民日报语料材料,算法对中文分词精确度达到90 以上-This is RMM algorithm supports forward, reverse maximum matching, natural language processing algorithm, as long as the alternative procedures thesaurus can. The th