搜索资源列表
Unsupervise
- 利用隐马尔可夫模型实现词性标注。此为无监督模型。 内含语料库和测试集。方便大家学习。-The use of Hidden Markov Model to achieve part of speech tagging. This is no oversight model. Corpus and the test set contains. To facilitate them to learn.
word-segment-tool-for-chinese
- 基于北大语料库的分词器,简单,有使用说明-a chinese word segment tool
Apriori_DIC
- 数据挖掘经典算法 Apriori and DIC 同时有 Brin关于DIC的论文 和训练语料-Classical data mining algorithm Apriori and DIC at the same time on the DIC thesis Brin and training corpus
cipinbijiao
- 对北大语料进行地名前后次的抽取,通过设置一个阈值,来控制选择。-Names of the Beijing University corpus to carry out before and after the meeting of the extraction, by setting a threshold, to control the choice.
Language_model_learning_in_chinese
- 语言模型学习论文-中文 基于最大熵方法的统计语言模型.pdf 基于对话回合衰减的cache语言模型在线自适应研究.pdf 基于Web网页语料构建动态语言模型.pdf 统计语言模型综述.pdf -Language model to study papers- Chinese based on the maximum entropy method of statistical language model. Pdf Round attenuation based on di
POSTagger_Src
- 包含了词条及其词性标记,频度信息的词典 练语料的格式要求: 每个词以 / 分隔, / 后是该词的词性标记。词性标记后至少要有一个空格。一个句子的所有词必须在同一行中。击“开始词性标注”选取文本文件(一次可以选择多个)进行标注处理-Includes a term and its part of speech marks, the frequency of information and training Corpus dictionary format requirements: Each w
SpamFiltering
- 该程序实现的是一个垃圾邮件过滤系统,方法采用的是NAIVE Bayes,语料库用的是LINspam—public,程序中有使用说明,希望大家一起探讨改进一下.-The program is a spam filtering system, methods used NAIVE Bayes, Corpus used LINspam-public, the procedures in use, hoping to improve what we explore.
segment
- 1 本程序说明了用概率法猜测“人名”的一般过程 2 用户可以修改config.ini文件中的值 3 用于测试的三个文件中: test1是小学语文课本语料 test2是按句分行的语料 test3是包含歧义串的语料-A descr iption of the procedures for using the probability method guess " names" the general course of 2 users can modify
generate_wordlist
- 一个生成词典的程序,从语料中抽取每一个不同的词按格式要求组成词典。-a program for generating wordlist,the detail is to get every word from corper and form a wordlist.
viterbi
- NLP中viterby算法的实现,对语料进行处理,建模,然后可以对新的语料进行句法标注-NLP algorithm implementation in viterby
jzym
- 垃圾邮件过滤器,你可以将快捷方式直接放到桌面上就可以用了,很方便哦! 打开后先训练, 然后选择你需要测试的txt文件 进行测试 , 其中, 自带的那个“邮件测试文件夹”是用来测试用这个邮件库过滤邮件正确率的,当然你也可以自己用自己准备好的邮件进行测试,不过“邮件测试文件夹”“合法邮件”“垃圾邮件”这3个文件夹名字不能改变. 你可以直接向Sample这个文件夹下的 “合法邮件”与“垃圾邮件”里直接增加自己的语料,当然你的语料库越大测试越准确了!-Spam filters, you ca
072282
- 提出了一种自动构造特定领域本体的方法,该方法应用术语抽取和多重聚类技术。在术语抽取阶段,通过术语在专业语料与背景语料中出现概率的对比,采用LLR公式对术语进行评分,取得了更好的抽取效果。在层级关系发现过程中,采用上下文共现信息结合HowNet中词语的语义相似度,进行术语间相似度度量,力求获得术语间最合理的相关状况。同时改进了k-medoids聚类算法,更准确地发现术语的层级关系,进而构造出特定领域的本体。-This paper presents an approach to mining dom
reuters
- 路透社预处理工具,简单方便实用快捷,可把语料集按类别分类-Reuters Preprocessing tools, fast and simple and practical, can be classified according to the corpus set
word_split
- 这个一个基于逆向最大匹配的分词程序,语料规模比较小。-The maximum matching based on the reverse of the sub-term process, relatively small-scale corpus.
segword
- segword训练语料处理程序,针对人民日报199801训练语料进行训练的程序-segword
BootCaT-0.1.2.tar
- 此软件是开源软件,主要用于中文信息处理,信息检索。本人主要用于网络获取双语语料库。此软件用perl编写,模块独立性强,在获得收集一些种子网址后,即可用于双语网络获取。-The perl scr ipts included in the BootCaT toolkit implement an iterative procedure to bootstrap specialized corpora and terms from the web, requiring only a list
bilingual-sentence-aligner.tar
- BILINGUAL SENTENCE ALIGNER 在获得双语平行文本后,希望得到句子级对齐语料库,这步往往决定了语料库的质量是否达标。此软件用perl编写,版权归Microsoft Corporation所有。可以用于非商业。-BILINGUAL SENTENCE ALIGNER (c) Microsoft Corporation. All rights reserved. Your use of the Microsoft software ("Software")
crawler
- 实习时做的网络爬虫程序,爬取“金融时报”和“ftchinese”网站的双语文本语料。带源码和可执行文件,并附使用说明。做自然语言处理方面的好例子-When the network attachment procedure reptiles, climb a " Financial Times" and " ftchinese" bilingual text corpora website. With source and executable files, a
PU123ACorpora.tar
- 这是一个供做垃圾邮件方面东西的朋友的语料库,很好用的,望对大家有帮助-This is a place for things to do in junk e-mail a friend corpus, well used, hope helpful to everyone
clcl
- 关于语音识别中语料库的建立与整理,以及分析统计-Speech Recognition Corpus on the establishment and finishing, as well as the analysis of statistical