搜索结果: 76-90 共查到“知识库 自然语言处理”相关记录314条 . 查询时间(0.41 秒)
Sensing Semantics of RSS Feeds by Fuzzy Matchmaking
RSS Feeds Matchmaking Multi-Agent Semantics
2013/1/28
RSS feeds provide a fast and effective way to publish up-to-date information or renew outdated contents for information subscribers. So far RSS information is mostly managed by content publishers but ...
基于依存树的中文语义角色标注
最大熵分类器 语义角色标注 依存树
2010/2/20
现有中文语义角色标注主要集中在基于短语结构句法树的标注。基于此,提出一种基于依存树的中文语义角色标注方法。将中文句子转化为标准的依存树,作为实验数据集,特征选取时结合知网,将语义信息引入特征集,以提高系统的召回率,并采用最大熵分类器进行实验,获得90.68%的F值。结果表明,在标准的句法树上,当基于依存关系的标注系统中加入新特征时,该中文语义角色标注取得了比基于句法成分标注更好的成绩。
基于主题的中文短信文本分类研究
短信文本 KNN算法 主题句
2010/2/20
根据中文短信文本分类的特点,提出同义概念归并、上下位概念的聚焦以及短信文本重点词汇的确定方法,利用主题句选取算法获取短信文本的主题,采用KNN算法将短信文本的主题进行分类。仿真实验结果表明,该算法能够有效提高短信文本的分类速度。
基于主题概念抽取的多文档文摘方法
多文档文摘 概念树 概念抽取
2010/2/20
提出一种应用于多文档文摘的有效概念抽取方法。利用WordNet中词语的同义和上下义关系进行语义消歧和概念树构造,通过概念优化算法进行主题概念抽取,建立概念向量空间模型并通过最大边缘相关方法得到文摘句。采用语义概念统计来替代传统的词形统计,能更准确地提取文档中的重要信息。DUC2005的评测结果表明,该方法比传统方法能获得更好的效果。
中文分词和词性标注模型
分词 词性标注 最短路径
2010/2/20
构造一种中文分词和词性标注的模型,在分词阶段确定N个最佳结果作为候选集,通过未登录词识别和词性标注,从候选结果集中选优得到最终结果,并基于该模型实现一个中文自动分词和词性自动标注的中文词法分析器。经不同大小训练集下的测试证明,该分析器的分词准确率和词性标注准确率分别达到98.34%和96.07%,证明了该方法的有效性。
基于最大熵模型的观点句主观关系提取
评价对象 主观关系 最大熵
2010/1/28
提出一种提取中文观点句中评价对象和评价词主观匹配关系的方法。分析观点句中评价词和评价对象的词性、词语位置,通过句法分析获取语义特征,将2类特征应用于最大熵模型,提取观点句的主观关系。实验结果证明,与取距离评价词语最近的词作为评价对象的Baseline方法相比,该方法大幅度提高了准确率和F测试值。
基于LDA模型的主题分析
LDA模型 文本分割 Gibbs抽样
2009/12/28
在文本分割的基础上, 确定片段主题, 进而总结全文的中心主题, 使文本的主题脉络呈现出来, 主题以词串的形式表示. 为了分析准确, 利用LDA (Latent dirichlet allocation)为语料库及文本建模, 以Clarity度量块间相似性, 并通过局部最小值识别片段边界. 依据词汇的香农信息提取片段主题词, 采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外, 尝试挖掘...
Learning Bilingual Linguistic Reordering Model for Statistical Machine Translati
Learning Bilingual Linguistic Reordering Model Statistical Machine Translati
2013/4/22
In this paper, we propose a method for learning reordering model for BTG-based statistical machine translation (SMT). The model focuses on linguistic features from bilingual phrases. Our method involv...
The (batch) EM algorithm plays an important role in unsupervised induction, but it sometimes suffers from slow convergence. In this paper, we show that online variants (1) provide significant speedups...
Non-Projective Parsing for Statistical Machine Translation
Non-Projective Parsing Statistical Machine Translation
2013/4/22
We describe a novel approach for syntaxbased statistical MT, which builds on a variant of tree adjoining grammar (TAG). Inspired by work in discriminative dependency parsing, the key idea in our appro...
一种新的监督潜在语义模型
文本分类 潜在语义 sprinkling方法
2009/12/10
Sprinkling方法是一种集成了训练样本类别信息的监督潜在语义模型。但是该方法特征权重采用词频,降低了文本分类效果,同时该模型并没有考虑不同样本对分类的贡献能力,而是认为样本对分类的贡献相同,另外,该模型采用多个特征映射一个类别来加强类别知识对分类的贡献。为此,文章在Sprinkling方法的基础上提出了一种新的监督潜在语义模型。实验结果表明,该文方法的总体性能优于原始的Sprinkling方...
传递信息分类的句子间相似性度量
词汇语义相似度 语块分析 语义向量
2009/12/3
提出了一种计算英文句子间相似度的方法。基于句子所传递的信息——其描述的对象、描述对象的属性和动作,首先将待比较的两个句子进行语块分析,并从中提取以上三个方面的信息;然后通过语义向量的方法,分别计算两个句子在这三个方面的相似度;最后将它们结合起来作为两个句子的整体相似度,并通过训练得到最优的结合参数。实验表明,提出的方法与目前计算句子间相似度的方法相比更加符合人工判断句子间相似度的过程,表现出更高的...
基于关键名词短语聚类的中文搜索结果聚类
关键名词短语抽取 C-Value算法 Chameleon算法
2009/12/3
目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,然后使用Chameleon算法将标签聚类,最后将搜索结果划分到最相关的聚类簇。实验证明,该方法把关键名词短语和相关搜索词作为聚类标签,有效地提高了标签的描述性,降低了聚...
A Syntax-Driven Bracketing Model for Phrase-Based Translation
A Syntax-Driven Bracketing Model Phrase-Based Translation
2013/4/22
in the formally syntaxbased MT, a hierarchical tree generated by synchronous CFG rules associates the source sentence with the target sentence. In this paper, we propose a source dependency model to e...
Word Sense Disambiguation in Information Retrieval
disambiguation algorithms natural language processing word sense disambiguation
2013/1/29
The natural language processing has a set of phases that evolves from lexical text analysis to the pragmatic one in which the author’s intentions are shown. The ambiguity problem appears in all of the...