主办单位: 共青团中央   中国科协   教育部   中国社会科学院   全国学联  

承办单位: 贵州大学     

基本信息

项目名称:
基于主题模型的中文语义研究
小类:
信息技术
简介:
随着信息爆炸时代的到来,对于信息的分析与处理就变得尤为重要。在文本分析领域中,主题模型已经成功的应用于对英文文本的建模,然而由于汉语与英语在语义结构方面的巨大差异,汉语主题模型的研究仍然存在着尚未解决的关键问题。已有的汉语主题模型的研究都只是简单的套用英文主题模型,并没有考虑到汉语语义的高度复杂性,本文提出了一种新的针对汉语的主题模型,并经过对大量文本的分类实验证明了新模型的有效性。
详细介绍:
在如今这个信息极大丰富的时代,当我们面对海量信息的时候,如何高速有效的取得对我们有用的信息就显得极其重要。对文本进行分析与处理便是解决这一问题的有效途径之一。主题模型是近年来应用文本分析的一个热点,虽然他已经广泛的应用于对英文文本的分析领域,但是,对中文主题模型的研究仍然存在着尚未解决的关键问题。绝大多数的研究者在对中文进行主题模型建模的时候,都是简单的套用英文文本的建模方式,而忽略了汉语与英语在语义结构上存在重大差异这一事实,这就迫切的需要我们提出一种新的,更加适用于汉语的主题模型。本文通过对汉语与英语的特征分析,合理的抓住了汉语的语义结构特点,提出了一种新的,以汉字为基本可观察变量的主题模型,并且在用新模型对中文语料库进行建模后,用支持向量机为机器学习工具对提取的文本特征进行学习并分类,取得了很好的分类效果,对SOUGOU实验室提供的新闻分类语料库中的10000篇文本进行分类时,准确率可达85%,并且该模型相比较于传统的汉语主题模型,提高了分类的效率,以此证明了新模型在语义层面给中文文本进行建模的有效性。

作品专业信息

撰写目的和基本思路

首先,鉴于目前对于信息处理的重要性,本文选取了有关为文本建模方面的研究以满足时代的需要;其次,主题模型的研究在英文领域以成为热点并得到广泛应用,但汉语主题模型的研究仍存在未解决的问题,于是为汉语提出一个合理的主题模型便显得迫在眉睫;再次,分析了汉语与英语的不同点,并根据中文的语义结构特点,提出了新的以汉字为基本可观察变量的主题模型;最后,通过实验证明了新模型的有效性。

科学性、先进性及独特之处

本文以文本分析领域的热点——主题模型为基础,在发现该模型在中文领域应用的问题之后,结合中文的语言特点,提出了新的适用于中文的主题模型,从而为更加有效的分析中文文本提供了有效工具。并且,在实验的过程中,以目前分类技术中被认为最有效的支持向量机来进行机器学习,保证了分类结果的准确性。

应用价值和现实意义

新模型可以应用于基于语义的信息检索,文本分类、歧义去除、引用分析、社交网络分析等。并且为未来新的中文分析模型的提出提供了思路和方向。

学术论文摘要

随着主题模型的发展,使用主题模型来对中文文本进行分析越来越受到人们的关注。现如今,绝大多数的研究者都是简单的套用英文的主题模型,也就是将汉语中的词作为基本可观察变量的方法来分析中文文本。然而,汉语和英语在语义的基本结构和语句构成上存在着巨大差异,这使我们有理由怀疑在分析中文文本时,套用英文建模方式的有效性,因此本文作者提出了一种以汉字为基本可观察变量的主题模型。我们分别以汉字和汉语词作为基本可观察变量,使用主题模型中的LDA模型对中文文本进行建模,并比较了他们在分支度上的表现,再利用支持向量机(SVM)对文本进行分类。实验证明,以汉字为基本可观察变量的LDA模型在分支度上的表现优于以汉语词为基本可观察变量的LDA模型;同时,在文本分类方面,两者表现出了几乎相同的准确性,且在个别主题数上,前者的准确率高于后者。在平行双语语料库的研究中,我们分别比较了基于英语词,汉语词和汉字的主题模型在文本分类方面的表现,探讨了这几个主题模型的相似度,结果证明主题模型可以很好的在语义层面给文本建模,同时,提出了用以上三种模型同时分类来提高分类准确度的新方法。

获奖情况

鉴定结果

参考文献

[1] M. Steyvers and Tom Griffithm, Probabilistic topic models[M]. In T.Landauer, D. McNamara, S. Dennis, and W. Kintsch(eds), Latent Semantic Anaysis:A Road to Meaning.2007. [2]J. Boyd-Graber, D. Blei, and X. Zhu. A topic model for word sense disambiguation[A]. In Empirical Methods in Natural Language Processing[C], 2007. [3] J. Chang and D. Blei. Hierarchical relational models for document networks[J]. In The Annals of Applied Statistics.2010,Vol.4,No.1,124-150. [4]林洋港.2009.概率主题模型在文本分类中的应用研究[D]. [5]唐懿芳,牛力-傅赛香,严小卫。文本的自动分类,广西师范大学学报(自然科学版), 2001,19(4):50—55 [6]王建芬,曹元大。支持向量机在大类别数分类中的应用,北京理工大学学报,2001,21(2): [7]徐通锵. 字和汉语语义句法的基本结构原理[A]. 03—5397(2001)01—0003.11 [8]徐通锵. 字和汉语语义句法的生成机制[J]. 语言文字应用1999 年第1期 [9] 胡学钢,董学春,谢飞. 基于词向量空间模型的中文文本分类方法[A]. 1003—5060(2007)10-1261-04

同类课题研究水平概述

一种较早出现的主题模型是由Hofman(1999)提出的probabilistic Latent Semantic Index (pLSI)[,pLSI中关于组成一篇文档的各个主题的混合权重没有给出任何概率假设,这就造成该模型无法对训练文本集外的文本进行相关的概率计算,所以如果要分析某个文本,必须要将其加入训练集重新训练;此外pLSI中需要学习的模型参数会随着文档数目的增加而线性增长。在pLSI之后,Blei等提出的Latent Dirichlet Allocation(LDA)在主题模型的发展过程中起到了很大作用。LDA模型对每篇文章的主题分布变量引入了一个Dirichlet分布作为先验(由于Dirichlet分布与多项式分布共轭,这也方便了贝叶斯网络中推理),并把Dirichlet分布的参数作为LDA模型的参数,从而解决了上面提到的pLSI中问题。从此,LDA模型便大行其道,很是受研究者的喜爱,是研究的热点。但就目前来看,大多数的研究都把精力放在了英文的文本分析上,而由于汉语语义结构的复杂性,几乎没有学者对中文的主题模型进行过细致的研究,即便有,也只是简单的套用英文主题模型的方式,并没有很好的研究和利用中文的语义结构的特点,并不妥当,所以这是中文主题模型尚待解决的一个问题。
建议反馈 返回顶部