主办单位: 共青团中央   中国科协   教育部   中国社会科学院   全国学联  

承办单位: 贵州大学     

基本信息

项目名称:
Danaus网络舆情分析系统
小类:
信息技术
简介:
Danaus系统通过对热点问题和重点领域比较集中的网页、论坛、博客等各类信息,进行24小时监控汇集、分类、整合、筛选等,使政府即时地了解社情民意,使企业更好地了解受众对其产品、服务、综合竞争实力以及公司形象、声誉的评价和认知情况。
详细介绍:
本产品Danaus 取自王蝶英文学名 Danaus plexippus。王蝶是世界上嗅觉最灵敏的动物,本项目也要对负面消息保持灵敏的洞察。自动从互联网上发现尚未流传开、但可能即将引发民众关注、并大范围转载、传播的负面信息。Danaus通过对热点问题和重点领域比较集中的网页、论坛、博客等各类信息,进行24小时监控汇集、分类、整合、筛选等,使政府即时地了解社情民意,使企业更好地了解受众对其产品、服务、综合竞争实力以及公司形象、声誉的评价和认知情况。其特点是能迅速识别新闻热点和突发事件,第一时间掌握网络舆论的传播方式和传播导向,实时监控与企业和政府相关的社会舆论情况和其他网络环境信息,密切监控公司行业竞手的动态走向,并对此进行倾向性分析与统计,生成舆情监测数据报告,预测事态发展走向。用户可通过浏览器浏览监测到的消息,根据指定条件对热点话题、倾向性进行查询,从而进行信息反馈、解决突发事件避免影响扩大等。

作品图片

  • Danaus网络舆情分析系统
  • Danaus网络舆情分析系统
  • Danaus网络舆情分析系统

作品专业信息

设计、发明的目的和基本思路、创新点、技术关键和主要技术指标

网络舆情的及时监测和分析已经成为相关单位重要的工作之一,但面对如此庞大的互联网以及每天数以万计的信息量,单凭人工作业很难做到及时有效,工作成本也难以控制。借助信息技术手段对网络舆情进行有效的分析,第一时间为相关单位提供决策支持。 关键技术包括:中文语段情感分析技术、海量数量检索分析技术等。 主要技术指标有:情感判断的准确性,信息获取的速度。

科学性、先进性

作品采用最大熵模型进行情感分析。最大熵原理是在1957年由E. T. Jaynes提出的,其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。因为在这种情况下,符合已知知识的概率分布可能不止一个。我们知道,熵定义的实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确定。换句话说,也就是随机变量最随机,对其行为做准确预测最困难。从这个意义上讲,那么最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以做出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法做出。 该理论经过实践应用,其具备科学性与先进性。

获奖情况及鉴定结果

2010年5月 北京 全校科技作品竞赛“冯如杯”一等奖 2009年 获第三届国家大学生创新性实验计划支持 项目经费9000元 2010年 顺利通过第三届国家大学生创新性实验计划结题验收

作品所处阶段

实验室阶段逐步商用阶段

技术转让方式

作品可展示的形式

现场演示、视频、图片

使用说明,技术特点和优势,适应范围,推广前景的技术性说明,市场分析,经济效益预测

市场分析: 通过大量的调查我们可以发现Danaus有着十分广阔的市场前景和使用价值。Danaus研发团队致力于产品的创新和功能升级,将会把目前最好的舆情监测系统呈现给大家,疾风知劲草,板荡识诚臣,相信在您经过了为舆论所累的日子时,您会认识到拥有一款最新、最高端、最及时、最准确的舆情监测系统的必要性。Danaus应用的成功案例告诉我们应用Danaus 是最正确的选择。

同类课题研究水平概述

在舆情监测和分析系统中,一个重要的环节就是文本情感分析,也称为意见挖掘。文本情感分析的作用对象是包含人们主观情感的文本,通过对文本进行处理、分析、归纳和推理,得到文本作者对待事物主体的感情。情感分析一般分为三个阶段,即情感信息的抽取阶段、情感信息的分类阶段和情感信息的检索与归纳阶段。 1 情感信息抽取 情感信息抽取的主要目的是将评价词语、评价对象和观点持有者等有价值的信息单元从文本中抽取出来。网络中的文本信息对于人是可读可分析的,但是对于机器来说是不行的。情感信息抽取能将文本中的主要情感信息单元抽取出来,变成机器可以操作分析的元信息,为下面的情感信息分类和检索与归纳做基础。 2 情感信息分类 人们通常在情感信息中包含倾向可以简单的分为两种极性,即褒和贬。在抽取完文本的情感信息之后,就要根据这些元信息来给文本进行“褒贬”的分类,也就是情感信息分类。按照文本的粒度不同,可以将情感信息分类分为词语级、短语级、句子级和篇章级。 词语级和短语级的情感分类方法主要有基于语料库和基于词典两种方法。基于语料库的词语、短语判别主要是利用大语料库的统计特性,观察一些现象(转折、递进等)来挖掘语料库中的词语、短语并判断极性。基于词典的评价词语抽取及判别方法主要是使用词典中的词语之间的词义联系来挖掘评价词语。这里的词典一般是指使用WordNet或HowNet等。 对于句子级和篇章级分类,主要有两种研究思路,即基于情感知识和基于特征分类。前一种方法主要是依托现有的情感词典或领域词典一级主管文本中带有情感极性的组合评价单元进行计算,来获得文本的极性。后一种方法首先对大量文本进行感情倾向标记,然后对这些标记过的文本使用不同的算法进行学习,选取大量有意义的特征来进行分类。常用的文本分类方法有最大熵、贝叶斯和SVM等。 3 情感信息检索与归纳 通过情感信息抽取和分类后的结果并不能直接为用户所用,还需要针对用户提出的需求进行检索和归纳。例如,对用户提出的一个主题进行检索,通过情感信息检索与分类得到的大量数据进行归纳,可以得出人们对与这一主题的倾向性,并将这种倾向性进行分类(褒贬等)和分级(极其、一般等),得到的结果呈现给用户。
建议反馈 返回顶部