主办单位: 共青团中央   中国科协   教育部   中国社会科学院   全国学联  

承办单位: 贵州大学     

基本信息

项目名称:
面向房地产行业的热点新闻主题播报自动生成系统
小类:
信息技术
简介:
本系统结合主题检测与多文档自动摘要这两种先进的自然语言处理技术,针对互联网上新闻网站发布的房地产行业的报道,对海量数据进行分析和组织,以播报的形式发布最新热点关注资讯,为房地产业内人士、关注房地产行业动态的广大网民以及地方政府组织提供信息服务,不仅让人们能在最短的时间内获取最感兴趣的信息,还可以用来监控到事情发展最新动态,提升政府机构以及企业的舆情掌握与危机公关能力。
详细介绍:
本系统结合主题检测与多文档自动摘要这两种先进的自然语言处理技术,针对互联网上新闻网站发布的房地产行业的报道,对海量数据进行分析和组织,以播报的形式发布最新热点关注资讯,为房地产业内人士、关注房地产行业动态的广大网民以及地方政府组织提供信息服务,不仅让人们能在最短的时间内获取最感兴趣的信息,还可以用来监控到事情发展最新动态,提升政府机构以及企业的舆情掌握与危机公关能力。

作品专业信息

设计、发明的目的和基本思路、创新点、技术关键和主要技术指标

意义与目的: 近年来房地产行业价格波动倍受瞩目,与之相关的政策、土地、市场、业内热点都受很大关注,每天产生的业界新闻数以百千计,人工手动整理和浏览会浪费很多时间与精力。本系统通过综合运用主题检测与多文档自动摘要技术对房地产新闻舆情进行监测和分析,从错综复杂的房地产新闻报道分析中自动生成播报信息,可以让用户快速了解业界形势走向,为有关中央和地方政府部门提供决策信息来源和舆论监控导向。 二、基本思路: 针对互联网上新闻网站发布的房地产行业的报道,设计一个主题识别与自动文摘相结合的热点新闻主题播报系统,分别将当天、三天以内、一周以内的报道整理并聚合形成各个主题,并对每个主题生成多文档自动文摘播报,最后以网页的形式发布。 三、创新点: 1、本系统内容面向房地产行业,有较强的针对性。 2、提出了一种主题识别的方法。利用主题检测技术,可以自动从海量新闻信息中识别出热点主题,并按照主题进行归类和组织,节约人工阅读整理的消耗,方便用户的浏览和选择使用。 3、提出了一种舆情播报自动生成的方法。每个主题都涵盖了详细的叙述和分析,为了使用户能快速、准确、全面接收主题的中心意思,本系统提出了一种多文档自动摘要的方法,从有关某个主题的所有报道中,通过算法提取出简明扼要的特征并整合生成一篇概括性短文。 四、技术关键: 1、新闻获取技术 2、主题识别技术 3、多文档自动摘要技术

科学性、先进性

1、实用性:满足舆情播报的核心功能和重要功能,功能简洁清晰; 2、技术先进:融合了数据挖掘技术、数据库技术、计算语言技术以及多项自然语言智能处理等技术。 本系统采用的主题检测和自动文摘中的聚类方法均采用的一趟聚类算法,经过在路透社的新闻语料中进行测试,下表是对7个最频繁出现的类聚类结果,分别有得到的簇的个数和聚类准确度,其中可以说明在那么多个簇里面有部分是只有几个文档,而我们是关注在大簇上,所以这对热门主题检测很有意义。 3、专业性:现在国内比较有名的舆情系统有中科点击、天玑金融舆情播报等。但与热门主题相关报道来源众多,且新闻报道角度和立场的不同。本系统将主题识别与多文档摘要技术结合起来,通过检测出房产领域中的热门主题,再综合利用一趟聚类算法与最大边缘相关句子抽取的方法对热门主题中的多篇新闻文档生成摘要,在保持新闻摘要的简洁性的基础上,同时确保了新闻来源的全面性、可信度。

获奖情况及鉴定结果

参加2011“挑战杯”决赛比赛以及校内技术沙龙展示。

作品所处阶段

实验阶段

技术转让方式

暂无

作品可展示的形式

互联网访问

使用说明,技术特点和优势,适应范围,推广前景的技术性说明,市场分析,经济效益预测

以自然语言处理技术、数据挖掘技术和互联网信息获取技术为基础,研究并解决了互联网舆情信息的采集、整理和分析等关键技术问题。设计一个较为完整的面向房地产行业的热点新闻主题播报自动生成解决方案和系统。 适用范围:主要使用对象为房地产业内人士、关注房地产行业动态的广大网民以及地方政府组织。 推广市场及经济效益分析:网络的发展加速了资讯的流通,缩短了资讯形成知识所需要的时间,网络膨胀得过于快速,资讯累积太快造成杂讯过多,却又干扰了知识的形成,增值型服务业者为处于世界末的人们提供引擎、主题指引以及其他特殊服务,目前网络服务无法提供启发性的资讯,而主题检测和自动摘要是新资讯时代摘要的启发性资讯服务,通过主题检测可判别资讯中流行的热点资讯,并且透过自动摘要可快速的判读资讯的相关性,不必取得完整资讯后才发现资讯不符合需求,自动摘要的服务能够有效降低网络流量,对于资讯的使用者与整体网络环境,主题识别和自动摘要技术都具有很好的发展前景。

同类课题研究水平概述

主题检测与跟踪研究现状: 主题检测与跟踪(TDT) 的概念最早产生于1996年。当时美国国防高级研究计划署(DARPA)根据自己的需求,提出要开发一种新技术,能在没有人工干预的情况下自动判断新闻数据流中的主题。1997年,一些研究者开始对这项技术进行了初步研究,并做了一些基础工作(包括定义了主题检测与跟踪研究的内容,建立了一个针对TDT研究的预研语料库)。 TDT作为舆情分析的重要技术手段[2],是近十年自然语言处理和信息检索领域的热点研究课题。目前,主题检测与跟踪技术已经步入实用阶段,美国的Candor公司、IBM等公司在自己的产品中加入部分的主题检测和追踪功能。如SPSS公司的趋势分析工具可用于舆情信息的趋势分析,Autonomy公司的文本挖掘工具可用于热门主题的发现等等。 二、 文档自动摘要研究现状: 迄今为止的自动文摘系统主要经历了以下两个阶段:基于统计的机械文摘和基于意义的理解文摘。 基于理解的文摘方法是以人工智能,特别是自然语言理解技术为基础而发展起来的文摘方法。该方法与机械文摘的明显区别在于对知识的利用,它不仅利用语言学知识获取语言结构,更重要的是利用领域知识进行判断、推理,得到文摘的意义表示,最后从意义表示中生成摘要。利用语言学手段将文章中代表这些信息焦点的文字识别出来,用话语加以组织即可形成一篇连贯的高质量的文摘。 理解文摘系统的相关研究的主要成果有:70年代末80年代初,美国耶鲁大学的Schank[5]在脚本分析见到的文献,并在此基础上总结出摘要。美国耶鲁大学的DeJong[6]于1979年研制的著名的FRUMP系统,该系统用于快速阅览英文新闻资料,是理解文摘系统的样板,FRUMP由预言和验证器组成,预言器利用预先设置好的梗概剧本预测文献中可能出现的事件,验证则取证实这些被预测的事件,并给出实际信息。FRUMP系统创造了理解文摘的典范,但由于内部存储的剧本限制,如果文章中没有该系统所期望的内容则会被误导,从而出现歧义。 我国大约从1985年开始介绍国外自动文摘方面的研究情况,从80年代末开始研究自动文摘实验系统,至今也有20余年的历史了。但目前的技术水平尚不成熟,问题主要是在中文本身的语言特点以及自然理解方面的困难。
建议反馈 返回顶部