基本信息
- 项目名称:
- 基于更新信息的网页机器理解及在站内搜索中应用
- 来源:
- 第十二届“挑战杯”作品
- 小类:
- 信息技术
- 大类:
- 科技发明制作B类
- 简介:
- 利用站内网页树中主网页或上层网页及超链接相对稳定和可跟踪性,把爬虫定期上网抓取的相邻时间间隔的网页进行对比分析,可以区分出以下几类超链接:永不改变的、新增的、位置变化的和消失的,它们对应不同的信息:不变化的链接其标题具有部门、类型信息;新增的、位置变化的和消失的链接往往是新闻、通告等变化内容,这些链接对应的网页一般是文档网页,需要采用一般网页分析方法。结果说明这种方法对网页分析是有效的。
- 详细介绍:
- 21世纪搜索引擎正在改变着我们的生活,百度、谷歌等大型搜索已经被大家所熟知,这些搜索引擎是为人们提供宽泛的搜索服务。一般高校和大型企业机构都有一定规模的网站,这些网站中存在着大量信息,对于高校和企业内部人员来说,使用基于本网站的搜索引擎无疑是最佳的选择。但是我们了解到现今绝大部分网站或者没有搜索功能、或者有搜索功能但这种搜索功能只是人工实现的目录索引,自动化不高、搜索功能不强。针对中小型规模网站的站内搜索需求,本设计基于站内网页及其连接相对固定、易于跟踪分析的特点提出了基于更新信息的网页分析方法,据此开发了一个站内搜索引擎。任何网站只要使用我们设计这一系统就可以不需要重新设计网站就能向用户提供本网站的搜索服务。 思路:搜索引擎系统实际上包含两个主要程序和一个数据库三部分。一个程序的功能是用来爬网页、分析网页信息并把获取信息插入数据库,该程序称为蜘蛛程序或网页爬虫;另一个程序为用户提供在数据库中查询所需数据的查询程序,用户使用搜索引擎主要是使用该程序,蜘蛛程序和数据库属于后台系统,不被用户感知。本作品架构也是基于这个架构,与一般搜索引擎不同之处在于网页分析部分。 网页是网站设计者提供信息让用户阅读的唯一方式,是信息的载体。一个网页就是一定量信息的集合,一个网站是网页的集合,是信息的更大的集合。作为向访问者提供信息的网站要解决好两个问题:一是信息在哪里,二是信息是什么,解决这两个问题的内容构成了网页内容的主体,因此站内网页的内容根据其角色不同,分为引导信息和信息。站内网页也因其中主要信息的不同可以分为引导信息网页和信息网页。引导信息网页主要是提供用户需要的信息到哪里去取,一般是网站的主页或网页节点树中较上层的网页,这种网页的特征是信息主要是以超链接形式存在。由于站内信息是有一定组织形式,因此引导性网页与网页架构有关,含有网页架构信息。信息网页就是信息本身,是网页节点树中的叶节点。这两类网页在更新性上表现出完全不同的行为,引导性网页中反映架构信息的部分一般是不变化的,而引导性网页中反映信息的部分和信息网页一般随时间变化。 我们的思路是利用站内网页树中主网页或上层网页及超链接相对稳定和可跟踪性,让爬虫定期上网抓取这些网页内容,将相邻时间间隔的对应网页进行对比分析,可以区分出以下几类超链接:永不改变的、新增的、位置变化的和消失的。而这四类超链接的连接目标对应不同的处理类型:不变化的链接反映站内结构,其链接标题具有部门、类型信息;新增的、位置变化的和消失的链接往往是新闻、通告等变化内容,这些链接对应的网页一般是文档网页,这类网页需要采用一般网页分析方法。这些变化信息为进一步分析网页提供了帮助,如:不变化超链接标题、不变化的表格标题等含有部门、类型信息,变化信息中时间信息可以缩小查询的范围。这就是我们提出的根据网页更新信息来分析网页的方法。实验结果和实际说明我们的这种方法对网页分析是有效的。
作品专业信息
设计、发明的目的和基本思路、创新点、技术关键和主要技术指标
- 针对中小型规模网站的站内搜索需求,本设计基于站内网页及其连接相对固定、易于跟踪分析的特点提出了基于更新信息的网页分析方法,据此开发了一个站内搜索引擎。 利用站内网页树中主网页或上层网页及超链接相对稳定和可跟踪性,把爬虫定期上网抓取的相邻时间间隔的网页进行对比分析,可以区分出以下几类超链接:永不改变的、新增的、位置变化的和消失的,它们对应不同的信息:不变化的链接其标题具有部门、类型信息;新增的、位置变化的和消失的链接往往是新闻、通告等变化内容,这些链接对应的网页一般是文档网页,需要采用一般网页分析方法。结果说明这种方法对网页分析是有效的。 主要创新点是网页分析理解方法与一般搜索引擎的方法不同,即网页分析策略不同。一般搜索引擎的网页分析是在爬虫把网页抓取后保存起来,然后由网页分析程序对其分析。由于其搜索的网页数量很大且大都是采用宽度优先方式爬网页,网页的对应性难以确定,只能利用本网页的信息分析,分析中可借助的其他提示信息非常有限,因此分析难度很大。目前文献介绍的方法均是网页内容本身分析的方法,这些方法很多还不成熟、处在研究阶段。 技术关键是如何利用不变化的超链接标题信息和表格标题信息等对网页分类以及理解。这些信息有助于分析理解网页,但如何利用、如何整合这些信息需要进一步研究。另一个问题是对变化的一般文档网页如何分析提取信息。这个问题是搜索引擎面临的共同问题。
科学性、先进性
- 有关搜索引擎的研究很热、但真正应用到实际中的很少。究其原因一是Web 中信息的量巨大、异质性和缺乏结构性使得自动地从中获取有价值的信息和数据变得十分具有挑战性。网页的机器理解与主要信息提取是一个难以彻底解决的问题,因为网页中可能包含文本、图像、声音等多媒体信息,文本的理解涉及到自然语言理解、图像的理解涉及图像识别、声音的理解涉及声音识别等,这些领域目前还在研究之中。 原因之二是在搜索引擎领域,一些优秀的实现方法来自于一些公司,出于商业因素的考虑一般不通过论文公开发表。学术界的研究成果虽然公开,但是被大规模采用的并不多。 目前站内搜索研究中心问题与一般搜索引擎研究的内容相同:网页机器理解,而且在这方面充分利用站内这些特点来理解还没有文献报道。考虑到站内搜索的自身特点,除了利用网页本身的信息外,还加入了同一网页的更新信息、降低了网页分析的难度。在此基础上设计出信息提取算法,可以从网页中提取出一些新的有用信息,为建立索引数据库、进行数据库优化做好充分准备。
获奖情况及鉴定结果
- 校2011年挑战杯特等奖 第四届“挑战杯”合锻集团省大学生课外学术科技作品竞赛特等奖
作品所处阶段
- 实验室阶段
技术转让方式
- 可以考虑技术转让
作品可展示的形式
- 实物、产品、图片、现场演示
使用说明,技术特点和优势,适应范围,推广前景的技术性说明,市场分析,经济效益预测
- 使用说明:见“使用说明书”。 作品的技术特点和优势:本作品技术的特点主要是在网页的机器理解与主要信息提取方面与其他站内搜索引擎不同。在网页分析及信息提取方面,我们考虑到站内搜索的自身特点,除了利用网页本身的信息外,还加入了同一网页的更新信息。根据更新性将超链接分为四类,然后对这四类超链接分别处理,从而降低了网页分析的难度。在此基础上设计出信息提取算法,该算法将网页分析工作朝全面理解网页内容目标又推近了一步,为建立索引数据库,进行数据库优化打下基础。 作品适用范围及推广前景:该作品适合于任何网站。只要将考察网站信息设置好,通过一定时间分析就可以为该网站提供站内索引查询。因此该作品是一个通用的站内搜索引擎建立软件,应用非常广泛,其推广前景非常广。 市场分析和经济效益预测:目前市场上该类软件还未见出现,很多网站还没有提供站内搜索查询功能,因此市场前景非常乐观。
同类课题研究水平概述
- 我们查询了“中国学术期刊全文”,在核心期刊中,找寻到搜索引擎相关的文献24篇。对这些文献的归纳总结如下: 叶允明等人主要综述了当时web搜索引擎技术的发展和分类情况, 王继成等人从web检索角度划分为三个层次:搜索引擎与目录、元搜索引擎、信息检索agent,其中元搜索引擎研究多搜索引擎集成,信息检索agent研究满足用户需求方面具有可适应性、主动性、协作性。 针对广域网的海量信息,由单一网页爬虫来获取信息几乎不可能,解决方式之一就是分布式Web 爬虫。分布式Web 爬虫是由多个可并发获取Web 信息的Agent 构成的Web 爬虫系统,每个Agent 运行于不同的计算资源之上,这些资源或集中部署在同一个局域网内部,或分布在广域网的不同地理位置和网络位置,每个Agent 以多进程或多线程方式通过并发保持多个TCP 链接获取Web 信息。许 笑等人主要探讨分布式爬虫技术和与agent技术结合的课题。解决广域网的海量信息的另一种方式就是让爬虫对网页过滤,只对感兴趣的网页进行处理,蒋宗礼等人讨论具有主题内容过滤的爬虫设计技术,这些技术包括数据挖掘、知识发现、自然语言机器理解等。在解决广域网海量信息的第二中方式中,除了研究对网页的理解外,还需要对用户的检索意愿做研究,把握用户的检索要求, 薛晔伟等人主要讨论如何按照用户查询意愿来进行网页排序。 无论网络爬虫采用何种方式,对搜索引擎的研制而言核心技术仍然是对网页内容的分析理解方面。吴飞等人主要讨论网页中各种特定内容的分析理解和获取,如网页中Deep Web 数据、网络话题、数字版权信息、网络社区信息、搜索与翻译结合、网页中的多媒体信息等。这些分析技术均为针对特定内容的分析技术、通用性少,有效性待检验。 李晓红等人探讨元搜索引擎。 刘凡平等人是研讨站内搜索引擎的文献。该文通过对站内搜索的设计分析和实现, 以及对网页排序算法的研究, 提出了利用综合倒排文件和快速排序方法进行站内网页决策性排序, 建立新式站内搜索, 并应用于实际. 欧阳柳波等人着重研究网站网页分类更新策略,说明网页的更新性是网页属性之一。 本作品是基于网页更新性来分析理解网页。通过核心期刊全文数据库查询结果说明目前本作品的工作还未有文献报道,具有创新性。