主办单位: 共青团中央   中国科协   教育部   中国社会科学院   全国学联  

承办单位: 贵州大学     

基本信息

项目名称:
一种基于谓词逻辑的分类规则处理方法
小类:
信息技术
简介:
分类是数据挖掘和机器学习领域中的重要研究内容之一,用来抽取能够描述重要数据集合的模型,用于预测未知数据对象的离散类别,已广泛应用在市场营销、金融投资、天文、地理的数据分析与决策等领域。
详细介绍:
近年来,如何获取正确、简洁、规范以及高质量的分类规则是一项重要的研究内容,主要集中在以下几个方面:1)获取分类规则方法。决策树分类方法, 其基本思想是贪心算法,它是自顶向下递归的方式造决策树,起源于概念学习系统,具有高效、可理解性强的特征;贝叶斯分类法是一种统计学分类方法,用于大型数据库中也具有较高分类质量(正确率);概念格分类法,通过格结点间的关系获取的分类规则,具有精确性、分类质量高的特点,但是知识集容量较大;此外,还有模糊集、粗糙集理论、蚁群算法等,各俱优劣,各种方法间相结合,取长补短,也是获取分类规则的一种有效途径(例如:模糊决策树)。2)在已获取的分类规则集中经常存在前件完全不同且规则后件相同、规则前件交集非空且后件相同等冗余和冲突现象,导致在分类和预测过程中出现错误判断、效率低下等问题。因此,如何有效地避免、减少这类问题也是当前的重点研究内容之一。目前,大多数方法主要分为两大类:直接处理和非直接处理。直接处理指的是在分类规则生成的过程中进行剪枝操作,即规则提取和规则剪枝同时进行,也即对原提取方法的改进,例如:Quinlan 的C4.5算法即是在生成规则的过程中,通过对规则的剪枝来消除冗余,并且Liu B等在构造CBA分类器的过程中就采用了这种技术来消除冗余;在一些关联规则的剪枝中也采用了这种方法,例如Calders等,在生成频繁项目集的过程中进行了剪枝操作。直接处理可以在过程中充分考虑原数据集的特征,处理后效果良好,但是处理效率比较低,并且处理过程中,不能对已知规则及将要获取的规则间关系进行全局考虑,不当的剪枝易造成价值信息的丢失,相反则起不到改进的效果,更有可能出现其他冗余。非直接处理指的是后处理,即在已经生成的规则集的基础上进行后续处理,消除冗余,例如Bruha,Famili提出的规则过滤方法,就是一种典型的规则后处理;Huawen Liu等采用闭集的方法对关联、分类规则进行后处理,并构造了相应的分类器等。然而,后处理过程完全脱离原始数据集,在得到较好的处理效率的同时,也极易使有价值信息流失,有可能影响分类的质量。 谓词是描述个体词的属性、个体词间关系的一种数学符号,谓词公式的等价转换则可以将公式化繁为简,具有严谨、精确、易理解等特点。本文,提出了一种基于谓词逻辑的分类规则处理算法(ACRP),该方法采用谓词来描述分类规则前件与后件的蕴涵(因果)关系,利用谓词公式的逻辑转换来消除规则间及规则内的冗余和冲突现象,有效地提高了分类的质量和效率。最后,采用恒星光谱数据,实验验证该算法的正确性和可行性。

作品图片

  • 一种基于谓词逻辑的分类规则处理方法

作品专业信息

撰写目的和基本思路

利用谓词描述分类规则,并通过逻辑演算对分类规则集进行等价转换,从而消除冗余规则,提高了分类的效果和质量。

科学性、先进性及独特之处

谓词公式的等价转换则可以将公式化繁为简,具有严谨、精确、易理解等特点。

应用价值和现实意义

为提高分类质量及效率提供了一条有效途径。

学术论文摘要

分类是数据挖掘领域中的主要研究内容之一,在获取的分类规则集中,往往存在大量冗余规则,影响了分类效率和质量。本文采用谓词逻辑,提出了一种分类规则处理方法。该方法利用谓词描述分类规则,并通过逻辑演算对分类规则集进行等价转换,从而消除冗余规则,提高了分类的效果和质量。最后,采用恒星光谱数据,实验验证该方法正确可行,从而为提高分类质量及效率提供了一条有效途径。

获奖情况

已投稿

鉴定结果

参考文献

检索关键字:数据挖掘;分类规则;谓词逻辑;后处理;恒星光谱数据

同类课题研究水平概述

谓词是描述个体词的属性、个体词间关系的一种数学符号,谓词公式的等价转换则可以将公式化繁为简,具有严谨、精确、易理解等特点。本文,提出了一种基于谓词逻辑的分类规则处理算法(ACRP),该方法采用谓词来描述分类规则前件与后件的蕴涵(因果)关系,利用谓词公式的逻辑转换来消除规则间及规则内的冗余和冲突现象,有效地提高了分类的质量和效率。最后,采用恒星光谱数据,实验验证该算法的正确性和可行性。
建议反馈 返回顶部