分类规则挖掘(一)
分类规则挖掘(一)
一、分类问题概述
动物分类:设有动物学家陪小朋友林中散步,若有动物突然从小朋友身边跑过就会问“ 这是什么动物?”,动物学家说是“松鼠”呀!这就是所谓动物的分类问题。
数据分类 (Data Classification) :对于一个未知类别标号的数据对象
,给出它的类别名称或标号。相当于动物学家看到一个动物会说出动物的名称,是因为他经历了长时间的学习,并记住了各种类动物的特性或分类规则。数据分类器是指若干分类规则的集合 (图9-1)。
分类分析 (Classification Analysis) 的三个步骤:挖掘分类规则 (建立分类器或分类模型),分类规则评估和分类规则应用。
(一)分类规则挖掘
先将一个已知类别标号的数据样本集 (也称为示例数据库) 随机地划分为训练集
(通常占2/) 和测试集
两个部。通过分析
中的所有样本点 (数据对象),为每个类别做出准确的特征描述,或建立分类模型,或挖掘出分类规则。这一步也称为有监督的 (supervised) 学习,即在模型建立之前就被告知每个训练样本。
训练集
且每个样本点
都对应一个已知的类别标号
(表9-1)。其中
称为样本集
的
个条件属性 (简称属性) ,
称为类别属性或决策属性,
又称为类别属性值或决策属性值或类别标识,并将
称为
的类别属性集,也称为
的分类集。
定义9-1 对于给定的训练样本集
和分类属性
,如果能到一个函数
满足: ①
,即
是
到
的一个映射; ② 对于每个
存在唯一
使
,并记
。 则称函数
为分类器,或分类规则,或分类方法,其寻过程称为分类规则挖掘等。
类别标号
其实也代表属于该类的样本点集合,比如,我们说样本点
是
类的,表示样本点
属于
,即
。因此,
既是一个类别标号 (分类属性的取值),又表示属于该类所有样本点的集合。
(二)分类规则评估
对测试集
中的样本点,若有
个样本点被分类模型正确地分类,则分类模型在测试集
上的准确率定义为 “正确预测数/预测总数”,即
。
由于
中的样本点已有分类标识,很容易统计分类器对
中样本进行正确分类的准确率,加之
中样本是随机选取的,且完全独立于训练集
,其测试准确率高就说明分类模型是可用的。
如果直接使用训练集
进行评估,则其评估结果完全可能是乐观的,即准确率很高,但因为分类模型是由
学习而得到的,它会倾向于过分拟合训练集
,而对
以外的其它数据对象进行分类却可能很不准确。因此,交叉验证法来对模型进行评估是更合理的方法。
(三)分类规则应用
如果评估分类模型的准确率可以接受,接下来就是利用这个分类器对没有类别标号的数据集
(表9-2)进行分类。
即从
中任意取出一个样本点
,将其输入分类器,所得的类别标号就是
所属的类别集合。
二、k-最近邻分类法
-最近邻 (
-earest eighbour,
) 分类法是一种基于距离的分类算法,它既不需要事先建立分类模型,也无需对分类模型进行评估,而仅利用有类别标号的样本集,直接对没有类别标号的数据对象
进行分类,即确定其类别标号。
假定样本集
中每个数据点都有一个唯一的类别标号,每个类别标识
中都有多个数据对象。对于一个没有标识的数据点
,
-最近邻分类法遍历搜索样本集
,出距离
最近的
个样本点,即
-最近邻集
,并将其中多数样本的类别标号分配给
。
算法9-1
-最近邻分类算法 输入:已有类别标号的样本数据集
,最近邻数目
,一个待分类的数据点
输出:输出类别标号
(1)初始化
-最近邻集:
; (2)对每一个
,分两种情况判断是否将其并入
① 如果
,则
② 如果
,存在
且
则
; ()若
是
中数量最多的数据对象,则输出
的类别标号
,即
的类别标号为
例9-1 设某公司现有15名员工的基本信息,包括其个子为高个、中等、矮个的分类标识。
公司现刚招进一位名叫刘平的新员工
,令
,试采用
-最近邻分类算法判断员工刘萍的个子属于哪一类?
解:只有身高才是与个子高矮相关的属性,因此用
表示第
个员工的身高。
首先从
中选择5个员工作为初始
-最近邻集
。不失一般性,取
(1)对
的
,身高
是
中与身高
差距最大的员工,且有
,因此,在
中用
替换
得到
(2)同理,用
中
替换
中身高距离
最大的员工
,得到
()用
替换
中距离
最大的员工
,得到
;
(4)因为
中的
和
,故根据算法,
不需要改变。
(5)用
替换
中
得
(6)因为
中的
,故
不需要改变。
(7)用
替换
中
得
(8)在第(7)步所得
中,有5个身高最接近
的员工,且其
这4个员工的类别都是 “矮个”,仅有
的类别是 “中等”;因此,新员工
的个子为矮个。
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。 原始发表:2024-05-01,如有侵权请联系 cloudcommunity@tencent 删除测试对象集合模型数据#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格
推荐阅读
留言与评论(共有 9 条评论) |
本站网友 4u88 | 16分钟前 发表 |
二 | |
本站网友 杨逸嘉 | 24分钟前 发表 |
\cdots | |
本站网友 金银花的功效 | 17分钟前 发表 |
比如 | |
本站网友 孔令贤 | 13分钟前 发表 |
C 称为类别属性或决策属性 | |
本站网友 失眠医院 | 27分钟前 发表 |
不失一般性 | |
本站网友 海口论坛 | 12分钟前 发表 |
C_1 既是一个类别标号 (分类属性的取值) | |
本站网友 长微博工具 | 13分钟前 发表 |
其中 A_1 | |
本站网友 舒肝颗粒 | 22分钟前 发表 |
身高X_2=2.00是中与身高Z_1=1.62差距最大的员工 |