数据仓库作业四:第7章 数据的属性与相似性
数据仓库作业四:第7章 数据的属性与相似性
第7章 数据的属性与相似性
作业题
1、设有10个二元属性,个数据对象的数据集(表1)。
id | A 1 A_1 A1 | A 2 A_2 A2 | A A_ A | A 4 A_4 A4 | A 5 A_5 A5 | A 6 A_6 A6 | A 7 A_7 A7 | A 8 A_8 A8 | A 9 A_9 A9 | A 10 A_{10} A10 |
---|---|---|---|---|---|---|---|---|---|---|
X 1 X_1 X1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 |
X 2 X_2 X2 | 1 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 1 | 0 |
X X_ X | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0 | 0 | 1 |
1011111011
1100100110
0110111001
试计算简单匹配系数相似度
,
;Jaccard 系数相似度
,
;Rao 系数相似度
,
。
解:
由题可知,
比较
和
每一个属性的取值情况,可得
,
,
,
;
向量的维数
;
计算得:
由题可知,
比较和每一个属性的取值情况,可得
,
,
,
;
向量的维数
;
计算得:
2、设有5个分类属性,个数据对象的数据集(表2)。
对象id | 背景颜 | 婚姻状况 | 性别 | 血型 | 职业 |
---|---|---|---|---|---|
X 1 X_1 X1 | 红 | 单身 | 女 | B | 工人 |
X 2 X_2 X2 | 白 | 离异 | 男 | AB | 工人 |
X X_ X | 蓝 | 单身 | 男 | B | 教师 |
红单身女B工人
白离异男AB工人
蓝单身男B教师
试计算
和
和
。
解:
利用
和
的相似度公式
是
和
的对应属性值
的个数,
是向量的维数。
由题可知,向量的维数
,对象
和
在职业分量上取相同的值,
计算得,
同理可得,
、假设某校用考试成绩、奖学金和月消费个属性来描写学生在校的信息(表)。
其中第1个属性考试成绩取
个状态,其顺序排位为优>良>中>及格>不及格;第2个属性奖学金取
个状态,其顺序排位为甲>乙>丙;第个属性月消费取
个状态,其顺序排位为高>中>低。
对象id | 成绩 | 奖学金 | 月消费 |
---|---|---|---|
X 1 X_1 X1 | 良 | 甲 | 高 |
X 2 X_2 X2 | 优 | 甲 | 中 |
X X_ X | 中 | 丙 | 高 |
良甲高
优甲中
中丙高
试按照序数属性相似度计算方法求
和
和
。
解:
首先将序数属性的值域映射为整数排位集合。
,其中最大排位数
;
,其中最大排位数
;
,其中最大排位数
;
将每个属性的取值用其排位的整数代替,得
对象id | 成绩 | 奖学金 | 月消费 |
---|---|---|---|
X 1 X_1 X1 | 4 | ||
X 2 X_2 X2 | 5 | 2 | |
X X_ X | 1 |
4
52
1
利用公式
将其映射到
区间的实数,并代替原先的排位整数,得到数值属性的数据集。
对于数据对象
,其成绩排位整数是 4,而
,因此
;
的成绩排位数是 5,映射为
;
的成绩排位数是 ,映射为
。
同理可得
,
,
的奖学金和月消费的实数值。
对象id | 成绩 | 奖学金 | 月消费 |
---|---|---|---|
X 1 X_1 X1 | 0.75 | 1 | 1 |
X 2 X_2 X2 | 1 | 1 | 0.5 |
X X_ X | 0.5 | 0 | 1 |
0.7511
110.5
0.501
选用欧几里得距离公式计算任意两点之间的相异度,得
由公式
计算得相似度
4、对于如下表4所示的数据集,试计算余弦相似度
和
的值。
文档号 | 球队 | 教练 | 冰球 | 棒球 | 足球 | 罚球 | 得分 | 赢球 | 输球 | 赛季 |
---|---|---|---|---|---|---|---|---|---|---|
X 1 X_1 X1 | 5 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | |
X 2 X_2 X2 | 0 | 2 | 0 | 1 | 1 | 0 | 1 | 0 | 1 | |
X X_ X | 4 | 1 | 2 | 0 | 2 | 1 | 0 | 1 | 0 | 0 |
500100100
020110101
4120210100
解:
由公式
得
5、设有混合属性数据集(表5),试计算
的相异度矩阵。
顾客id | 性别 | 婚姻状况 | 学位 | 当月消费额 |
---|---|---|---|---|
X 1 X_1 X1 | 男 | 已婚 | 其他 | 120 |
X 2 X_2 X2 | 男 | ull | 硕士 | ull |
X X_ X | 男 | 离异 | 博士 | 586 |
X 4 X_4 X4 | 女 | 单身 | 硕士 | 670 |
X 5 X_5 X5 | 男 | 单身 | 学士 | 1025 |
X 6 X_6 X6 | 女 | 丧偶 | ull | 2890 |
男已婚其他120
男ull硕士ull
男离异博士586
女单身硕士670
男单身学士1025
女丧偶ull2890
解:
属性 “性别” 的相异度矩阵:
属性 “婚姻状况” 的相异度矩阵:
属性 “学位” 的相异度矩阵:
由公式
得属性 “当月消费额” 的相异度矩阵:
利用公式
将
集成为
的相异度矩阵
,得
#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格
推荐阅读
留言与评论(共有 20 条评论) |
本站网友 万艾柯 | 3分钟前 发表 |
0)比较 X_1 和 X_2 每一个属性的取值情况 | |
本站网友 贸易融资 | 10分钟前 发表 |
X_2)=\frac{p_1}{d}=\frac{1}{5}同理可得 | |
本站网友 n95口罩怎么戴 | 2分钟前 发表 |
低\}\Rightarrow\{ | |
本站网友 在线识别图片来源 | 23分钟前 发表 |
0 | |
本站网友 李剑青 | 17分钟前 发表 |
假设某校用考试成绩 | |
本站网友 呋喃丹 | 15分钟前 发表 |
0)X_=(0 | |
本站网友 荷叶茶 | 5分钟前 发表 |
设有混合属性数据集(表5) | |
本站网友 男人补品 | 17分钟前 发表 |
其中最大排位数 m_=;将每个属性的取值用其排位的整数代替 | |
本站网友 《向日葵》 | 0秒前 发表 |
s(X_1 | |
本站网友 android项目实战 | 12分钟前 发表 |
2 | |
本站网友 clientheight | 10分钟前 发表 |
X_2)=\frac{f_{11}}{f_{11}+f_{10}+f_{01}+f_{00}}=\frac{f_{11}}{d}=\frac{}{10} 由题可知 | |
本站网友 浦沿二手房出售 | 5分钟前 发表 |
f_{10}=5 | |
本站网友 苹果5s发布会 | 25分钟前 发表 |
1 | |
本站网友 茉莉精油 | 10分钟前 发表 |
2 | |
本站网友 自媒体平台有哪些 | 13分钟前 发表 |
1 | |
本站网友 北京亚运村 | 16分钟前 发表 |
1 | |
本站网友 望天打卦 | 16分钟前 发表 |
个数据对象的数据集(表1) | |
本站网友 来摸我 | 18分钟前 发表 |
f_{01}=4 | |
本站网友 绵阳万达影院 | 29分钟前 发表 |
X_2) 和 s(X_1 |