您现在的位置是:首页 > 编程 > 

数据仓库作业四:第7章 数据的属性与相似性

2025-07-23 19:38:56
数据仓库作业四:第7章 数据的属性与相似性 第7章 数据的属性与相似性作业题1、设有10个二元属性,个数据对象的数据集(表1)。idA 1 A_1

数据仓库作业四:第7章 数据的属性与相似性

第7章 数据的属性与相似性

作业题

1、设有10个二元属性,个数据对象的数据集(表1)。

id

A 1 A_1 A1​

A 2 A_2 A2​

A A_ A​

A 4 A_4 A4​

A 5 A_5 A5​

A 6 A_6 A6​

A 7 A_7 A7​

A 8 A_8 A8​

A 9 A_9 A9​

A 10 A_{10} A10​

X 1 X_1 X1​

1

0

1

1

1

1

1

0

1

1

X 2 X_2 X2​

1

1

0

0

1

0

0

1

1

0

X X_ X​

0

1

1

0

1

1

1

0

0

1

A_1
A_2
A_
A_4
A_5
A_6
A_7
A_8
A_9
A_{10}
X_1

1011111011

X_2

1100100110

X_

0110111001

试计算简单匹配系数相似度

s_{mc}(X_1,X_2)

s_{mc}(X_2,X_)

;Jaccard 系数相似度

s_{jc}(X_1,X_2)

s_{jc}(X_2,X_)

;Rao 系数相似度

s_{rc}(X_1,X_2)

s_{rc}(X_2,X_)

解:

由题可知,

X_1=(1,0,1,1,1,1,1,0,1,1)
X_2=(1,1,0,0,1,0,0,1,1,0)

比较

X_1

X_2

每一个属性的取值情况,可得

f_{11}=

f_{10}=5

f_{01}=2

f_{00}=0

向量的维数

d=f_{11}+f_{10}+f_{01}+f_{00}=10

计算得:

s_{mc}(X_1,X_2)=\frac{f_{11}+f_{00}}{f_{11}+f_{10}+f_{01}+f_{00}}=\frac{f_{11}+f_{00}}{d}=\frac{}{10}
s_{jc}(X_1,X_2)=\frac{f_{11}}{f_{11}+f_{10}+f_{01}}=\frac{f_{11}}{d-f_{00}}=\frac{}{10}
s_{rc}(X_1,X_2)=\frac{f_{11}}{f_{11}+f_{10}+f_{01}+f_{00}}=\frac{f_{11}}{d}=\frac{}{10}

由题可知,

X_2=(1,1,0,0,1,0,0,1,1,0)
X_=(0,1,1,0,1,1,1,0,0,1)

比较和每一个属性的取值情况,可得

f_{11}=2

f_{10}=

f_{01}=4

f_{00}=1

向量的维数

d=f_{11}+f_{10}+f_{01}+f_{00}=10

计算得:

s_{mc}(X_2,X_)=\frac{f_{11}+f_{00}}{f_{11}+f_{10}+f_{01}+f_{00}}=\frac{f_{11}+f_{00}}{d}=\frac{}{10}
s_{jc}(X_2,X_)=\frac{f_{11}}{f_{11}+f_{10}+f_{01}}=\frac{f_{11}}{d-f_{00}}=\frac{2}{10-1}=\frac{2}{9}
s_{rc}(X_2,X_)=\frac{f_{11}}{f_{11}+f_{10}+f_{01}+f_{00}}=\frac{f_{11}}{d}=\frac{2}{10}=\frac{1}{5}

2、设有5个分类属性,个数据对象的数据集(表2)。

对象id

背景颜

婚姻状况

性别

血型

职业

X 1 X_1 X1​

单身

B

工人

X 2 X_2 X2​

离异

AB

工人

X X_ X​

单身

B

教师

X_1

红单身女B工人

X_2

白离异男AB工人

X_

蓝单身男B教师

试计算

s(X_1,X_2)

s(X_1,X_)

s(X_2,X_)

解:

利用

X_i

X_j

的相似度公式

s(X_i,X_j)=\frac{p}{d}
p

X_i

X_j

的对应属性值

x_{ik}=x_{jk}

的个数,

d

是向量的维数。

由题可知,向量的维数

d=5

,对象

X_1

X_2

在职业分量上取相同的值,

计算得,

s(X_1,X_2)=\frac{p_1}{d}=\frac{1}{5}

同理可得,

s(X_1,X_)=\frac{p_2}{d}=\frac{2}{5}
s(X_2,X_)=\frac{p_}{d}=\frac{1}{5}

、假设某校用考试成绩、奖学金和月消费个属性来描写学生在校的信息(表)。

其中第1个属性考试成绩取

m_1=5

个状态,其顺序排位为优>良>中>及格>不及格;第2个属性奖学金取

m_2=

个状态,其顺序排位为甲>乙>丙;第个属性月消费取

m_=

个状态,其顺序排位为高>中>低。

对象id

成绩

奖学金

月消费

X 1 X_1 X1​

X 2 X_2 X2​

X X_ X​

X_1

良甲高

X_2

优甲中

X_

中丙高

试按照序数属性相似度计算方法求

s(X_1,X_2)

s(X_1,X_)

s(X_2,X_)

解:

首先将序数属性的值域映射为整数排位集合。

\{优,良,中,及格,不及格\}\Rightarrow\{5,4,,2,1\}

,其中最大排位数

m_1=5

\{甲,乙,丙\}\Rightarrow\{,2,1\}

,其中最大排位数

m_2=

\{高,中,低\}\Rightarrow\{,2,1\}

,其中最大排位数

m_=

将每个属性的取值用其排位的整数代替,得

对象id

成绩

奖学金

月消费

X 1 X_1 X1​

4

X 2 X_2 X2​

5

2

X X_ X​

1

X_1

4

X_2

52

X_

1

利用公式

z_{ik}=\frac{x_{ik}-1}{m_k-1}

将其映射到

[0,1]

区间的实数,并代替原先的排位整数,得到数值属性的数据集。

对于数据对象

X_1

,其成绩排位整数是 4,而

m_1=5

,因此

z_{11}=(x_{11}-1)/(m_1-1)=(4-1)/(5-1)=0.75

X_2

的成绩排位数是 5,映射为

z_{21}=(x_{21}-1)/(m_1-1)=(5-1)/(5-1)=1

X_

的成绩排位数是 ,映射为

z_{1}=(x_{1}-1)/(m_1-1)=(-1)/(5-1)=0.5

同理可得

X_1

X_2

X_

的奖学金和月消费的实数值。

对象id

成绩

奖学金

月消费

X 1 X_1 X1​

0.75

1

1

X 2 X_2 X2​

1

1

0.5

X X_ X​

0.5

0

1

X_1

0.7511

X_2

110.5

X_

0.501

选用欧几里得距离公式计算任意两点之间的相异度,得

d(X_1,X_2)=\sqrt{(0.75-1)^2+(1-1)^2+(1-0.5)^2}=\sqrt{\frac{5}{16}}
d(X_1,X_)=\sqrt{(0.75-0.5)^2+(1-0)^2+(1-1)^2}=\sqrt{\frac{17}{16}}
d(X_2,X_)=\sqrt{(1-0.5)^2+(1-0)^2+(0.5-1)^2}=\sqrt{\frac{}{2}}

由公式

s(X_i,X_j)=\frac{1}{d(X_i,X_j)}

计算得相似度

s(X_1,X_2)=\frac{1}{d(X_1,X_2)}=\sqrt{\frac{16}{5}}\approx1.79
s(X_1,X_)=\frac{1}{d(X_1,X_)}=\sqrt{\frac{16}{17}}\approx0.97
s(X_2,X_)=\frac{1}{d(X_2,X_)}=\sqrt{\frac{2}{}}\approx0.82

4、对于如下表4所示的数据集,试计算余弦相似度

s_{cos}(X_1,X_)

s_{cos}(X_2,X_)

的值。

文档号

球队

教练

冰球

棒球

足球

罚球

得分

赢球

输球

赛季

X 1 X_1 X1​

5

0

0

1

0

0

1

0

0

X 2 X_2 X2​

0

2

0

1

1

0

1

0

1

X X_ X​

4

1

2

0

2

1

0

1

0

0

X_1

500100100

X_2

020110101

X_

4120210100

解:

X_1=(5,0,,0,1,0,0,1,0,0)
X_2=(,0,2,0,1,1,0,1,0,1)
X_=(4,1,2,0,2,1,0,1,0,0)
\lVert{X_1}\rVert=\sqrt{5^2+^2+1^2+1^2}=6
\lVert{X_2}\rVert=\sqrt{^2+2^2+1^2+1^2+1^2+1^2}=\sqrt{17}
\lVert{X_}\rVert=\sqrt{4^2+1^2+2^2+2^2+1^2+1^2}=\sqrt{}
X_1\cdot X_=5×4+0×1+×2+1×2+0×1+1×1=29
X_2\cdot X_=×4+0×1+2×2+1×2+1×1+1×1+1×0=20

由公式

s_{cos}(X_i,X_j)=\frac{X_i\cdot X_j}{\lVert{X_i}\rVert\cdot\lVert{X_j}\rVert}

s_{cos}(X_1,X_)=\frac{X_1\cdot X_}{\lVert{X_1}\rVert\cdot\lVert{X_}\rVert}=\frac{29}{6×\sqrt{}}\approx0.9
s_{cos}(X_2,X_)=\frac{X_2\cdot X_}{\lVert{X_2}\rVert\cdot\lVert{X_}\rVert}=\frac{20}{\sqrt{17}×\sqrt{}}\approx0.9

5、设有混合属性数据集(表5),试计算

S

的相异度矩阵。

顾客id

性别

婚姻状况

学位

当月消费额

X 1 X_1 X1​

已婚

其他

120

X 2 X_2 X2​

ull

硕士

ull

X X_ X​

离异

博士

586

X 4 X_4 X4​

单身

硕士

670

X 5 X_5 X5​

单身

学士

1025

X 6 X_6 X6​

丧偶

ull

2890

X_1

男已婚其他120

X_2

男ull硕士ull

X_

男离异博士586

X_4

女单身硕士670

X_5

男单身学士1025

X_6

女丧偶ull2890

解:

属性 “性别” 的相异度矩阵:

D^{(1)}(S)= \left( \begin{matrix} 0 & & & & & \\ 0 & 0 & & & & \\ 0 & 0 & 0 & & & \\ 1 & 1 & 1 & 0 & & \\ 0 & 0 & 0 & 1 & 0 & \\ 1 & 1 & 1 & 0 & 1 & 0 \end{matrix} \right)

属性 “婚姻状况” 的相异度矩阵:

D^{(2)}(S)= \left( \begin{matrix} 0 & & & & & \\ ull & 0 & & & & \\ 1 & ull & 0 & & & \\ 1 & ull & 1 & 0 & & \\ 1 & ull & 1 & 0 & 0 & \\ 1 & ull & 1 & 1 & 1 & 0 \end{matrix} \right)

属性 “学位” 的相异度矩阵:

D^{()}(S)= \left( \begin{matrix} 0 & & & & & \\ 0.67 & 0 & & & & \\ 1 & 0. & 0 & & & \\ 0.67 & 0 & 0. & 0 & & \\ 0. & 0. & 0.67 & 0. & 0 & \\ ull & ull & ull & ull & ull & 0 \end{matrix} \right)

由公式

d^{(k)}(X_i,X_j)=\frac{\vert x_{ik}-x_{jk}\vert}{max_k-min_k}

得属性 “当月消费额” 的相异度矩阵:

D^{(4)}(S)= \left( \begin{matrix} 0 & & & & & \\ ull & 0 & & & & \\ 0.89 & ull & 0 & & & \\ 0.92 & ull & 0.0 & 0 & & \\ 0.08 & ull & 0.97 & 1 & 0 & \\ 0.6 & ull & 0.26 & 0.29 & 0.71 & 0 \end{matrix} \right)

利用公式

d(X_i,X_j)=\frac{\sum\limits_{k=1}^d\delta^{(k)}(X_i,X_j)×d^{(k)}(X_i,X_j)}{\sum\limits_{k=1}^n\delta^{(k)}(X_i,X_j)}

D^{(k)}(S)(k=1,2,\cdots,d)

集成为

S

的相异度矩阵

D(S)

,得

D(S)= \left( \begin{matrix} 0 & & & & & \\ 0. & 0 & & & & \\ 0.72 & 0.17 & 0 & & & \\ 0.89 & 0.5 & 0.59 & 0 & & \\ 0.5 & 0.17 & 0.66 & 0.59 & 0 & \\ 0.88 & 1 & 0.75 & 0.4 & 0.9 & 0 \end{matrix} \right)
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。 原始发表:2024-08-18,如有侵权请联系 cloudcommunity@tencent 删除matrixnull对象数据数据仓库

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址:http://www.dnpztj.cn/biancheng/1138006.html

相关标签:无
上传时间: 2025-07-19 04:13:40
留言与评论(共有 20 条评论)
本站网友 万艾柯
3分钟前 发表
0)比较 X_1 和 X_2 每一个属性的取值情况
本站网友 贸易融资
10分钟前 发表
X_2)=\frac{p_1}{d}=\frac{1}{5}同理可得
本站网友 n95口罩怎么戴
2分钟前 发表
低\}\Rightarrow\{
本站网友 在线识别图片来源
23分钟前 发表
0
本站网友 李剑青
17分钟前 发表
假设某校用考试成绩
本站网友 呋喃丹
15分钟前 发表
0)X_=(0
本站网友 荷叶茶
5分钟前 发表
设有混合属性数据集(表5)
本站网友 男人补品
17分钟前 发表
其中最大排位数 m_=;将每个属性的取值用其排位的整数代替
本站网友 《向日葵》
0秒前 发表
s(X_1
本站网友 android项目实战
12分钟前 发表
2
本站网友 clientheight
10分钟前 发表
X_2)=\frac{f_{11}}{f_{11}+f_{10}+f_{01}+f_{00}}=\frac{f_{11}}{d}=\frac{}{10} 由题可知
本站网友 浦沿二手房出售
5分钟前 发表
f_{10}=5
本站网友 苹果5s发布会
25分钟前 发表
1
本站网友 茉莉精油
10分钟前 发表
2
本站网友 自媒体平台有哪些
13分钟前 发表
1
本站网友 北京亚运村
16分钟前 发表
1
本站网友 望天打卦
16分钟前 发表
个数据对象的数据集(表1)
本站网友 来摸我
18分钟前 发表
f_{01}=4
本站网友 绵阳万达影院
29分钟前 发表
X_2) 和 s(X_1