数据挖掘之-简单属性之间的相似度和相异度



数据挖掘之-简单属性之间的相似度和相异度,通常,具有若干属性的对象之间的邻近度用单个属性的邻近度的组合来定义。

首先了解什么是标称属性:

标称意味“与名称相关”。标称属性(nominal attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的(categorical)。这些值不必具有有意义的序。在计算机科学中,这些值也被看做是枚举的(enumeration)。

例2.1 标称属性。假设hair_color(头发颜色)和marital_status(婚姻状况)是两个描述人的属性。在我们的应用中,hair_color的可能值为黑色、棕色、淡黄色、红色、赤褐色、灰色和白色。属性marital_status的取值可以是单身、已婚、离异和丧偶。hair_color和marital_status都是标称属性。标称属性的另一个例子是occupation(职业),具有值教师、牙医、程序员、农民等。

尽管我们说标称属性的值是一些符号或“事物的名称”,但是可以用数表示这些符号或名称。例如对于hair_color,我们可以指定代码0表示黑色,1表示棕色,等等。另一个例子是customer_ID(顾客号),它的可能值可以都是数值。然而,在这种情况下,并不打算定量地使用这些数。也就是说,在标称属性之上,数学运算没有意义。与从一个年龄值(这里,年龄是数值属性)减去另一个不同,从一个顾客号减去另一个顾客号毫无意义。尽管一个标称属性可以取整数值,但是也不能把它视为数值属性,因为并不打算定量地使用这些整数。在2.1.5节,我们将更详细地说明数值属性。

因为标称属性值并不具有有意义的序,并且不是定量的,因此,给定一个对象集,找出这种属性的均值(平均值)或中位数(中值)没有意义。然而,一件有意义的事情是使该属性最常出现的值,这个值称为众数(mode),是一种中心趋势度量。