数据集合的类型
—记录、图 或 网络、有序的序列
—空间, 图像和 多媒体等
数据对象
数据集由数据对象构成;一个数据对象代表一个实体
例子:
- 销售数据库: 客户/顾客,商店物品
- 医学数据库: 病人和治疗方案( patients, treatments)
- 大学数据库: 学生、教授、课程(students, professors, courses)
又称为 样本 , 事例, 实例, 数据点, 对象,元组等.
数据对象由属性来描述
属性
属性(Attribute,也称作维度, 特征, 变量):一个数据字段表示一个数据
对象的某个特征.
- E.g., customer _ID, name, address
类型:
- 标称属性( Nominal) --与名称有关
- 二元属性 (Binary)--是一种特殊的标称属性或布尔属性
- 序数属性(Ordinal) --有意义的序,但是相继值之差是未知的
上面三种是定性的
- 数字属性(Numeric)--数量的
Ø 区间标度(Interval-scaled)—相等的单位尺度,没有真正的零点,如年,温度
Ø 比率标度(Ratio-scaled)—具有固定零点的数值属性,如重量,身高等
属性类型
§ 标称属性
- 类别,状态等
- Hair_color = { auburn, black, blond, brown, grey, red, white }
- 婚姻状态, 职业, ID号, 邮政编码
§ 二元属性
- 只有2个状态的名词性属性 (0 and 1)
- 对称二元(Symmetric binary): 同样重要
Ø e.g., 性别(gender)
- 非对称(Asymmetric binary): 非同等重要
Ø e.g., 医疗检查中的阴性和阳性 (positive vs. negative)
Ø 惯例:1赋值更重要的一方
§ 序数属性
- 值有一个有意义的顺序(排序) 但连续值之间的大小未知.
- 衣服大小号Size = { small, medium, large } , 等级,军队排名