数据挖掘介绍



继续数据挖掘

预测建模(predictive modeling):

涉及以说明变量函数的方式为目标变量建立模型,你可以想想数据的种类,一类是离散的吧(预测一个犹豫于Amazon购书还是JD购书的买者会在哪一家书店买呢?),另一类是连续的吧(预测某股票的未来价格),所以用于预测离散的目标变量是分类(classification),而用于预测连续的目标变量则是回归(regression)两项任务的基本目标都是训练一个模型,使目标变量预测值与实际值的误差达到最小,呵呵,这是每个理性人的想法了

关联分析(association analysis):

用来发现描述数据中强关联特征的模式,所发现的模式通常用蕴含规则或特征子集的形式表示。由于搜索空间是指数规模,关联分析的目标是以有效的方式提取最有效的模式,比如,识别用户一起访问Web页面,理解地球气候系统不同元素之间的联系

聚类分析(cluster analysis):

旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。比如可用来对相关的顾客分组,找出显著影响地球的海洋区域以及压缩数据

异常检测(anomaly detection):

识别其特征显著不同与其他数据的观测值,这样的观测值称为异常点(anamaly)或离群点(outlier)比如一个例子是(信用卡欺诈检测)