转载:https://zhidao.baidu.com/question/586212356456556165.html

科技的快速发展和数据的存储技术的快速进步,使得各种行业或组织的数据得以海量积累。但是,从海量的数据当中,提取有用的信息成为了一个难题。在海量数据面前,传统的数据分析工具和方法很无力。由此,数据挖掘技术就登上了历史的舞台。

数据挖掘是一种技术,将传统的数据分析方法与处理大量数据的复杂算法相结合(图1),从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程。

那数据挖掘能够干什么?有哪些数据挖掘技术?怎么应用?

数据挖掘技术应用广泛,如:1. 在交通领域,帮助铁路票价制定、交通流量预测等。2. 在生物学当中,挖掘基因与疾病之间的关系、蛋白质结构预测、代谢途径预测等。3. 在金融行业当中,股票指数追踪、税务稽查等方面有重要运用。4. 在电子商务领域,对顾客行为分析、定向营销、定向广告投放、谁是最有价值的用户、什么产品搭配销售等。可以说,有数据的方法,就有数据挖掘的用武之地。

那数据挖掘过程是什么呢?如图2:

 

数据挖掘的任务主要分为一下四类,如图3:

 

1.建模预测:用因变量作用目标变量建立模型。分为两类:(1)分类,用于预测离散的目标变量;(2)回归,用于预测连续的目标变量。两项任务目标都是训练一个模型,使目标变量预测值与实际值之间的误差达到最小。预测建模可以用来判断病人是否患有某种疾病,可以用于确定顾客是否需要某种产品,预测交通流量

2.关联分析:用来发现描述数据中强关联特征的模式。所发现的模式通常用特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有用的模式。关联分析的应用包括用户购买商品之间的联系、找出相关功能的基因组、表单预测输出下拉列表如图4。

3.聚类分析:发现紧密相关的观测值群组,使得与属于不同簇的观察值相比,同一簇的观察值相互之间尽可能的类似。聚类可用来对相关的顾客分组、给不同功能的基因分组、不同的癌症细胞系分组。

4.异常检测:识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。换言之,一个好的异常点检测模型必须具有高检测率和低误报率。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式。

 

参考文章: