什么是数据挖掘？

转载：https://zhidao.baidu.com/question/586212356456556165.html

科技的快速发展和数据的存储技术的快速进步，使得各种行业或组织的数据得以海量积累。但是，从海量的数据当中，提取有用的信息成为了一个难题。在海量数据面前，传统的数据分析工具和方法很无力。由此，数据挖掘技术就登上了历史的舞台。

数据挖掘是一种技术，将传统的数据分析方法与处理大量数据的复杂算法相结合（图1），从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程。

那数据挖掘能够干什么？有哪些数据挖掘技术？怎么应用？

数据挖掘技术应用广泛，如：1. 在交通领域，帮助铁路票价制定、交通流量预测等。2. 在生物学当中，挖掘基因与疾病之间的关系、蛋白质结构预测、代谢途径预测等。3. 在金融行业当中，股票指数追踪、税务稽查等方面有重要运用。4. 在电子商务领域，对顾客行为分析、定向营销、定向广告投放、谁是最有价值的用户、什么产品搭配销售等。可以说，有数据的方法，就有数据挖掘的用武之地。

那数据挖掘过程是什么呢？如图2：

数据挖掘的任务主要分为一下四类，如图3：

1.建模预测：用因变量作用目标变量建立模型。分为两类：（1）分类，用于预测离散的目标变量；（2）回归，用于预测连续的目标变量。两项任务目标都是训练一个模型，使目标变量预测值与实际值之间的误差达到最小。预测建模可以用来判断病人是否患有某种疾病，可以用于确定顾客是否需要某种产品，预测交通流量。

2.关联分析：用来发现描述数据中强关联特征的模式。所发现的模式通常用特征子集的形式表示。由于搜索空间是指数规模的，关联分析的目标是以有效的方式提取最有用的模式。关联分析的应用包括用户购买商品之间的联系、找出相关功能的基因组、表单预测输出下拉列表如图4。

3.聚类分析：发现紧密相关的观测值群组，使得与属于不同簇的观察值相比，同一簇的观察值相互之间尽可能的类似。聚类可用来对相关的顾客分组、给不同功能的基因分组、不同的癌症细胞系分组。

4.异常检测：识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。异常检测算法的目标是发现真正的异常点，而避免错误地将正常的对象标注为异常点。换言之，一个好的异常点检测模型必须具有高检测率和低误报率。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式。

参考文章：

1. 《大话数据挖掘》
2. 《数据挖掘导论》
3. http://mp.weixin.qq.com/s?__biz=MzI2NDEwNzgxMw==&mid=401492893&idx=1&sn=5b6f61474fcd32cf9b009317aa8a65e6#rd

什么是数据挖掘？

搜索

分类

标签

关注我们