数据挖掘是一门交叉性学科,涉及机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。它是从大量数据中发现价值信息的一个流程之一。知识发现过程包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示。
* 相对简单的read/write query,单次作用于相对的少量数据。
* 相对简单的(Denormalized)表格结构,存储结构相对松散,多冗余数据。
* 相对复杂的read query,单次作用于相对大量的数据(历史数据)。
区分是将目标类数据对象的一般特征与来自一个或一组对比类的对象的一般特征进行比较。
分类是指寻找一个描述和区分数据类或概念的模型(或函数)的过程,以便能够使用该模型来预测类标签未知的对象类。它预测分类的、离散的、无序的标签。
回归是一个建模连续值函数的过程。它被用于预测缺失的或不可用的数值数据值,而不是(离散的)类标签。
聚类分析数据对象,而不是查询对比已知的类标签。这些对象基于最大化类内相似性和最小化类间相似性的原则进行聚集或分组。所形成的每个集群都可以被视为一个对象类。聚类还可以促进分类学的形成,也就是说,将观察结果组织成将类似事件分组在一起的类的层次结构。
区分与分类的区别在于,前者是将目标类数据对象的一般特征与一个或一组对比类的对象的一般特征进行比较,而后者是寻找一组描述和区分数据类或函数)的模型(或概念的过程,以便能够使用模型来预测类标签未知的对象类。歧视和分类是相似的,因为它们都处理对类数据对象的分析。
特征化与聚类的不同之处在于,前者是指对目标类数据的一般特征或特征的摘要,而后者处理数据对象的分析而不查看已知的类标签。这对任务的相似之处在于,它们都处理了将相关的或与彼此相比相似性较高的对象或数据分组在一起。
分类与回归的不同之处在于,前者预测分类的(离散的、无序的)标签,而后者预测缺失或不可用,通常是数值数据值。这对任务很相似,因为它们都是预测的工具。