数据发掘是从许多的、不完全的、有噪声的、含糊的、随机的数据会集辨认有用的、新颖的、潜在有用的,以及终究可理解的形式的非普通进程。它是一门涉及面很广的交叉学科,包含机器学习、数理计算、神经网络、数据库、形式辨认、粗糙集、含糊数学等相关技能。
因为数据发掘是一门遭到来自各种不同范畴的研究者重视的交叉性学科,因而导致了许多不同的术语称号。其间,最常用的术语是常识发现和数据发掘。相对来讲,数据发掘首要流行于计算界(最早呈现于计算文献中)、数据剖析、数据库和管理信息体系界;而常识发现则首要流行于人工智能和机器学习界。
依据数据发掘的使命分,有如下几种:分类或猜测模型数据发掘、数据总结、数据聚类、相关规矩发现、序列形式发现、依靠联系或依靠模型发现、反常和趋势发现等等 。
依据数据发掘的目标分,有如下若干种数据源:联系数据库、面向目标数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产(legacy)数据库,以及Web数据源。
依据数据发掘的办法分,可粗分为:计算办法、机器学习办法、神经网络办法和数据库办法。计算办法中,可细分为:回归剖析(多元回归、自回归等)、判别剖析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类剖析(体系聚类、动态聚类等)、探索性剖析(主元剖析法、相关剖析法等)、以及含糊集、粗糙集、支撑向量机等。机器学习中,可细分为:概括学习办法(决策树、规矩概括等)、根据典范的推理CBR、遗传算法、贝叶斯信仰网络等。神经网络办法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞赛学习等)等。数据库办法首要是根据可视化的多维数据剖析或OLAP办法,别的还有面向特点的概括办法。
-George E Luger著. 史忠植, 张银奎, 赵志崑等译. 人工智能-复杂问题求解的结构和战略(第五版)机械工业出版社,2005..
-Russell S., Peter Norvig著. 姜哲,金奕江,张敏 等译. 人工智能——一种现代办法(第二版)北京:人民邮电出版社, 2004