数据发掘(data mining),便是从存放在数据库、数据仓库或其他信息库中的很多的数据中获取有用的、新颖的、潜在有用的、终究可了解的形式的非普通进程。
在人工智能范畴,习惯上又称为数据库中的常识发现(knowledge discovery in database,KDD),也有人把数据发掘视为数据库中常识发现进程的一个根本进程。常识发现进程由以下三个阶段组成:①数据预备;②数据发掘;③成果表达和解说。数据发掘能够与用户或常识库交互。
并非一切的信息发现使命都被视为数据发掘。例如,运用数据库办理体系查找单个的记载,或经过互联网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)范畴的使命。尽管这些使命是重要的,或许触及运用杂乱的算法和数据结构,可是它们首要依靠传统的计算机科学技能和数据的显着特征来创立索引结构,然后有用地安排和检索信息。尽管如此,数据发掘技能也现已用来增强信息检索体系的才能。
(1)直接数据发掘:方针是使用可用的数据树立一个模型,这个模型对剩下的数据,即一个特定的变量(能够了解成数据库表的特点,即列)进行描绘。
(2)直接数据发掘:方针中没有选出某详细的变量用模型进行描绘,而是在一切的变量中树立起某种联系。