丰富的数据以及对强有力的数据分析工具的需求这种情况被描述为“数据丰富但信息匮乏”。
许多人把数据挖掘视为另一个流行术语数据中的知识发现KDD而另一些人只是把数据挖掘视为知识发现过程中的一个基本步骤。知识发现过程由以下
关系数据可以通过数据库查询访问。数据库查询使用如SQL这样的关系查询语句或借助于图形界面书写。当数据挖掘用于关系数据库时可以进一步搜索趋势或数据模式。关系数据库是数据挖掘的最常见、最丰富的信息源。
数据仓库是一个从多个数据源收集的信息存储库存放在一致的模式下并且通常驻留在单个站点上。其中数据仓库通过数据清洗、数据变换、数据集成、数据装入和定期数据刷新来构造。
为了便于决策数据仓库中的数据围绕主题如顾客、商品、供应商和活动组织。数据存储从历史的角度如过去的6~12个月提供信息并且通常是汇总的。例如数据仓库不是存放每个销售事务的细节而是存放每个商店、每类商品的销售事务的汇总或汇总到较高层次每个销售地区、每类商品的销售事务的汇总。
通常数据仓库被称为“数据立方体”**的多维数据结构建模。其中每个维度对应模式中的一个或一组属性而每个单元存放某种聚集度量值如count或sum。
通过提供多维数据视图和汇总数据的预计算数据仓库非常适合联机分析处理。**多维数据挖掘又称探索式多维数据挖掘**以OLAP风格在多维空间进行数据挖掘。
一般来说事务数据库的每个记录代表一个事务如顾客的一次购物、一个航班订票或一个用户的网页点击。某商店的事务数据每行可能为一个事务标识号和一个组成事务的项如交易中购买的商品的列表。
时间相关或序列数据例如历史记录、股票交易数据、时间序列和生物学序列数据
数据特征化data characterization是目标类数据的一般特性或特征的汇总。例如为研究上一年销售增加10%的软件产品的特征可以通过在销售数据库上执行一个SQL来收集关于这些产品的数据。例如挖掘任务“汇总一年内在某商店线美元以上的顾客特征”统计结果可能是顾客的概况如年龄在40~50、有工作、有很好的信用等级。
数据特征化的输出可以用多种形式提供例如饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述可以用广义关系或规则称作特征规则形式提供。
数据区分data discrimination是将目标类数据对象的一般特性与一个或多个对比类对象的一般性进行比较。例如比较两组顾客——定期购买计算机产品的顾客和不经常购买这种产品的顾客。结果描述提供这些顾客比较的概况例如频繁购买计算机产品的顾客80%在20-40岁之间受过大学教育而不经常购买这些产品的顾客60%或者年龄太大或太年轻或没有大学学位。
频繁模式frequent pattern是在数据中频繁出现的模式存在多种类型的频繁模式包括频繁项集、频繁子序列序列模式和频繁子结构。频繁项集一般是指频繁地在事务数据中一起出现的商品的集合如小卖部中被许多顾客频繁一起购买的牛奶和面包。频繁子序列类似如顾客倾向于先购买便携机再购买数码相机然后再购买内存卡这样的模式。子结构可能涉及不同的结构形式例如图、树或格可以与项集或子序列结合在一起。如果一个子结构频繁的出现则称之为频繁结构模式。
通常一个关联规则被认为无趣的而被抛弃即当它不能满足最小支持度阈值和最小置信度阈值的时候。还可以进一步分析发现相关联的属性-值对之间的有趣的统计相关性。
分类是这样的过程它找出描述和区分数据类或概念的模型函数以便能够使用模型预测类标号未知的对象的类标号。导出模型是基于对训练数据集即类标号已知的数据对象的分析。导出的模型可以有多种形式如a: 分类规则即IF-THEN规则、b: 决策树、c: 数学公式或神经网络具体如下图所示。
决策树是一种类似于流程图的树结构其中每个节点代表在一个属性值上的测试每个分支代表测试的一个结果而树叶代表类或类分布当用于分类时神经网络是一组类似于神经元的处理单元单元之间加权连还有许多构造分类模型的其他方法如朴素贝叶斯分类、支持向量机和K最近邻分类。
分类预测类别离散的、无序的标号而回归建立连续值函数模型。即回归用来预测缺失或难以获得的数值数据值而不是离散的类标号。
回归分析是一种常用的数值预测的统计学方法。回归也包含基于可用数据的分布趋势识别。相关分析relevance analysis可能需要在分类和回归之前进行它试图识别与分类和回归过程显著*“相关”*的属性。那么将对这些相关的属性进行分类和回归过程其他属性则不必考虑。
与分类和回归分析标记类的训练数据集聚集clustering分析数据对象不考虑类标号。在许多情况下开始并不存在标记类的数据。可以使用聚类产生数据组群的类标号。对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。也就是说对象的簇cluster这样形成是的相比之下在同一个簇中对象具有很高的相似性而与其他的簇中的对象很不相似。所形成的每一个簇都可以看作一个对象类由它可以到处规则。聚类也便于分类法形成即将观测组织成类分层组织把类似的事件组织在一起。如下图显示了一个城市内顾客位置的二维图且图中的数据点形成的三个簇是显而易见的。
数据集中可能存在一些数据对象他们与数据的一般行为或模型不一致这些数据对象被称为离群点outlier。大部分数据挖掘方法将离群点视为噪音或异常而丢弃。然而在一些应用中如欺诈检测罕见的事件可能比正常出现的事件更令人感兴趣。离群点数据分析称作离群点分析或异常挖掘。
离群点分析。通过检测一个给定账号与正常的付费相比付款数额特别大离群点分析可以发现信用卡欺骗性使用。离群点还可以通过购物地点和类型或购物频率来检测。
1这些度量基于所发现模式的结构和关于他们的统计量。对于形如X – Y的关联规则一种客观度量是规则的支持度support。规则的支持度表示事务数据库中满足规则的事务所占百分比。支持度可以取概率P(X∪Y)其中X∪Y表示同时包含X和Y两个事务即项集X和Y的并。
包括分类IF-THEN规则的准确率与覆盖率。一般而言准确率告诉我们被一个规则正确分类的数据所占的百分比。覆盖率类似于“支持度”告诉我们规则可以作用的数据所占百分比。
主观兴趣度度量基于用户对数据的信念。如果该度量是出乎意料的与用户的信念相矛盾或者提供用户可以采取行动的至关重要的信息则该度量发现模式是有趣的。后种情况下这样的模式称为可行动的actionable即证实了用户希望证实的假设或与用户的预感相似。
能否产生所有有趣的模式涉及数据挖掘算法的完全性。期望数据挖掘系统产生所有可能的模式是不现实的和低效的。实际上应当根据用户提供的约束和兴趣度度量对搜索聚焦。对于某些挖掘任务如关联而言通常能够确保算法的安全性。关联规则挖掘就是一个例子它使用约束和兴趣度度量可以确保挖掘的安全性。
能否仅产生有趣的模式是数据挖掘的优化问题。对于数据挖掘系统仅产生有趣的模式是非常期望的因为通过这样不需要搜遍所产生的模式来识别真正有趣的模式。
数据挖掘吸纳了诸如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用领域的大量技术。
统计学研究数据的收集、分析、解释和表示。统计模型是一组数学函数广泛用于对数据和数据类建模它们用随机变量及其概率分布刻画目标类对象的行为。
例如在像数据特征化和分类这样的数据挖掘任务中可以建立目标类的统计模型。换言之这种统计可以是数据挖掘任务的结果。反过来数据挖掘任务也可以建立在统计模型之上。例如我们可以使用统计模型对噪音和缺失的数据值建模。于是在大数据集中挖掘模式时数据挖掘过程可以使用该模型来帮助识别数据中的噪音和缺失值。
统计学研究开发一些使用数据和统计模型进行预测和预报的工具。统计学方法可以用来汇总或描述数据集。推理统计学或预测统计学用某种方式对数据建模解释观测中的随机性和确定性并用来提取关于所考察的过程或总体的结论。
统计学方法也可以验证数据挖掘结果。例如建立分类或预测模型之后应该使用统计假设检验来验证模型。统计假设检验有时称作证线;使用实验数据进行统计判决。如果结果不大可能随机出现则称它为统计显著的。如果分类或预测模型有效则该模型的描述统计量将增强模型的可能性。
在数据挖掘中使用统计学方法并不简单。通常一个巨大的挑战是如何把统计学方法用于大型数据集。许多统计学方法都具有很高的计算复杂度。当这些方法应用于分布在多个逻辑或物理站点上的大型数据集时应该小心地设计和调整算法以降低计算开销。对于联机应用而言如Web搜索引擎中的联机查询建议数据挖掘必须连续处理快速、实时的数据流这种挑战变得更加难以应对。
机器学习考察计算机如何 如何基于数据学习或提高它们的性能。主要研究领域是计算机程序基于数据自动地学习识别复杂的模式并做出智能的决断。例如一个典型的机器学习问题是为计算机编制程序使之从一组实例学习之后能够自动地识别邮件上的手写体邮政编码。
机器学习是一个快速成长的学科。这里我们介绍一些与数据挖掘高度相关的、经典的机器学习问题。
监督学习supervised learning 基本上是分类的同义词。学习中的监督来自训练数据集中标记的实例。例如邮政编码识别问题中一组手写邮政编码图像与其对应的机器可读的转换物用作训练实例监督分类模型的学习。
无监督学习unsupervised learing 本质上是聚类的同义词。学习过程是无监督的因为输入实例没有标记。典型的我们可以使用聚类发现数据中的类。例如一个无监督学习方法可以取一个手写数字图像集合作为输入。假设它找出了10个数据簇这些模型分别对应于 0~9 这10个不同的数字。然而由于训练数据并无标记因此学习到的模型并不能告诉我们所发生的簇的语义。
半监督学习semi_supervised learning 是一类机器学习技术在学习模型时它使用标记和未标记的实例在一种方法中标记的实例用来学习类模型而未标记的实例用来进一步改进类边界。对于两类问题我们可以把属于一个类的实例看做正实例而属于另一个类的实例为负实例。在下图中如果我们不考虑未标记的实例则虚线是分隔正实例和负实例的最佳决策边界。使用未标记的实例我们可以把该决策边界改进为实线c;我们能够检测出右上角的两个正实例可能是噪点或离群点尽管他们被标记了。
主动学习active learning 是一种机器学习方法它让用户在学习过程中扮演主动角色。主动学习方法可能要求用户例如领域专家对一个可能来自未标记的实例集或由学习程序合成的实例进行标记。给定可以要求标记的实例数量的约束目的是通过主动地进从用户获取知识来提高模型质量。
数据库系统研究关注为单位和最终用户创建、维护和使用数据库。特别是数据库系统研究者们已经建立数据建模、查询语言、查询处理与优化方法、数据存储以及索引和存取方法的公认规则。数据库系统因其在处理非常的、相对结构化的数据集方面的高度可伸缩性而闻名。
许多数据挖掘任务都需要处理大型数据集甚至是处理实时的快速流数据。因此数据挖掘可以很好地利用可伸缩的数据库技术以便获得在大型数据集上的高效率和可伸缩性。此外数据挖掘任务也可以用来扩充已有数据库系统的能力以便满足高端用户复杂的数据分析需求。
新的数据库系统使用数据仓库和数据挖掘机制已经在数据库的数据上建立了系统的数据分析能力。数据仓库集成来自多种数据源和各个时间段的数据。它在多维空间合并数据形成部分物化的数据立方体。数据立方体不仅有利于多维数据库的OLAP而且推动了多维数据挖掘。
信息检索IR是搜索文档或文档中信息的科学。文档可以是文本或多媒体并且可能驻留在Web上。传统的信息检索与数据库系统之间的差别有两点信息检索假定所搜索的数据是无结构的信息检索查询主要用关键词没有复杂的结构不同于数据库系统中的SQL查询。
信息检索的典型方法采用概率模型。例如文本文档可以看做词的包即出现在文档中的词的多重集。文档的语言模型是生成文档中词的包概率密度函数。两个文档之间的相似度可以用对应的语言模型之间的相似性度量。
此外一个文本文档集的主题可以用词汇表上的概率分布概率称作主题模型。一个文本文档可以设计多个主题可以看做多主题混合模型。通过集成信息检索名和数据挖掘技术我们可以找出文档集中的主要主题对集合中的每个文档找出所涉及主要主题。
由于Web和诸如数字图书馆、数字政府、卫生保健系统等应用的快速增长大量文本和多媒体数据日益累积并且可以联机获得。他们的有效搜索和分析对数据挖掘提出了许多挑战性问题。因此文本挖掘和多媒体与信息检索方法集成已经变得日益重要。
数据挖掘扮演关键角色的应用很多例如知识密集应用领域中的生物信息学和软件工程数据挖掘更需要深入处理。下面简略讨论两个数据挖掘非常成功和流行的应用例子商务智能和搜索引擎。
对于商户而言较好地理解它的诸如顾客、市场、供应和资源以及竞争对手等商务背景是至关重要的。商务智能BI技术提供商务运作的历史、现状和预测视图例子包括报告、联机分析处理、商务业绩管理、竞争情报、标杆管理和预测分析。
“商务智能有多么重要”没有数据挖掘许多工商企业都不能进行有效的市场分析比较类似产品的顾客反馈发现其竞争对手的优势和缺点留住具有高价值的顾客做出聪明的商务决策。
显然数据挖掘是商务智能的核心。商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。分类和预测技术是商务智能预测分析的核心在分析市场、供应和销售方面存在需多应用。此外在客户关系管理方面聚类起主要作用它根据顾客的相似性把顾客分组。使用特征挖掘技术可以更好地理解每组顾客的特征并开发定制的顾客奖励计划。
Web搜索引擎是一种专门的计算机服务器在Web上搜索信息。通常用户查询的搜索结果用一张表返给用户有时称作采样——hit。采样可以包含网页、图像和其他类型的文件。有些搜索引擎也搜索和返回公共数据库中的数据或开放的目录。搜索引擎不同于网络目录因为网络目录是人工编辑管理的而搜索引擎是按算法运行的或者是算法和人工输入的混合。
Web搜索引擎本质上是大型数据挖掘应用。搜索引擎全方位地使用各种数据挖掘技术包括爬虫crawler、索引和搜索例如确定如何排列各个页面、加载何总广告、如何把搜索结果个性化或使之“环境敏感”。
搜索引擎对数据挖掘提出了巨大挑战。首先它们必须处理大量并且不断增加的数据。通常这种数据不可能使用一台或几台机器处理。搜索引擎需要使用数以千计乃至数以万计的计算机组成的计算机云协同挖掘海量数据。把数据挖掘方法升级到计算机云和大型分布数据集上是一个需要进一步研究的领域。
其次Web搜索引擎通常需要处理在线数据。搜索引擎也许可以在海量数据集上离线构建模型。为了做到这一点它可以构建一个查询分类器基于查询主题例如搜索查询“apple”是指检索关于水果的信息还是关于计算机品牌的信息把搜索查询指派到预先定义的类别。无论模型是否是离线c;模型的在线应用都必须足够快以便回答实时用户查询。
第三Web搜索引擎常常需要处理出次数不多的查询。假设搜索引擎想要提供环境敏感的推荐。也就是说当用户提交一个查询时搜索引擎视图使用用户的简况和他的查询历史推断查询的环境但是大部分查询都只是提问一次或几次。对于数据挖掘和机器学习方面而言这种严重倾斜的数据都是一个挑战。
又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓
是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。 它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如
第三版课后习题的答案,部分参考了第二版的英文答案,由于个人水平有限,如若存在纰漏,请在评论区批评指正。另外,由于本次编辑格式较乱,可在资源下载区下载PDF版本以便参考。 第
挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:大数据DT
进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。
个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在
迭代序列的是( C ) A、数据清理 B、数据集成 C、数据删除 D、数据变换 属性(attribute)是
个特征。下面不属于典型的属性分类的是( D ) A、标称属性(nominal) B、二元属性(binary) C、序数属性(ordinal) D、单值属性(Single-Valued) 注释:类型: 标称属性(nominal) 二元属性(binary) 序数属性(ordinal) 数值属性(numeric) 区间标度属性(i
个优秀的数据分析师不仅要掌握基本的统计、数据库、数据分析方法、思维、数据分析工具和技能,还要掌握
主要分为三类:分类算法、聚类算法和相关规则,基本涵盖了当前商业市场对算法的所有需求。这三类包含了许多经典算法。市面上很多关于
种用于长期存储数据的仓库,这些数据来自多个数据源,是经过组织的、以便支持管理决策。这些数据在
些数据分析能力,称作联机分析处理。 数据库:传统关系型数据库的主要应用。 2
起源 人们迫切希望能对海量数据进行深入分析,发现并提取隐藏在其中的信息,以更好地利用这些数据。但仅以数据库系统的录入、查询、统计等功能,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,更缺乏挖掘数据背后隐藏知识的手段。正是在这样的条件下,
同样需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的
关系型数据库 在记录级提供历史性的、动态的数据信息 数据仓库;决策树支持
数据分析处理,多维数据库、数据仓库 在各种层次上提供回溯的、动态的...
1中心趋势度量:均值(mean)、中位数、众数 截尾均值:丢掉高低极端值后的均值 加权算术均值
: 中位数(median)是有序数据的中间值,对于非对称数据是数据中心更好的度量。 用插值法计算中位数的近似值:median=其中是中位数区间的下界,N是整个数据集中值的个数,是低于中位数区间的所有区间的频率和,是中位数区间的频率,而width是中位数区间的宽度。 众数
英语:Knowledge-Discovery in Databases,简称:KDD)中的
计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统
和模式识别等诸多方法来实现上述目标。 在人工智能领域,习惯上又称为数据库中的知识
点理解。由于实践经验太少,水平有限,希望大神指正。 1. 数据集选取或构造根据任务的目的,选择数据集。或者从实际中构造自己需要的数据。2. 数据预处理确定数据集后,就开始对数据进行预处理使得数据能够为我们所用了。数据预处理提高数据质量:准确性、完整性和
包括关联分析、序列分析、分类、预测、聚类分析及时间序列分析等。 1.关联分析 关联分析主要用于发现不同事件之间的关联性,即
个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合
定的统计意义。 对于结构化的数据,以客户的购买习惯数据为例,利用关联分析,可以发现客户的关联购买需要。例如,
个开设储蓄账户的客户很可能同时进行债券交易和股票交易,购买纸尿裤的男顾客经常同时购买啤酒等。利用这种知识可以采取积极
英语:Knowledge-Discovery in Databases,简称:KDD)中的
计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统
Alex Ruan:感谢传播知识,好多机器学习之前没懂透的概念,在这里有了解答