没人置疑数据质量是一个企业商业智能的根底,可是除了质量之外怎么办理数据,特别是怎么办理海量数据给每一个企业提出了难题。
所谓的“Big Data”是由IBM和Gartner剖析师提出的概念,咱们比较时尚的称其为大数据,依据Yahoo公司上一任首席数据官兼副总裁Usama Fayyad的说法,处理大数据可以测验一个企业的传统数据仓库才能,如ETL等。
Fayyad曾被视为数据发掘范畴的No.1,他讲演大多是来自于亲身经历,他向咱们解说了为什么说剖析是大数据未来的发展方向。
早在上世纪90年代,Fayyad上任于NASA的喷气推动实验室。来自于Palomar地理台的科学家共办理者3个TB的数据,他们经过各种相片以及公式来企图区别银河系中的各种行星。而每张相片中都将抽取出40多个不同的变量,这使得准确猜测成为不可能完结的使命。
Fayyad和他的团队使用了决策树算法作为数据发掘的根底,来确认这40多个变量对不同分级的效果,他们终究找到了8个变量的调集,正是这8个变量困扰了地理学家将近30年。
“这在地理观测范畴是一件颤动的发现,而树立的数据模型可以将准确率提升到94%。” Fayyad说。
但并不熟一切的剖析技能都像地理观测这样杂乱,有些时分很小的元素乃至是很显着的元素都是十分重要的。
Fayyad和他的团队在2003年景立了DMX公司,专心于数据发掘范畴,并在2004年被互联网公司Yahoo收买。之后,Fayyad又协助戴姆勒克莱斯勒公司进行微商场出售猜测作业,除了树立一些数据集市之外,他还在报表出现上做了一些作业。Fayyad向咱们介绍,当报表以不同的方法出现出来之后,成果变得十分显着,但是这儿面的数据时没有改变的,都是他们之前的数据。