一文中提醒了现在国内数据发掘职业的四种怪现象,并质疑数据发掘关于国内企业的真实价值。ITPUB网友 DMmanDMman对此打开更深层次的分析并形成了本文。咱们欢迎这样的声响,咱们等待更多网友的互动!
【IT168 专稿】正如一切遭到常用注视的新式技能相同,数据发掘的运用也是极端多样化的。夸大其词的报道宣称能够树立算法,在数据的海洋里发现隐秘。但现实上机器学习中没有戏法,没有躲藏的力气,没有炼金术。有的仅仅一些能够将有用的信息从原始数据中提炼出来的明晰明晰的有用技能。 ——摘自《数据发掘:有用机器学习技能》前语
评论数据发掘是“大忽悠”仍是“懵懂少年”,实质上便是指数据发掘“要不要”和“行不行”的问题。认为数据发掘是“大忽悠”的人,是因为他们没有认识到数据发掘的价值,才认为数据发掘是没有必要的;认为数据发掘是“懵懂少年”的人,是因为他们没有学会正确运用数据发掘,才认为数据发掘的成果是没有价值、不老练的。现实真的如他们所说吗?
自然法则的原则是生计即有含义,需求推进开展。数据发掘近年来在研讨和使用中的日新月异,绝非若干人心血来潮的成果。笔者认为数据发掘虽不是企业的“救世主”,但也绝非“大忽悠”。数据发掘在国内开展不尽善尽美,要害仍是在于施行者和使用者对这一技能的了解和掌控才能有限。
数据发掘在“大企业成功事例少,中小企业需求小”,这种状况确实存在。之所以呈现如此的境况,原因是多方面的:企业面临着妨碍,软件存在着缺点,要害仍是短少人才,特别是复合式人才、懂数据发掘的人才。笔者认为,软件自身的缺点是非必须的。软件尽管不完美,但在某些方面现已趋于老练,使用者不能通过运用它取得价值,要害仍是自己有问题。
数据发掘有三个过程:预备——输入数据收集和收拾;完成——计算建模和数据分析;可信度——输出成果的点评和收拾。从现在的施行状况来看,大部分施行人员都把精力和注意力放在第二个阶段(其实这个阶段的作业中,机器是主体,人是辅佐体),而没有注重繁琐无味而又至关重要的输入预备中,笔者认为,这很可能便是许多大企业施行失利的原因地点。
正如《数据发掘:炒着热吃着冷》一文中所说的:“即便在大型企业,因为数据收集起步遍及比较晚,数据可得性和齐备性都不高。许多职业的出产、财政、出售等敏感数据,因为用户的选择性输入或漏输、错输,难认为数据发掘东西所用。数据是数据发掘使用的根据,数据发掘前期简直80%的作业都是在预备数据,把数据整合、抽取、清洗、转化、装载。假如给出的开始数据质量不高,模型再好,最终做出的猜测也难如人意。”原本数据质量就不高,再不能妥善合理的转化收拾,发掘的成果可想而知。试想:吃的米饭里不除尽沙子,形成消化系统的作业不良,何能先去质疑胃的功用呢?