当 IT 行业改变整个世界的时候,DevOps 理念从大量产业实践中诞生。
如今 AI 也进入产业化新时代,继承者MLOps或者叫AI 工程化也越发火热。
Gartner 咨询公司将 AI 工程化列为 2022 年十二大战略性技术趋势,IDC 则预测到 2024 年 60% 的企业将 MLOps 用于机器学习工作流。
这一波浪潮之中,算法的工程化一如既往的跑在前面,模型的自动部署、持续训练甚至 AutoML 都有较大进展。
对此,一直呼吁建设 以数据为中心 AI 的吴恩达,今年初在接受 IEEE Spectrum 采访时也喊出新的口号:
吴恩达认为,对于数据中存在的噪声,通常做法是只要量足够大就可以让算法对其做平均处理。
但这样做不仅限制了算法的能力,有些场景如工业质检、罕见病等更是根本凑不出一个大型数据集,精心标注的高质量数据就成了关键。
src=实际上,除了碎片场景之外,如何高效构建高质量数据集也是全行业共同面对的问题。
云测数据,一家以 将数据标注的最高准确率提升到 99.99% 而闻名的 AI 数据服务公司,率先推出「面向 AI 工程化的新一代数据解决方案」。
方案不仅包括标注数据、管理数据所需的平台工具,还涉及管理体系以及数据安全,总共三个方面。
平台工具方面,除了基础的标注工具、API 集成能力,还有数据流转产线工作台和数据产能管理体系。
数据安全方面,则从硬件安全、网络安全、物理安全和人员安全管理 4 个角度提供保障。
src=为什么是这三个方面?云测数据总经理贾宇航从 AI 工程化时代的不同特征进行了分析。
在算法预研期只需要基础数据集就能满足需求,针对实际业务场景的算法研发期则需要数据采集、清洗、标注等一系列定制化服务。
生产环境的回流数据需要持续标注用于迭代,使算法越用越智能;标注数据需要流转至仿真平台用于算法评测,提高重复利用价值;自动化流程中又需要辅以人工检查纠正,降本增效。
云测数据新一代解决方案中基于这些需求打造了数据处理工作台,支持持续任务处理、人机协作,同时以标准 API 接口与各类系统对接,将 AI 数据训练过程中的综合效率提升 200%。
src=算法落地到实际场景中,而高质量的场景数据需要标注人员有领域专业知识。
举例来说,前一阵谷歌的文本情感数据集 GoEmotion 就被一位机器学习工程师 Edwin Chen 指出有 30% 标注错误,他分析问题出在谷歌请的印度员工不了解美国本土互联网文化。
对此,云测数据推出数据服务体系。其中人员管理体系涵盖招聘、业务培训,以及自动驾驶、智慧金融、AIOT 等重点行业的领域知识培训。项目管理体系则以标准化的流程把控数据质量,将数据标注最高精度提升至 99.99%。
云测数据推出安全交付体系,全方位保障数据安全和风险治理,同时满足 ISO27001 和 ISO27701 标准。
云测数据是 AI 数据服务领域的领先者,凭借在产品、服务、技术研发等方面的综合实践,已连续三年被评为行业第一,具备丰富的研发及产业化服务经验。
src=技术能力方面,去年云测数据先后发布云测数据标注平台、AI 数据集管理系统等技术成果,率先形成 AI 训练数据的 采、标、管、存 一站式服务,实现从 数据原料 到最后的 数据成品 全链条打通,输出完整的数据价值,其中更是将数据标注的最高准确率提升到了 99.99%。
又经过一年的打磨完善后,云测数据标注平台 & 数据集管理系统在工具丰富性与易用性得到升级,并且与各种类型企业系统对接的能力得到增强,整合到最新解决方案里。
src=行业经验方面,云测数据提供多维度、场景化的数据服务与策略,多年来服务于汽车、安防、手机、家居、金融、教育、新零售、地产等行业,满足 AI 应用在数据质量、数据丰富度、数据时效性等方面的需求。
另外正如 MLOps 继承自软件行业的 DevOps,Testin 云测结合自身优势,将软件测试业务上 10 多年 ToB 服务经验也迁移沉淀至云测数据的 AI 数据服务中,提质增效的作用十分显著。
到如今,随着智能化转型的逐渐深入,云测数据的服务对象已扩展至各行各业,正是在大量实践与不断探索中,AI 数据服务所需的方方面面被云测数据掌握、整合,最终沉淀成新一代数据解决方案集中发布亮相。
而随着新一代数据解决方案的发布及云测数据背后更多动作布局,给 AI 数据服务行业本身也带来一些改变。
以自动驾驶行业为例,首先是一站式解决自动驾驶领域多场景的数据采集的需求,包括智能驾驶主流应用场景。通过云测数据的 DMS 与 ADAS 场景搭建采集能力,来减少数据采集周期、提升数据质量。
接下来,通过数据标注平台来解决包括 2D 标注、3D 点云标注、2D/3D 融合标注、语义分割、目标跟踪等等数据标注需求,同时标注 & 管理平台支持与企业完成训练、仿真等系统集成。
数据不必再按批次来回传输,实时处理的同时节省大量时间和成本。数据不出企业内网就能完成流转,同时也支持专业标注员驻场作业,在保证数据安全的基础上,有效降低信息传递损耗,同时兼顾标注作业效率和质量的提升。
src=据贾宇航透露,以某自动驾驶相关企业为例,原来要花一周时间的 AI 数据工作,对接新一代数据解决方案后效能至少提升 2 倍以上。
凭借这样的能力,云测数据与行业内包括自主、合资车企,大型 Tier1、Tier2,以及无人出租车等众多自动驾驶企业建立了持久良好的合作关系。
src=效率的提升同样体现在零售货检行业,通过云测数据标注平台将货柜检测数据持续回流,基于算法预标注结果进行可视化审查并修改,与纯人工标注效率提升 3 倍。
而在金融领域,通过云测数据标注平台及集成算法 API 可进行金融票据标注,通过离岸的安全房进行标注,在保证质量和效率的基础上确保数据隐私安全。
另外还有建筑行业也可以通过云测数据标注平台对生成建筑 CAD 图纸进行审查校验。
云测数据深度合作伙伴覆盖了汽车、手机、工业、家居、金融、安防、教育、新零售、地产、生态系统等行业。这其中包含众多世界 500 强企业、高校科研机构、政府机构,头部 AI 企业和大型互联网企业覆盖率超 90% ,涵盖了计算机视觉、语音识别、自然语言处理、知识图谱等 AI 主流技术领域。
比如作为人工智能数据服务领域代表厂商,参与信通院牵头的全球首个 MLOps 模型开发管理标准,以数据标准化助推 AI 落地。
最新能透露的一条进展是, 云测数据正与云服务厂商合作,探讨延展数据服务的边界。