欧宝平台登录:数据标注:给人工智能当“老师”

发布时间: 2022-09-21 22:13:44 来源:欧宝体育直播nba 作者:欧宝体育手机版app直播

  “每当有人问起我的职业,我回答是数据标注师的时候,对方的脸上总是写满了问号。”李宇龙说。

  李宇龙在百度(山西)人工智能基础数据产业基地(简称“百度基地”)从事数据标注工作已经5年了。他说,自己和许多同事目前最大的心愿就是,希望有一天大家提起数据标注师就像提起教师、医生一样熟悉,期待有越来越多的人了解这个行业。

  省工信厅不久前印发的《山西省“十四五”大数据发展应用规划》中明确提出:我省将加快发展数据资源共享、人工智能算法模型研发、训练测试验证、产品服务应用等数据标注服务链条,推动“机器+人工”标注、机器智能标注等能力升级,打造完整的数据标注服务体系。李宇龙的心愿,有望在短期内实现。

  什么是数据标注?简单来说,就是通过对数据贴标签、做记号、标颜色或划重点的方式,标注出其中目标数据的不同点、相似点或类别,以此达到让机器学习的功能。“数据标注是传统制造升级为智能制造、信息计算升级为人工智能的必要环节,其质量直接决定着机器智能化的程度,是它们让机器成为‘天才’。”省工信厅大数据办相关人士的解释很专业。

  鲜为人知的是,人工智能是需要被人为教导训练而成。人工智能所需要的教导,背后是经过大量的学习训练而成。机器并不能理解原始数据,这些原始数据需要人为的“标签化”,通过标注赋予这些数据能够被机器所识别的特性,才可以被用于训练。正是依据这些大量而有效的数据总结规律,机器和人工智能才能最终形成自己的工作模式,变得越来越“聪明”。

  正因如此,人工智能行业有句话:有多少智能,背后就有多少人工。2020年2月,“人工智能训练师”正式成为新职业并纳入国家职业分类目录。他们的工作是教会AI认识数据,有了足够多、足够好的数据,AI才能学会像人一样去感知、思考和决策,更好地为人类服务。

  李宇龙虽然从未见过自动驾驶汽车,但他最近正在做的工作却与自动驾驶技术的AI算法息息相关。“你看,把汽车框起来,都打成白色的点,就代表这是一个障碍物。”随着李宇龙鼠标的快速滑动,屏幕上的点云图不断翻转,一个个针尖大的数据点被标注在图中不同物体上——蓝色是路面、绿色是绿植、红色是路沿、白色是障碍物。事实上,自动驾驶汽车眼中的世界就是一幅幅不断变幻的点云图。数据标注师要做的就是对照摄像头拍摄的照片,赋予这些点云图以准确的含义。

  记者采访中了解到,现在数据标注的内容已经从图片拓展到语音,数据集中除了自动驾驶,还有医疗CT、人脸等,语音数据除了有普通话、各地方言外还有外语,这些数据集涵盖的范围越来越广,使得行业对数据标注师的要求也越来越高。

  众所周知,数据服务领域与人工智能的发展息息相关。通过每天数千次的重复动作,数据标注这项工作便和无人驾驶、人脸支付、智能家居、智慧医疗等前沿科技产生了紧密的联系。

  记者了解到,目前,数据标注的技术门槛并不高,只要能熟练操作电脑,经过一定的培训就能上岗,招工人群较为广泛。以百度基地为例,现在这里有2300多名数据标注师,今后5年预计将为5万名数据标注师提供就业岗位。

  “这是个高速发展的行业,5年培养5万人并不算多,我们的线万人,目前每个月在线上为我们提供服务的将近5万人。如果按照行业增长速度来看的线万人还不一定够。”百度基地负责人介绍。

  对于如何保障数据安全,这位负责人表示:“这也是百度要专门建设这个基地的原因。在基地,每个房间都有24小时视频监控,上岗之前进行人脸打卡、数据加密,作业期间若涉及数据敏感项目,会要求数据标注师们将手机放在固定的地方,而线上的数据标注师则是处理一些敏感性不高的数据。”

  记者了解到,目前山西转型综合改革示范区已建成全国知名的单体数据标注基地,入驻企业35家,标注人员2000余人,产值规模和从业人员全国领先。

  据艾瑞统计预测,2020年我国AI基础数据服务市场规模为37亿元,到2025年相应规模可达107亿元,整体增速呈现稳步提升的趋势,图像、语音类内容也继续在向新兴场景开拓,数据标注需求量将呈井喷式增长。

  站在互联网风口之上,我省已紧紧把握住了“大数据”“云平台”等发展机遇。数据标注产业则是我省进一步利用已有制造业基础和大数据资源,发展智能制造和人工智能应用的关键一步,是推动我省经济高质量转型发展的新机遇。事实上,我省近年来持续聚焦、主动作为,正在稳步推进我省数据标注产业建设发展。

  一个事实是,我省发展数据标注产业优势明显:在人力资源优势方面,具有相对充沛的人力资源,同时我省大数据学院专业培养体系完备,人才素质较高;在资源优势方面,根据2018年8月国家发改委出台的《关于支持山西省与京津冀地区加强协作实现联动发展的意见》,京津冀作为全国电子信息产业发展高地,将为山西发展数据标注产业乃至整个人工智能产业带来人才、资金、技术等全方位的外部优质资源;在产业基础优势方面,我省已与人工智能龙头企业百度公司深入合作,数据标注产业集聚地建设项目顺利展开,以山西同方知网为代表的本地数据标注企业也已初具规模。

  省委、省政府为了支持数据标注产业的发展,近年来陆续发布了《山西省数据标注产业发展规划(2019-2025年)》《山西省加快数据标注产业发展的实施意见》《山西人工智能基础数据产业专项资金管理办法》等,为入驻山西综改示范区的数据标注企业提供了一系列的扶持配套政策。

  如今,通过大力引进龙头企业、推进重大项目建设、加强专项资金支持等一系列举措,三晋大地集数据采集、存储、标注、服务等于一体的大数据融合创新产业持续壮大,信息技术应用创新产业加速成长,新兴数字平台不断涌现。

  “《山西省加快数据标注产业发展的实施意见》提出,到2025年,基础数据服务体系基本完善,人工智能基础数据开放平台影响力大幅提升,山西将成为全国领先的基础数据产业聚集地,数据标注产业年产值达到50亿元,基础数据服务年产值达到150亿元,带动人工智能相关产业年产值达到500亿元。”省工信厅大数据办相关负责人表示。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

上一篇:永洪科技入选《2022爱分析 · 数据智能厂商全景报告
下一篇:五个进程让你成为数据剖析高手

相关信息

  • 欧宝体育手机版app直播:五个进程让你成为数据剖析高手

    欧宝体育手机版app直播:五个进程让你成为数据剖析高手

    运营人的作业中,有不少需要对产品数据、活动数据进行搜集剖析,并从数据中发现问题点,做出优化战略的部分。那么本文先将眼光集合到数据剖析上,聊聊怎么做运营数据剖析。 经过拆解和剖析,清晰运营方针,厘清运营动作,并终究将整理成果表现在报表中的进程。 详细比如,在推行活动中有个返券的活动,从数据上看,收入因而活动提升了0.5%,那么问题来了?怎么样做到的?能不能复制到其他活动?是否可以构成惯例? 由于要了解全貌。经过报表中的日常数据,了解运营作业的全貌。1)看到正常事务的工作状况;2)定位反常,发现问题。 了解报表的组成后,还需要看懂运营报表中的方针,才干线. 怎么做好方针监控? 内容产值别离:A类内容产值、B类内容产值、C类内容产值、D类内容产值…… 内容产值:1级账号内容产值、2级账号内容产值、3级账号内容产值、4级账号内容产值…… ②怎么验证?进一步深化发掘改变反常的原因,排查寻觅新增账号反常增加的原因: 相较于产品功用的更新迭代或许运营行为,运营动作更多环绕着用户打开。所以针对运营所做的数据支撑,也首要
  • 欧宝体育手机版app直播:数据发掘的剖析办法能够分为两类你们知道是哪两类吗?

    欧宝体育手机版app直播:数据发掘的剖析办法能够分为两类你们知道是哪两类吗?

    数据发掘(data mining),便是从存放在数据库、数据仓库或其他信息库中的很多的数据中获取有用的、新颖的、潜在有用的、终究可了解的形式的非普通进程。 在人工智能范畴,习惯上又称为数据库中的常识发现(knowledge discovery in database,KDD),也有人把数据发掘视为数据库中常识发现进程的一个根本进程。常识发现进程由以下三个阶段组成:①数据预备;②数据发掘;③成果表达和解说。数据发掘能够与用户或常识库交互。 并非一切的信息发现使命都被视为数据发掘。例如,运用数据库办理体系查找单个的记载,或经过互联网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)范畴的使命。尽管这些使命是重要的,或许触及运用杂乱的算法和数据结构,可是它们首要依靠传统的计算机科学技能和数据的显着特征来创立索引结构,然后有用地安排和检索信息。尽管如此,数据发掘技能也现已用来增强信息检索体系的才能。 (1)直接数据发掘:方针是使用可用的数据树立一个模型,这个模型对剩下的数据,即一个特定的变量(能够了解成数据库表的特点,即
  • 欧宝体育手机版app直播:白剑波:文本大数据发掘使用剖析

    欧宝体育手机版app直播:白剑波:文本大数据发掘使用剖析

    大数据是一个事关我国经济社会开展大局的战略性工业,大数据技能为社会经济活动供给决议计划根据,进步各个范畴的运转功率,提高整个社会经济的集约化程度,关于我国经济开展转型具有重要的推进效果!2016年,由我国首席数据官联盟与网加年代网建议并承办,北京大学信息化与信息管理研讨中心、我国新一代IT工业推进联盟、数邦客协办的“影响我国大数据工业进程100人”大型人物专访活动全面发动,被采访目标别离来自政府、产、学、研、企各个范畴,他们将从不同视点,不同层面向咱们论述当时大数据工业抢手、难点、疑点问题,为我国大数据工业健康、继续开展探究经历、保驾护航,敬请重视! 我国首席数据官联盟专家组成员,北京才智星光信息技能有限公司总裁。北航计算机专业硕士。从前担任翰云年代科技有限公司总裁,NOKIA方位服务部门大我国区产品总监,甲骨文参谋咨询服务部我国区施行总监,Sun公司ISV工程部高档司理,北航教师。 本期特邀嘉宾我国首席数据官联盟建议人刘冬冬,就文本大数据使用与白剑波先生进行深入探讨。 刘冬冬:白总,今日谈文本大数据,还请您先给咱们介绍一下文本大数据发掘的基本状况,好
  • 欧宝体育手机版app直播:数据发掘分为哪两大类?

    欧宝体育手机版app直播:数据发掘分为哪两大类?

    1)依据发掘的数据库类型分类:数据发掘体系可以依据发掘的数据库类型分类。数据库体系自身可以依据不同的规范(如数据模型、数据类型或所触及的使用)分类,每一类或许需求自己的数据发掘技能。这样,数据发掘体系就可以相应分类。 例如,依据数据模型分类,可以有联系的、业务的、目标-联系的或数据仓库的发掘体系。假如依据所处理数据的特定类型分类,可以有空间的、时刻序列的、文本的、流数据的、多媒体的数据发掘体系,或万维网发掘体系。 2)依据发掘的常识类型分类:数据发掘体系可以依据所发掘的常识类型分类,即依据数据发掘的功用分类,如特征化、区别、相关和相关剖析、分类、猜测、聚类、离群点剖析和演化剖析。一个归纳的数据发掘体系一般供给多种和/或集成的数据发掘功用。 此外,数据发掘体系还可以依据所发掘的常识的粒度或笼统层进行区别,包含广义常识(高笼统层)、原始层常识(原始数据层)或多层常识(考虑若干笼统层)。一个高档数据发掘体系应当支撑多笼统层的常识发现。数据发掘体系还可以分类为发掘数据的规则性(一般呈现的形式)与发掘数据的奇异性(如反常或离群点)。一般地,概念描绘、相关和相关剖

手机扫一扫添加微信