欧宝平台登录:斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI数据的设计、完善、评估是关键

发布时间: 2022-09-16 19:56:45 来源:欧宝体育直播nba 作者:欧宝体育手机版app直播

  确定了一个人工智能应用程序后,开发 AI 模型第一步就是设计数据(即识别和记录数据来源)。 设计应当是一个迭代过程——用试验数据来开发初始的 AI 模型,然后再收集额外数据来修补模型的局限性。设计的关键标准是确保数据适用于任务,并覆盖足够的范围来代表模型可能遇到的不同用户和场景。 而目前用于开发 AI 的数据集通常覆盖范围有限或者具有偏差。例如在医疗 AI 中,用于开发算法的患者数据的收集在地区分布上不成比例,这会限制 AI 模型对不同人群的适用性。 提高数据覆盖率的一种方法,是让更广泛的社区参与数据的创建。目前最大的公共数据集 Common Voice 项目就是一个例证,该数据集包含了来自 166000 多名参与者的 76 种语言的 11192 小时语音转录。 而当代表性数据难以获得时,可以用 合成数据 来填补覆盖空白。比如真实人脸的收集通常涉及隐私问题和抽样偏差,而由深度生成模型创建的合成人脸现在已经被用于减轻数据不平衡和偏差。在医疗保健领域,可以共享合成医疗记录来促进知识发现,而无需披露实际的患者信息。在机器人技术中,真实世界的挑战是终极的测试平台,也可以用高保真模拟环境来让智能体在复杂和长期任务中实现更快、更安全的学习。 但合成数据也存在一些问题。合成数据与现实数据之间总是存在差距,所以在将基于合成数据训练的 AI 模型转移到现实世界时,通常会出现性能下降。如果模拟器的设计不考虑少数群体,那么合成数据也会加剧数据差异,而 AI 模型的性能高度依赖其训练和评估数据的上下文,因此在标准化和透明的报告中记录数据设计地上下文就非常重要。 现在,研究人员已经创建了各种 「数据营养标签」(data nutrition labels)来捕获有关数据设计和注释过程的元数据(metadata)。 有用的元数据包括数据集中参与者的性别、性别、种族和地理位置的统计数据,这有助于发现是否有代表性不足的亚群未被覆盖。数据来源也是一种元数据,它跟踪数据的来源和时间以及产生数据的过程和方法。 元数据可以保存在一个专门的数据设计文档里,数据文档对于观察数据的生命周期和社会技术背景来说非常重要。文档可以上传到稳定且集中的数据存储库(例如 Zenodo)中。

上一篇:湖仓一体:面向数智时代数据治理需求的未来技术架构
下一篇:21-23日数据统计 除了天主 任何人都必须用数据说话

相关信息

  • 欧宝体育手机版app直播:21-23日数据统计 除了天主 任何人都必须用数据说话

    欧宝体育手机版app直播:21-23日数据统计 除了天主 任何人都必须用数据说话

    这是个缺少信赖的年代,我们惧怕被使用,被诈骗,被损伤,为了不受伤,所以人们学会了假装,形似强大,形似傲慢,形似不羁,这样做或许可以对自己祈求必定的维护效果,但一起也把自己和其他人间隔摆开。假如人与人之前,言语不在值得你信赖,那你信赖的又将是什么?这个缺少信赖的年代又是一个数据爆破的年代,数据的效果被无限扩大。美国办理学家、统计学家爱德华·戴明有一句名言:除了天主,任何人都必须用数据说话。或许长时间的数据可以让你去尝试着信任某个人或许某件事。 9月22日清晨,比特币给出12880挂单空单,止盈于12780,获利4516U 9月22日早间,比特币给出12850挂单空单,止盈于12750,获利6583U 9月22日午间,以太坊给出399挂单空单,手动出局于396,获利175U 9月22日午间,比特币给出12920空单,手动出局于12813.5,获利4808U 9月23日清晨,比特币给出13059空单,手动出局于12963,获利4812U。 声明:本文由入驻金色财经的作者编撰,观念仅代表作者自己,绝不代表金色财经附和其观念或证明其
  • 欧宝体育手机版app直播:2020年我国展览数据计算陈述 附全文

    欧宝体育手机版app直播:2020年我国展览数据计算陈述 附全文

    2021年我国会议经济研究会年会暨我国会议经济(天津)论坛于2021年6月21-24日在新近完工的国家会议中心(天津)举行,论坛发布了《2020年度我国展览数据计算陈述》,招引来自国内会议界500余人参与。 陈述共分10个部分,分别是:我国境内展览;我国境外参办展;展览场馆计算;展览业政府部门、民间社团、研究机构计算;IAEE我国会员、UFI我国会员及我国展会认证状况;上市展览公司;会议专业教育计算;展览项目;线上展计算;我国城市展览业开展归纳指数。 声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。
  • 欧宝体育手机版app直播:一些令人惊奇的数据中心统计数据

    欧宝体育手机版app直播:一些令人惊奇的数据中心统计数据

    是弱电职业的重中之重,可是咱们许多公司都只能碰触比较小的弱电机房项目,那么2022年 现实上,跟着越来越多的用户和企业转向数字范畴,对有用信息处理的需求也在添加。数据中心充任通信网络连接器,因而最终用户即便在长途作业时也能够快速拜访信息。 在长途作业环境不断开展并成为干流的时分,数据中心比以往任何时分都愈加重要。可是,数据中心的含义远不止这些,它们是数字化转型运动的中心。 现在,线上产生的一切都存在于数据中心中,使其成为现代社会和经济中不可或缺的技能。 假如你需求用一个词来归纳上述统计数据,那便是添加。现在,数据中心的添加没有放缓的痕迹。相反,对更多数字数据拜访、处理和存储的需求正在不断上升。 能够了解,长途作业趋势和通晓技能的社会的结合意味着数据中心商场规模的永久添加。 现实证明,数据中心开展面对的最严重应战之一是该职业怎样学会办理其能源耗费。 与 2021 年比较,数据中心体系的整体开销添加了4.7% 。未来开销或许会持续呈指数添加。为了满意新的需求,IBM 和亚马逊等超大规模供给商有必要开发牢靠且灵敏的数据
  • 欧宝体育手机版app直播:零售职业数据计算

    欧宝体育手机版app直播:零售职业数据计算

    零售指包含一切向顾客直接出售产品和服务,职业以出售成绩为导向。全球零售业全体昌盛热烈,商场规模在2019年时到达了115亿美元,2020年估计到达338亿美元,以下是零售职业数据计算剖析。 零售职业归于较为传统的职业,零售职业剖析指出,在商业业态随同居民收入水平的进步、城镇化率进步和消费晋级不断演进下,全球经济兴旺的欧美、日本等国家的零售职业开展较快,大型零售企业对中心城区的覆盖率处于较高水平。一起,我国的零售商场迎来了更多的或许。 依据零售职业数据计算,2009~2015年,我国电子商务快速开展,网购逐步成为我国顾客日常日子的新常态。这一阶段,跟着互联网的遍及、移动付出的开展以及人们认识的转型,以阿里巴巴为代表的电商捉住流量盈利,改变了顾客的购物习气,重塑了我国的零售业格式。 2016~2018年,我国零售商加速了扩张脚步。跟着国家群众创业、万众立异有序推动,“互联网+”行动计划深化施行,零售职业持续扩张,运营单位数量增速加速。2018年我国零售业运营单位达2078万个,同比增加%。 截止2019年末,我国零售额达90065亿元,比上年增加

手机扫一扫添加微信