欧宝平台登录:AI 这门“玄学”为何要从数据平台修起?

发布时间: 2022-10-11 14:52:02 来源:欧宝体育直播nba 作者:欧宝体育手机版app直播

  首先,模型走向大型化和复杂化,带来了极大的数据量和数据处理需求。以 OpenAI 的 GPT 模型为例,2020 年的 GPT-3 模型参数达到 1750 亿个,预训练数据量高达 45TB,并且目前市场上诸多模型无论是规模、数据量、训练层数均是屡创新高,对于数据存储的需求也是肉眼可见地增加。

  从数据类型、数据处理流程和效率来看,由传统存储架构组成的数据平台的确是有着天然的各种 缺陷 。比如,在很多用户的实际环境中,依然是采用不同接口来接入到不同存储系统之中,很难在一个数据平台上满足不同数据类型对于性能的不同需求,并且容易形成多个数据孤岛;而从数据处理管道来看,存在多个数据孤岛之间来回拷贝的环节,不仅数据处理效率低下,而且性能无法满足 AI 应用的处理需求。

  src=因此,为 AI 而生的数据平台应该是在性能、扩展性和易用性方面实现重塑,以满足 AI 应用对于数据处理的各种需求。事实上,以 Hitachi Vantara HCSF ( Hitachi Content Software for File ) 为代表的新一代数据平台正是在这种趋势下脱颖而出,它让 AI 数据处理避免了分散管理流程,无需拷贝数据和复杂的性能调优,使得所有数据处理流程均在一个数据平台中进行,并且进行自动化的性能调优,实现性能、扩展性和易用性等方面质的提升。

  以性能为例,HCSF 采用具备专利的元数据和数据的全分布式架构,以及 NVMe 和高速网络设计,从而实现同时高效处理高吞吐 / 高 IOPS/ 低延迟 / 高效元数据处理,性能比当前市场上所有全闪存 NAS 快十倍之多;在扩展性方面,HCSF 具备从 TB 到 EB 级的扩展能力,还能从本地扩展到云端,并且能够实现跨 NVMe 和 OBS 的统一命名空间;在易用性方面,实现了从安装到数据协议接入、自动性能调优的简易化,让用户能够很快上手。

  HCSF 作为一个完整的数据平台,避免了传统架构多台设备并存带来的复杂性和数据孤岛,并且在数据接入、空间管理和云端协同方面均实现了极为简易的操作。AI 应用的数据处理过程中不需要来回流动、迁移和复制。Hitachi Vantara 中国区资深解决方案顾问蔡慧阳介绍道, 在传统架构的数据平台下,管理复杂性、性能调优都往往需要专家级的技术人员,并且在元数据等层面存在极大缺陷。

  src=据悉,HCSF 在交付方式上也非常灵活,可以提供软硬一体化或者纯软的方式来满足不同用户的需求。此外,Hitachi Vantara 也与多家云服务商达成合作,将 HCSF 直接部署在云端,为客户提供更加灵活的选择。

  以某量化基金公司为例,拥有几百个节点的计算集群,采用最先机的 GPU 计算加速卡,以最先进的算力来跑量化模型,但三年实践下来,无论后端数据平台层如何优化,依然在性能、扩展性方面存在巨大不足。 类似这样的用户不在少数,他们均是在实践 AI 之后才意识到数据平台的重要性,并且均是通过 HCSF 解决了上述挑战。

  又如汽车领域的自动驾驶场景,很多车企通常部署了数百台配置先进 GPU 的计算集群进行自动驾驶训练,每提升一个级别,意味着数据量呈指数级的增长,L5 级的自动驾驶甚至能够达到 EB 级的数据量,对于数据平台的性能、容量和扩展性极为考验。蔡慧阳介绍: 有车企在采用 HCSF 之后,一次训练与仿线 个小时,EB 级的扩展能力也让车企不再为容量担忧。

上一篇:未来我们吃的药可能会是“AI造”
下一篇:五个进程让你成为数据剖析高手

相关信息

  • 欧宝体育手机版app直播:五个进程让你成为数据剖析高手

    欧宝体育手机版app直播:五个进程让你成为数据剖析高手

    运营人的作业中,有不少需要对产品数据、活动数据进行搜集剖析,并从数据中发现问题点,做出优化战略的部分。那么本文先将眼光集合到数据剖析上,聊聊怎么做运营数据剖析。 经过拆解和剖析,清晰运营方针,厘清运营动作,并终究将整理成果表现在报表中的进程。 详细比如,在推行活动中有个返券的活动,从数据上看,收入因而活动提升了0.5%,那么问题来了?怎么样做到的?能不能复制到其他活动?是否可以构成惯例? 由于要了解全貌。经过报表中的日常数据,了解运营作业的全貌。1)看到正常事务的工作状况;2)定位反常,发现问题。 了解报表的组成后,还需要看懂运营报表中的方针,才干线. 怎么做好方针监控? 内容产值别离:A类内容产值、B类内容产值、C类内容产值、D类内容产值…… 内容产值:1级账号内容产值、2级账号内容产值、3级账号内容产值、4级账号内容产值…… ②怎么验证?进一步深化发掘改变反常的原因,排查寻觅新增账号反常增加的原因: 相较于产品功用的更新迭代或许运营行为,运营动作更多环绕着用户打开。所以针对运营所做的数据支撑,也首要
  • 欧宝体育手机版app直播:数据发掘的剖析办法能够分为两类你们知道是哪两类吗?

    欧宝体育手机版app直播:数据发掘的剖析办法能够分为两类你们知道是哪两类吗?

    数据发掘(data mining),便是从存放在数据库、数据仓库或其他信息库中的很多的数据中获取有用的、新颖的、潜在有用的、终究可了解的形式的非普通进程。 在人工智能范畴,习惯上又称为数据库中的常识发现(knowledge discovery in database,KDD),也有人把数据发掘视为数据库中常识发现进程的一个根本进程。常识发现进程由以下三个阶段组成:①数据预备;②数据发掘;③成果表达和解说。数据发掘能够与用户或常识库交互。 并非一切的信息发现使命都被视为数据发掘。例如,运用数据库办理体系查找单个的记载,或经过互联网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)范畴的使命。尽管这些使命是重要的,或许触及运用杂乱的算法和数据结构,可是它们首要依靠传统的计算机科学技能和数据的显着特征来创立索引结构,然后有用地安排和检索信息。尽管如此,数据发掘技能也现已用来增强信息检索体系的才能。 (1)直接数据发掘:方针是使用可用的数据树立一个模型,这个模型对剩下的数据,即一个特定的变量(能够了解成数据库表的特点,即
  • 欧宝体育手机版app直播:白剑波:文本大数据发掘使用剖析

    欧宝体育手机版app直播:白剑波:文本大数据发掘使用剖析

    大数据是一个事关我国经济社会开展大局的战略性工业,大数据技能为社会经济活动供给决议计划根据,进步各个范畴的运转功率,提高整个社会经济的集约化程度,关于我国经济开展转型具有重要的推进效果!2016年,由我国首席数据官联盟与网加年代网建议并承办,北京大学信息化与信息管理研讨中心、我国新一代IT工业推进联盟、数邦客协办的“影响我国大数据工业进程100人”大型人物专访活动全面发动,被采访目标别离来自政府、产、学、研、企各个范畴,他们将从不同视点,不同层面向咱们论述当时大数据工业抢手、难点、疑点问题,为我国大数据工业健康、继续开展探究经历、保驾护航,敬请重视! 我国首席数据官联盟专家组成员,北京才智星光信息技能有限公司总裁。北航计算机专业硕士。从前担任翰云年代科技有限公司总裁,NOKIA方位服务部门大我国区产品总监,甲骨文参谋咨询服务部我国区施行总监,Sun公司ISV工程部高档司理,北航教师。 本期特邀嘉宾我国首席数据官联盟建议人刘冬冬,就文本大数据使用与白剑波先生进行深入探讨。 刘冬冬:白总,今日谈文本大数据,还请您先给咱们介绍一下文本大数据发掘的基本状况,好
  • 欧宝体育手机版app直播:数据发掘分为哪两大类?

    欧宝体育手机版app直播:数据发掘分为哪两大类?

    1)依据发掘的数据库类型分类:数据发掘体系可以依据发掘的数据库类型分类。数据库体系自身可以依据不同的规范(如数据模型、数据类型或所触及的使用)分类,每一类或许需求自己的数据发掘技能。这样,数据发掘体系就可以相应分类。 例如,依据数据模型分类,可以有联系的、业务的、目标-联系的或数据仓库的发掘体系。假如依据所处理数据的特定类型分类,可以有空间的、时刻序列的、文本的、流数据的、多媒体的数据发掘体系,或万维网发掘体系。 2)依据发掘的常识类型分类:数据发掘体系可以依据所发掘的常识类型分类,即依据数据发掘的功用分类,如特征化、区别、相关和相关剖析、分类、猜测、聚类、离群点剖析和演化剖析。一个归纳的数据发掘体系一般供给多种和/或集成的数据发掘功用。 此外,数据发掘体系还可以依据所发掘的常识的粒度或笼统层进行区别,包含广义常识(高笼统层)、原始层常识(原始数据层)或多层常识(考虑若干笼统层)。一个高档数据发掘体系应当支撑多笼统层的常识发现。数据发掘体系还可以分类为发掘数据的规则性(一般呈现的形式)与发掘数据的奇异性(如反常或离群点)。一般地,概念描绘、相关和相关剖

手机扫一扫添加微信