首先,模型走向大型化和复杂化,带来了极大的数据量和数据处理需求。以 OpenAI 的 GPT 模型为例,2020 年的 GPT-3 模型参数达到 1750 亿个,预训练数据量高达 45TB,并且目前市场上诸多模型无论是规模、数据量、训练层数均是屡创新高,对于数据存储的需求也是肉眼可见地增加。
从数据类型、数据处理流程和效率来看,由传统存储架构组成的数据平台的确是有着天然的各种 缺陷 。比如,在很多用户的实际环境中,依然是采用不同接口来接入到不同存储系统之中,很难在一个数据平台上满足不同数据类型对于性能的不同需求,并且容易形成多个数据孤岛;而从数据处理管道来看,存在多个数据孤岛之间来回拷贝的环节,不仅数据处理效率低下,而且性能无法满足 AI 应用的处理需求。
src=因此,为 AI 而生的数据平台应该是在性能、扩展性和易用性方面实现重塑,以满足 AI 应用对于数据处理的各种需求。事实上,以 Hitachi Vantara HCSF ( Hitachi Content Software for File ) 为代表的新一代数据平台正是在这种趋势下脱颖而出,它让 AI 数据处理避免了分散管理流程,无需拷贝数据和复杂的性能调优,使得所有数据处理流程均在一个数据平台中进行,并且进行自动化的性能调优,实现性能、扩展性和易用性等方面质的提升。
以性能为例,HCSF 采用具备专利的元数据和数据的全分布式架构,以及 NVMe 和高速网络设计,从而实现同时高效处理高吞吐 / 高 IOPS/ 低延迟 / 高效元数据处理,性能比当前市场上所有全闪存 NAS 快十倍之多;在扩展性方面,HCSF 具备从 TB 到 EB 级的扩展能力,还能从本地扩展到云端,并且能够实现跨 NVMe 和 OBS 的统一命名空间;在易用性方面,实现了从安装到数据协议接入、自动性能调优的简易化,让用户能够很快上手。
HCSF 作为一个完整的数据平台,避免了传统架构多台设备并存带来的复杂性和数据孤岛,并且在数据接入、空间管理和云端协同方面均实现了极为简易的操作。AI 应用的数据处理过程中不需要来回流动、迁移和复制。Hitachi Vantara 中国区资深解决方案顾问蔡慧阳介绍道, 在传统架构的数据平台下,管理复杂性、性能调优都往往需要专家级的技术人员,并且在元数据等层面存在极大缺陷。
src=据悉,HCSF 在交付方式上也非常灵活,可以提供软硬一体化或者纯软的方式来满足不同用户的需求。此外,Hitachi Vantara 也与多家云服务商达成合作,将 HCSF 直接部署在云端,为客户提供更加灵活的选择。
以某量化基金公司为例,拥有几百个节点的计算集群,采用最先机的 GPU 计算加速卡,以最先进的算力来跑量化模型,但三年实践下来,无论后端数据平台层如何优化,依然在性能、扩展性方面存在巨大不足。 类似这样的用户不在少数,他们均是在实践 AI 之后才意识到数据平台的重要性,并且均是通过 HCSF 解决了上述挑战。
又如汽车领域的自动驾驶场景,很多车企通常部署了数百台配置先进 GPU 的计算集群进行自动驾驶训练,每提升一个级别,意味着数据量呈指数级的增长,L5 级的自动驾驶甚至能够达到 EB 级的数据量,对于数据平台的性能、容量和扩展性极为考验。蔡慧阳介绍: 有车企在采用 HCSF 之后,一次训练与仿线 个小时,EB 级的扩展能力也让车企不再为容量担忧。