科技 technology
您现在的位置:首页 > 科技 > 是否需要优化的AI?重新考虑您的存储基础架构和数据管道

新闻

MORROR ART歌词音箱的全新颠覆体验,在照片中看见如歌的岁月。 MORROR ART歌词音箱的全新颠覆体验,在照片中看见...

MORROR ART软装艺术理念的新尝试, 探索时光之美,赋予相册和台历更多可能 让时光和音乐一样能被看见。

  • 门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居...

  • 百年变局新机遇 第九届岭南论坛在广州举行

    11月21日,第九届岭南论坛在广州成功举办。本次论坛围绕“百年变局新机遇”主题,原中国银行业监督管理委员会主席刘明康,中山大学岭南学院教授、博导、广东省人民政府参事陆军,斯坦福大学教授、2001年诺贝尔经济...

  • 《风雨之后总有阳光》——产业人物访谈:益宸康旅创...

    2019年,国务院发布了《“健康中国2030”规划纲要》和第七次人口普查,把中国的康养产业推上了最大的风口。紧接着,2021年4月15日,中国央视网、新浪财经、搜狐网接连报道了“七亿养老项目暴雷:老人养老积蓄人间蒸发”。...

财经

唯品会经营范围变更 新增医疗器械、蔬菜水果零售等业务 唯品会经营范围变更 新增医疗器械、蔬菜水果零售等...

天眼查数据显示,3月31日,唯品会(中国)有限公司发生工商变更,经营范围新增蔬菜零售;非许可类医疗器...

  • 品钛旗下赣州爱信小贷正式接入人民银行征信系统

        北京2020年4月7日 /美通社/ -- 领先的金融科技解决方案提供商品钛(Pintec Technology Holdings Ltd., Nasdaq: PT) 今日宣布旗下的赣州爱信网络小额贷款有限公司(下称“爱信小贷”)正式接入中国人民银行...

  • 特斯拉空头近一个月减少超200万股

      据金融分析机构S3 Partner数据显示,截至4月3日,特斯拉未平仓空头头寸为1604万股,占流通股的10.97%。过去30天,特斯拉未平仓空头头寸减少222万股或12.18%,期间股价上涨32%;过去一周,特斯拉未平仓空头头...

  • 特斯拉展示新型自研呼吸机:与Model 3共用零件

      特斯拉之前宣布将开发新的呼吸机,而现在他们展示了这种新型设计。特斯拉在YouTube发布了视频,其工程师演示了两个版本的呼吸机,一个是把所有零件摆在桌子上的原型,另外一个则是组装好的设备,用于显示在医...

  • 特朗普称将在下一轮刺激计划中为美国民众发放更多的钱

      北京时间4月7日消息,美国总统特朗普称将在下一轮刺激计划中为美国民众发放更多的钱。在白宫新闻发布会上表示,特朗普“肯定”想听取下一次刺激计划的想法,并补充道他希望其中包括“切切实实的基础设施”。  ...

是否需要优化的AI?重新考虑您的存储基础架构和数据管道

发布时间:2020/01/18 科技 浏览:379

 
关于AI基础架构的大多数讨论都始于计算硬件-GPU,通用CPU,FPGA和张量处理单元,后者负责训练复杂的算法并根据这些模型进行预测。但是,人工智能对存储的要求也很高。保持强大的计算引擎得到充分利用,需要尽快为其提供大量信息。少了什么,您就阻塞了工作并造成了瓶颈。
针对容量和成本优化AI解决方案,同时进行扩展以扩大规模,这意味着需要重新审视其数据管道。您准备好摄取价值PB的旧式,物联网和传感器数据吗?您的服务器是否具有读/写带宽用于数据准备?他们准备好接受培训中的随机访问方式了吗?
现在回答这些问题将有助于确定组织的AI就绪状态。因此,让我们细分AI工作负载的各个阶段,并说明您的数据管道在此过程中所扮演的角色。
关键点
通过AI管道进行的数据量,速度和种类在每个阶段都在变化。
建立一个能够满足管道容量和性能要求的存储基础架构非常困难。
依靠现代接口(如NVMe),闪存和其他非易失性存储技术,以及分解后的架构来有效扩展。
它以大量数据开始,以预测结束
AI由数据驱动-大量数据。一个普通的工厂每天制造1TB的东西,但是分析并采取行动的却不足1%。然后,即使不是全部用于训练神经网络的AI基础架构,也必须能够接收大量数据。英特尔存储市场经理Roger Corell表示:“数据集可以以PB的形式进入管道,以千兆字节的结构化和半结构化数据进行培训,并以千字节大小的受训模型完成其旅程。”
AI管道的每个阶段都对存储基础架构有不同的要求。
AI工作负载的第一阶段是摄取,涉及从各种来源(通常在边缘)收集数据。有时,这些信息会被拉到一个集中的大容量数据湖中进行准备。或者可以考虑实时分析将其路由到高性能存储层。无论哪种方式,任务的特征都是顺序写入大量的大小文件。
下一步是数据准备,其中涉及对原始信息进行处理和格式化,以使其对后续阶段有用。最大限度地提高数据质量是准备阶段的主要目的。容量仍然至关重要。但是,工作负载演变为随机读取和写入的混合,因此I / O性能也成为重要考虑因素。
然后将结构化数据输入到神经网络中,以创建经过训练的模型。训练数据集可能包含数百万个模型正在学习识别的示例。该过程也是迭代的。可以测试模型的准确性,然后对其进行重新训练以提高其性能。一旦训练了神经网络,就可以将其部署为根据从未见过的数据进行预测,这一过程称为推理。
训练和推理是计算密集型任务,是大规模并行处理器的要求。要保持这些资源充足,需要从存储中读取小文件流。访问延迟,响应时间,吞吐量和数据缓存都可以发挥作用。
灵活地在每个阶段支持AI的新颖要求
在AI管道的每个阶段,都要求您的存储基础架构执行不同的操作。没有一个万能的成功秘诀,因此,最好的选择是依靠具有当今最佳性能的存储技术和接口,通往未来的路线图以及根据需求变化进行扩展的能力。
例如,对于摄取阶段的容量要求,硬盘似乎是廉价的答案。但是它们并不是扩展性能或可靠性的理想选择。甚至串行ATA(SATA)SSD的存储接口也成为瓶颈。连接到PCI Express(PCIe)总线的基于非易失性内存Express(NVMe)接口的驱动器提供了更高的吞吐量和更低的延迟。
NVMe存储可以采用多种形状。插卡很受欢迎,常见的2.5英寸外形也是如此。但是,越来越多的企业和数据中心SSD外形(EDSFF)使得仅出于此目的就可以构建装有快速闪存的密集存储服务器。
在AI流水线的其他地方,对连接PCIe的存储进行标准化也是有意义的。全闪存阵列满足了数据准备阶段对高吞吐量,随机I / O和大量容量的需求,从而平衡了成本和性能。同时,训练和推理阶段需要低延迟和出色的随机I / O。面向企业的闪存或Optane SSD将是保持计算资源充分利用的最佳选择。
随着数据增长
随着更大的数据量和更复杂的模型,为当今需求而建立的AI基础架构将不断发展。除了使用现代设备和协议之外,正确的体系结构还有助于确保性能和容量一起扩展。
分解的体系结构使得可以独立地扩展计算和存储,而无需重复访问源数据。
在传统的聚合配置中,扩展是通过将计算服务器与其自身的闪存均匀地添加在一起来实现的。将存储保持在处理器附近意味着防止机械磁盘和较旧的接口引起的瓶颈。但是由于服务器仅限于其自己的存储,因此当训练数据集超出本地容量时,它们必须将准备好的数据存放在任何地方。结果,服务训练后的模型并开始推理需要更长的时间。
像NVMe这样的高效协议使得可以分解或分离存储,并且仍然保持AI所需的低延迟。在2019年存储开发者大会上,Western Digital分析软件开发全球总监Sanhita Sarkar博士给出了AI分解数据管道的多个示例,其中包括GPU计算池,基于NVMe的闪存存储共享池和对象源数据或档案的存储,其中任何一个都可以独立扩展。
没什么可失去的
如果您尚未评估自己的AI准备情况,那么该是赶上追赶的时候了。麦肯锡的最新全球调查表明,至少在一种流程或产品上使用AI的公司数量同比增长25%。 44%的受访者表示,人工智能已经帮助降低了成本。 Gartner副总裁克里斯·霍华德(Chris Howard)补充说:“如果您是首席信息官,而您的组织不使用AI,那么您的竞争对手很有可能会这样做,这应该引起关注。
涌入AI的投资也在加速。 IDC表示,从现在起的三年内,人工智能系统的支出将达到近980亿美元,高于2019年的375亿美元。IDC的分析还发现了另一个有趣的观点:“ 2019年技术支出的最大份额将用于服务,主要是IT服务显然,需要精通AI管道复杂性的专业人员。
大多数企业都知道AI是计算密集型的。但是,该技术对存储的需求并未得到广泛讨论。在对自己的项目进行原型设计之前,请先评估一下存储基础架构的功能以及可能需要增强的地方。借助通过NVMe连接的现代驱动器,可以通过分解架构进行扩展,您应该具备满足大多数数据驱动应用程序的容量,性能和扩展要求的设备。