人工智能的最佳计算基础设施是什么?

发布时间：2019-08-20 10:40:03 所属栏目：创业来源：亿欧网

导读：副标题#e# 比以往任何时候都更重要的是，对于每个新的数据中心工作负载，IT组织必须回答的问题是在哪里运行。如今，最新的企业计算工作负载是机器学习(或人工智能)的变体，无论是深度学习模型培训还是推理(使用经过培训的模型)，人工智能基础设施已经有太多

Charlie Boyle：大约五年前，人们看到高性能计算(HPC)和人工智能系统之间存在非常明显的差异，但是现在，这二者很多功能已经合并。以前，每个人都认为超级计算机是64位、双精度。而人工智能工作负载主要是32位或16位混合。而这两种技术应用在两个不同的场合。

人们现在看到的是一个典型的超级计算机会在很多节点上运行一个问题，而在人工智能工作负载中正在做同样的事情。MLPerf(人工智能硬件性能基准测试版)刚刚发布，大量节点只完成一项工作。人工智能和高性能计算之间的工作量实际上非常相似。使用我们最新的GPU，可以提供传统的高性能计算双精度，人工智能为32位精度，并加速人工智能混合精度。

传统的超级计算中心现在都在采用人工智能技，可能已经建立了超级计算机，但他们都在同一个系统上运行超级计算机任务和人工智能工作负载。

这两者的架构相同。在过去，超级计算使用的网络不同于传统的人工智能。现在一切都融合了。这就是客户为什么要买Mellanox产品的部分原因。现在，超级计算基础设施对于双方都至关重要。人们认为它只是一个深奥的高性能计算机，但它将会成为主流;而企业现在将它作为他们的人工智能系统的支柱。

DCK：人工智能硬件有着激烈的竞争，例如谷歌的TPU、FPGA，云计算提供商和创业公司设计的其他定制芯片，这是不是Nvidia公司的关注点?

Charlie Boyle：我们总是关注竞争，但我们的竞争对手以我们为基准。我们在这个行业如此多产的部分原因是我们无处不在。在谷歌云平台中采用Nvidia GPU，而在亚马逊云平台中，也有Nvidia GPU。

如果笔记本电脑配有Nvidia GPU，可以对此进行训练。我们的GPU运行一切事务，可以在笔记本电脑上进行深度学习训练的软件堆栈与在我们在超级计算机上运行的软件堆栈相同。

当所有这些创业公司和不同的人选择一个基准时，这是一个巨大的问题。例如有的公司表示，“我们真的很擅长ResNet 50。”如果只做ResNet 50，这只是企业整体人工智能工作量的一小部分，所以具有软件灵活性和可编程性对我们来说是一笔巨大的财富。为此，我们在过去十年中建立了一个生态系统。

这是我认为这个领域的创业公司面临的最大挑战：企业可以开发构建一种芯片，但是当笔记本电脑和每个云中都没有采用这种芯片时，让数百万开发人员使用其开发的芯片是很困难的。当查看TPU(谷歌的定制人工智能芯片)，TPU仅在他们认为适合的一些工作负载中提交。而我们提交最新的MLPerf结果时，我们可以提交几乎所有类别。

具有市场竞争是一件好事，它可以让企业变得更好。而凭借拥有的技术和生态系统，我们才能拥有真正的优势。

DCK：传统的HPC架构与人工智能融合意味着传统的HPC供应商现在正在与DGX竞争。这会对你的工作带来困难吗?

Charlie Boyle：我认为它们根本不是竞争对手，因为这些公司都使用Nvidia GPU。如果我们向客户销售系统，或者HPE、Dell或Cray向客户销售系统，只要客户满意，我们就没有问题。

我们制造的软件在我们自己的几千个DGX系统上运行，通过我们的NGC基础设施在内部提供(NGC是Nvidia公司的GPU优化软件在线分销中心)，因此我们所有的OEM客户都可以下载相同的软件。在容器中也使用相同的软件，因为我们只希望每个客户都拥有最佳的GPU体验。

（编辑：惠州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/5

首页

尾页