Run:AI > 实例探究 > 自动驾驶汽车公司 Wayve 终结 GPU 调度“恐怖”

自动驾驶汽车公司 Wayve 终结 GPU 调度“恐怖”

公司规模

SME

地区

Europe

国家

United Kingdom

产品

Run:ai Compute Management Platform
Wayve’s Fleet Learning Loop

技术栈

Artificial Intelligence
Kubernetes
GPU

实施规模

Enterprise-wide Deployment

影响指标

Productivity Improvements
Cost Savings

技术

分析与建模 - 机器学习

适用行业

汽车

适用功能

产品研发
离散制造

用例

机器状态监测
自主运输系统

服务

云规划/设计/实施服务
数据科学服务

关于客户

Wayve 是一家总部位于伦敦的公司，正在开发用于自动驾驶汽车的人工智能软件。该公司独特的自动驾驶技术方法不依赖于昂贵的传感设备。相反，Wayve 专注于开发更强大的智能，以便在人口密集的城市地区实现更好的自动驾驶。该公司的主要 GPU 计算消耗来自车队学习循环生产训练。他们使用完整数据集在多个时期内训练产品基线，并在通过车队学习循环迭代收集新数据时不断重新训练。

登录后查看完整内容

挑战

Wayve 是一家总部位于伦敦的公司，致力于开发自动驾驶汽车的人工智能软件，该公司在 GPU 资源方面面临着巨大挑战。他们的车队学习循环（在部署到车队之前，连续进行数据收集、整理、模型训练、重新模拟和授权模型）消耗了大量的 GPU 资源。然而，尽管几乎 100% 的 GPU 资源都分配给了研究人员，但资源利用率却不到 45%。这是因为 GPU 是静态分配给研究人员的，这意味着当研究人员不使用分配给他们的 GPU 时，其他人无法访问它们。这造成了一种假象，即用于模型训练的 GPU 已满负荷，而实际上许多 GPU 处于闲置状态。

登录后查看完整内容

解决方案

Wayve 向 Run:ai 寻求 GPU 资源和调度问题的解决方案。Run:ai 实施了一个系统，该系统消除了孤岛并消除了资源的静态分配。他们创建了共享 GPU 池，使团队能够访问更多 GPU、运行更多工作负载并提高生产力。Wayve 研究人员每天都会向系统提交作业，无论团队如何，当 GPU 可用时，作业就会由 Run:ai 系统排队并自动启动。Run:ai 的专用批处理调度程序在 Kubernetes 上运行，支持管理 DL 工作负载的关键功能，例如高级排队和配额、管理优先级和策略、自动抢占、多节点训练等。这使得集群利用率超过 80%，并且运行的作业数量显著增加。

登录后查看完整内容

运营影响

Wayve's GPU utilization increased from less than 45% to over 80%.
The number of jobs running on Wayve's system increased significantly.
Wayve's teams were able to access more GPUs and run more workloads, increasing overall productivity.

登录后查看完整内容

数量效益