Run:AI > 实例探究 > 自动驾驶汽车公司 Wayve 终结 GPU 调度“恐怖”

自动驾驶汽车公司 Wayve 终结 GPU 调度“恐怖”

Run:AI Logo
公司规模
11-200
地区
  • Europe
国家
  • United Kingdom
产品
  • Run:ai Compute Management Platform
  • Wayve’s Fleet Learning Loop
技术栈
  • Artificial Intelligence
  • Kubernetes
  • GPU
实施规模
  • Enterprise-wide Deployment
影响指标
  • Cost Savings
  • Productivity Improvements
技术
  • 分析与建模 - 机器学习
  • 应用基础设施与中间件 - 数据交换与集成
适用行业
  • 汽车
适用功能
  • 离散制造
  • 产品研发
用例
  • 自主运输系统
  • 机器状态监测
服务
  • 云规划/设计/实施服务
  • 数据科学服务
关于客户
Wayve 是一家总部位于伦敦的公司,正在开发用于自动驾驶汽车的人工智能软件。该公司独特的自动驾驶技术方法不依赖于昂贵的传感设备。相反,Wayve 专注于开发更强大的智能,以便在人口密集的城市地区实现更好的自动驾驶。该公司的主要 GPU 计算消耗来自车队学习循环生产训练。他们使用完整数据集在多个时期内训练产品基线,并在通过车队学习循环迭代收集新数据时不断重新训练。
挑战
Wayve 是一家总部位于伦敦的公司,致力于开发自动驾驶汽车的人工智能软件,该公司在 GPU 资源方面面临着巨大挑战。他们的车队学习循环(在部署到车队之前,连续进行数据收集、整理、模型训练、重新模拟和授权模型)消耗了大量的 GPU 资源。然而,尽管几乎 100% 的 GPU 资源都分配给了研究人员,但资源利用率却不到 45%。这是因为 GPU 是静态分配给研究人员的,这意味着当研究人员不使用分配给他们的 GPU 时,其他人无法访问它们。这造成了一种假象,即用于模型训练的 GPU 已满负荷,而实际上许多 GPU 处于闲置状态。
解决方案
Wayve 向 Run:ai 寻求 GPU 资源和调度问题的解决方案。Run:ai 实施了一个系统,该系统消除了孤岛并消除了资源的静态分配。他们创建了共享 GPU 池,使团队能够访问更多 GPU、运行更多工作负载并提高生产力。Wayve 研究人员每天都会向系统提交作业,无论团队如何,当 GPU 可用时,作业就会由 Run:ai 系统排队并自动启动。Run:ai 的专用批处理调度程序在 Kubernetes 上运行,支持管理 DL 工作负载的关键功能,例如高级排队和配额、管理优先级和策略、自动抢占、多节点训练等。这使得集群利用率超过 80%,并且运行的作业数量显著增加。
运营影响
  • Wayve's GPU utilization increased from less than 45% to over 80%.
  • The number of jobs running on Wayve's system increased significantly.
  • Wayve's teams were able to access more GPUs and run more workloads, increasing overall productivity.
数量效益
  • Increase in GPU utilization from less than 45% to over 80%.
  • Significant increase in the number of jobs running on the system.
  • Increased access to GPUs for teams, leading to increased productivity.

Case Study missing?

Start adding your own!

Register with your work email and create a new case study profile for your business.

Add New Record

相关案例.

联系我们

欢迎与我们交流!
* Required
* Required
* Required
* Invalid email address
提交此表单,即表示您同意 IoT ONE 可以与您联系并分享洞察和营销信息。
不,谢谢,我不想收到来自 IoT ONE 的任何营销电子邮件。
提交

感谢您的信息!
我们会很快与你取得联系。