如何利用K8S为AI应用提供大规模GPU算力

专题：Cloud-native
案例来源：华为

会议地点：上海
分享时间： 2019-05-19 13:30-14:30

如何利用K8S为AI应用提供大规模GPU算力

案例来源：华为
会议地点：上海
分享时间： 2019-05-19 13:30-14:30

李程 |

华为 serverless容器服务CCI架构师

2011年加入华为，先后参与网络软件平台、SDN、公有云容器服务等产品的架构设计工作，目前任华为serverless容器服务CCI总架构师。

课程概要

背景介绍：
华为云CCI服务管理数百个GPU卡，为华为云EI服务及外部客户提供AI计算平台，在该过程中积累了大量面向AI计算的优化经验。

解决思路/成功要点：
AI计算加速的关键是GPU管理，K8S资源调度优化，面向AI计算框架和模型的Job/Task调度。通过这些优化手段可以使得128块GPU卡的线性加速比达到0.8+。

成果：
在本次议题中，我会介绍如何通过 K8S + Kata容器搭建AI计算平台，最大化GPU及AI芯片算力的使用效率，并给出测试结果。最后我们也会对未来的技术改进做出展望。

听众收益

了解基于K8S的AI框架的现状
了解大规模GPU在AI分布式训练场景下的应用
了解K8S在人工智能场景下的优化思路

李程 |

华为 serverless容器服务CCI架构师

2011年加入华为，先后参与网络软件平台、SDN、公有云容器服务等产品的架构设计工作，目前任华为serverless容器服务CCI总架构师。

课程概要

听众收益

了解基于K8S的AI框架的现状
了解大规模GPU在AI分布式训练场景下的应用
了解K8S在人工智能场景下的优化思路

如何利用K8S为AI应用提供大规模GPU算力

专题：Cloud-native
案例来源：华为

会议地点：上海
分享时间： 2019-05-19 13:30-14:30

如何利用K8S为AI应用提供大规模GPU算力

李程 |

华为 serverless容器服务CCI架构师

课程概要

听众收益

李程 |

华为 serverless容器服务CCI架构师

课程概要

听众收益

相关案例