TonY:原生于Hadoop的深度学习执行框架

案例来源:LinkedIn
会议地点:上海
分享时间: 2019-05-19 13:30-14:30

胡克秋  |

LinkedIn Staff Software Engineer

LinkedIn大数据组,主要负责集群管理系统和机器学习训练基础设施和平台。致力于提升离线资源管理效率,扩展性及机器学习平台易用性。开源项目[TonY: 原生于Hadoop的深度学习执行框架] 负责人及主要贡献者。 曾经负责LinkedIn客户端基础架构与持续交付系统,带领团队将LinkedIn 移动App交付周期从一个月提速到一周。开源项目「Bluepill: 单机多模拟器并行iOS UI测试工具」负责人及主要贡献者。

课程概要

过去十年是大数据系统爆炸的十年, 大规模数据处理与存储框架接连出现,包括MapReduce, HDFS, Spark。这些系统使得PB规模的机器学习得以实现。在LinkedIn,机器学习无处不在,People You May Know,Job Recommendation,News Feed。过去大多数的模型都是建立在传统机器学习框架之上,但是传统学习框架很难捕捉更复杂,更深层次的关系,比如对语音,图片与视频的学习和传统模型的更深层次的embeddings。而这些这恰恰是深度学习的优势所在。
深度学习在工业界的使用并不太久,而对大规模深度学习的基础设施的支持更加不够成熟。同时,深度学习不可能独立于之前的机器学习流水线,这使得我们必须以渐进的方式在原有机器学习设施基础之上改进和支持新的深度学习训练。
LinkedIn现有离线系统围绕在以Hadoop为核心的集群基础之上,而当前最为普遍的TensorFlow并没有一个很有效的原生执行在Hadoop集群上的框架。Kubernetes对大规模批量式作业仍然不是特别成熟,而且将集群一分为二不利于集群资源的有效使用,这使得我们必须在Hadoop基础之上原生开发一个分布式TensorFlow的执行框架。TonY就是因为这个目标而诞生的项目,它使得我们可以在Hadoop集群之上有效简单的执行分布式深度学习训练。和很多公司一样,LinkedIn主集群仍然运行在Hadoop 2.x版本 (2.7 & 2.10),TonY兼容Hadoop 2.x 与 3.x,在2.7 – 2.9环境中,可以使用TonY进行CPU训练,在2.10或者3.x环境中,可以使用TonY进行有效的GPU训练。

听众收益

深度学习规模化的挑战
如何在Hadoop集群(2.x, 3x)原生执行分布式深度学习框架。
Hadoop上机器学习的生态

胡克秋  |

LinkedIn Staff Software Engineer

LinkedIn大数据组,主要负责集群管理系统和机器学习训练基础设施和平台。致力于提升离线资源管理效率,扩展性及机器学习平台易用性。开源项目[TonY: 原生于Hadoop的深度学习执行框架] 负责人及主要贡献者。 曾经负责LinkedIn客户端基础架构与持续交付系统,带领团队将LinkedIn 移动App交付周期从一个月提速到一周。开源项目「Bluepill: 单机多模拟器并行iOS UI测试工具」负责人及主要贡献者。

课程概要

过去十年是大数据系统爆炸的十年, 大规模数据处理与存储框架接连出现,包括MapReduce, HDFS, Spark。这些系统使得PB规模的机器学习得以实现。在LinkedIn,机器学习无处不在,People You May Know,Job Recommendation,News Feed。过去大多数的模型都是建立在传统机器学习框架之上,但是传统学习框架很难捕捉更复杂,更深层次的关系,比如对语音,图片与视频的学习和传统模型的更深层次的embeddings。而这些这恰恰是深度学习的优势所在。
深度学习在工业界的使用并不太久,而对大规模深度学习的基础设施的支持更加不够成熟。同时,深度学习不可能独立于之前的机器学习流水线,这使得我们必须以渐进的方式在原有机器学习设施基础之上改进和支持新的深度学习训练。
LinkedIn现有离线系统围绕在以Hadoop为核心的集群基础之上,而当前最为普遍的TensorFlow并没有一个很有效的原生执行在Hadoop集群上的框架。Kubernetes对大规模批量式作业仍然不是特别成熟,而且将集群一分为二不利于集群资源的有效使用,这使得我们必须在Hadoop基础之上原生开发一个分布式TensorFlow的执行框架。TonY就是因为这个目标而诞生的项目,它使得我们可以在Hadoop集群之上有效简单的执行分布式深度学习训练。和很多公司一样,LinkedIn主集群仍然运行在Hadoop 2.x版本 (2.7 & 2.10),TonY兼容Hadoop 2.x 与 3.x,在2.7 – 2.9环境中,可以使用TonY进行CPU训练,在2.10或者3.x环境中,可以使用TonY进行有效的GPU训练。

听众收益

深度学习规模化的挑战
如何在Hadoop集群(2.x, 3x)原生执行分布式深度学习框架。
Hadoop上机器学习的生态

详情咨询:400-8128-020
赞助合作:sissi
联系电话:130-4321-8801
邮箱:market@msup.com.cn
CopyRight © 2008-2019 Msup