金澜涛  |

eBay

Staff Software Engineer

即将开始的A2M课程

Managing Apache Spark Workload and Automatic Optimizing

大数据前沿

2019-05-19 15:50--16:50

在eBay,Spark作为最重要的数据处理引擎之一,每天进行着数百万个批处理查询,处理超过6000个关键数仓表,22PB的数据(已压缩),并且这一数量每年仍在高速增长。在eBay的机器学习领域,Spark同样扮演着越来越重要的角色。其外,从整个大数据平台角度看,管理和优化集群上所有的Spark作业,提升执行效率,优化资源配置等方面仍然存在着巨大的挑战。
我们将介绍eBay在Spark作业和资源管理平台建设方面的一些成果。在本次演讲中,首先我们将介绍整个系统的基本架构,介绍其如何从多个数据中心收集作业指标以及如何实时的检测异常作业;其次,我们开发了一个Profiler组件,用于增强当前的Spark引擎以支持自定义的度量指标收集。最后,通过eBay的一些真实用例来介绍该自助作业平台是如何减少用户和平台团队的工作量。
通过自动作业优化,全局化资源管理和用户自助查询服务,极大的提升了集群资源使用效率,简化了用户使用和平台管理成本,并形成不断对Spark引擎本身优化的正反馈。

2016年加入eBay数据平台基础架构部门,主要从事Spark SQL优化和大数据平台架构工作。是Apache Spark,Hadoop等开源社区的代码贡献者。在加入eBay之前,曾就职于阿里巴巴,大众点评大数据部门。

即将开始的A2M课程

Managing Apache Spark Workload and Automatic Optimizing

大数据前沿

2019-05-19 15:50--16:50

在eBay,Spark作为最重要的数据处理引擎之一,每天进行着数百万个批处理查询,处理超过6000个关键数仓表,22PB的数据(已压缩),并且这一数量每年仍在高速增长。在eBay的机器学习领域,Spark同样扮演着越来越重要的角色。其外,从整个大数据平台角度看,管理和优化集群上所有的Spark作业,提升执行效率,优化资源配置等方面仍然存在着巨大的挑战。
我们将介绍eBay在Spark作业和资源管理平台建设方面的一些成果。在本次演讲中,首先我们将介绍整个系统的基本架构,介绍其如何从多个数据中心收集作业指标以及如何实时的检测异常作业;其次,我们开发了一个Profiler组件,用于增强当前的Spark引擎以支持自定义的度量指标收集。最后,通过eBay的一些真实用例来介绍该自助作业平台是如何减少用户和平台团队的工作量。
通过自动作业优化,全局化资源管理和用户自助查询服务,极大的提升了集群资源使用效率,简化了用户使用和平台管理成本,并形成不断对Spark引擎本身优化的正反馈。

详情咨询:400-8128-020
赞助合作:sissi
联系电话:130-4321-8801
邮箱:market@msup.com.cn
CopyRight © 2008-2019 Msup