SQL on Hadoop在快手大数据平台的实践与优化

案例来源:快手
会议地点:上海
分享时间: 2019-05-19 10:00-11:00

钟靓  |

快手 大数据架构工程师

当前就职于快手大数据架构团队,主要负责方向为SQL引擎的开发和平台架构建设。有丰富的底层Hadoop生态的相关代码开发、优化经验。曾就职奇虎360负责大数据作业调度平台,数据查询平台的设计开发。技术栈领域包括资源调度、分布式计算、SQL on Hadoop等。

课程概要

Hadop经过近几年的快速发展,SQL on Hadoop已经成为大数据处理最有效的工具。针对不同的业务场景和不同的数据规模,SQL on Hadoop社区也提供了多种解决方案,以Hive、SparkSQL、Presto、Impala等为主已成为各大公司最常用的解决方案。快手的数据仓库和Adhoc查询系统以HiveServer作为统一的入口,后端支持MR、SparkSQL、Presto等多种查询引擎,平台目前服务几十个业务部门,每天SQL总量近百万。公司SQL查询引擎团队针在面对大规模数据SQL查询的场景下遇到了诸多难点问题,对如何保证服务质量、提升运行速度、降低系统使用难度等方面多了大量改进和创新,主要包括如下几点:
1. 统一查询入口,后端支持Hive、SparkSQL、Presto等多种查询引擎,通过插件化的方式集成,可以很方便集成新的查询引擎。
2. 多级引擎智能选择,不需要用户了解各引擎之间的差异性,降低了平台使用门槛。为了保证查询服务的成功率,实现了引擎分级,高优引擎执行失败后会自动降低到低优但更稳定的查询引擎执行。
3. SQL专家系统的建设,对错误SQL和慢SQL的自动诊断,给用户提供出错误原因以及改进建议。
4. 数仓表之间血缘关系、查询热度分析及可视化展示。
5. 查询系统平滑升级、在线配置变更、流量控制等运维自动化工具的建设。

听众收益

1. 大数据SQL查询平台的技术选型。
2. 了解多级智能引擎选择的实现方案。
3. 了解大规模数据场景下,SQL查询平台遇到的痛点及解决方案。
4. 了解如何建设大数据SQL查询平台周边工具。

钟靓  |

快手 大数据架构工程师

当前就职于快手大数据架构团队,主要负责方向为SQL引擎的开发和平台架构建设。有丰富的底层Hadoop生态的相关代码开发、优化经验。曾就职奇虎360负责大数据作业调度平台,数据查询平台的设计开发。技术栈领域包括资源调度、分布式计算、SQL on Hadoop等。

课程概要

Hadop经过近几年的快速发展,SQL on Hadoop已经成为大数据处理最有效的工具。针对不同的业务场景和不同的数据规模,SQL on Hadoop社区也提供了多种解决方案,以Hive、SparkSQL、Presto、Impala等为主已成为各大公司最常用的解决方案。快手的数据仓库和Adhoc查询系统以HiveServer作为统一的入口,后端支持MR、SparkSQL、Presto等多种查询引擎,平台目前服务几十个业务部门,每天SQL总量近百万。公司SQL查询引擎团队针在面对大规模数据SQL查询的场景下遇到了诸多难点问题,对如何保证服务质量、提升运行速度、降低系统使用难度等方面多了大量改进和创新,主要包括如下几点:
1. 统一查询入口,后端支持Hive、SparkSQL、Presto等多种查询引擎,通过插件化的方式集成,可以很方便集成新的查询引擎。
2. 多级引擎智能选择,不需要用户了解各引擎之间的差异性,降低了平台使用门槛。为了保证查询服务的成功率,实现了引擎分级,高优引擎执行失败后会自动降低到低优但更稳定的查询引擎执行。
3. SQL专家系统的建设,对错误SQL和慢SQL的自动诊断,给用户提供出错误原因以及改进建议。
4. 数仓表之间血缘关系、查询热度分析及可视化展示。
5. 查询系统平滑升级、在线配置变更、流量控制等运维自动化工具的建设。

听众收益

1. 大数据SQL查询平台的技术选型。
2. 了解多级智能引擎选择的实现方案。
3. 了解大规模数据场景下,SQL查询平台遇到的痛点及解决方案。
4. 了解如何建设大数据SQL查询平台周边工具。

详情咨询:400-8128-020
赞助合作:sissi
联系电话:130-4321-8801
邮箱:market@msup.com.cn
CopyRight © 2008-2019 Msup