专题出品人: 李远策

快手 数据架构师

专题:大数据平台架构

人工智能技术离不开大数据的支撑,大数据近年来也已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。本专题将突出大数据平台实战,囊括Offline、Online、Real-time等多场景案例。

本专题下的议题

EC及EC转换融入在京东HDFS中的落地实践
毛宝龙 京东 分布式存储负责人
所属专题:大数据平台架构

课程概要

背景介绍:
数据作为公司战略资产之一,随着京东业务持续增长,开辟不同维度经营方向,业务集市年增长率达到133%,预估2019年年中总体存储将突破EB级别。温冷数据 (一周以上没有访问记录的数据) 最为适用使用降存方案,与此同时温冷数据占总存储比例的80%以上。

解决思路/成功要点:
将EC技术融于JDHDFS中,并实现基于TTL的离线EC转换、校验、降副本功能。最终实现降低50%的存储。社区版本存储着诸多功能问题、性能问题、兼容性问题,发现并解决后,得以在生产环境上线。

成果:
开启EC的NS存储降低50%。
未开启EC的NS性能也显著提高。

听众收益

听众收益:
1. 理解EC原理
2. 理解EC在HDFS中的实现原理及应用
3, 掌握JD 移植HDFS关于EC的社区代码过程
4. 掌握JD 自主研发的离线EC转换
5. 了解JDHDFS应用集群上线EC过程

Apache Doris – 在线分析型分布式数据库
赵纯 百度 资深工程师
所属专题:大数据平台架构

课程概要

数据平台提供方为业务部门提供在线数据服务时,现存的方案总是有各种不完美,比如不能很好的支持SQL;不能够独立部署需要依赖很多其他模块;运维起来比较痛苦;性能不够理想...
引入Doris系统能够为数据平台方提供一种选择,用户通过使用Doris能够解决面临的一些问题。

听众收益

1.了解Doris的整体架构
2.了解Doris的应用场景
3.了解Doris的特性

SQL on Hadoop在快手大数据平台的实践与优化
钟靓 快手 大数据架构工程师
所属专题:大数据平台架构

课程概要

Hadop经过近几年的快速发展,SQL on Hadoop已经成为大数据处理最有效的工具。针对不同的业务场景和不同的数据规模,SQL on Hadoop社区也提供了多种解决方案,以Hive、SparkSQL、Presto、Impala等为主已成为各大公司最常用的解决方案。快手的数据仓库和Adhoc查询系统以HiveServer作为统一的入口,后端支持MR、SparkSQL、Presto等多种查询引擎,平台目前服务几十个业务部门,每天SQL总量近百万。公司SQL查询引擎团队针在面对大规模数据SQL查询的场景下遇到了诸多难点问题,对如何保证服务质量、提升运行速度、降低系统使用难度等方面多了大量改进和创新,主要包括如下几点:
1. 统一查询入口,后端支持Hive、SparkSQL、Presto等多种查询引擎,通过插件化的方式集成,可以很方便集成新的查询引擎。
2. 多级引擎智能选择,不需要用户了解各引擎之间的差异性,降低了平台使用门槛。为了保证查询服务的成功率,实现了引擎分级,高优引擎执行失败后会自动降低到低优但更稳定的查询引擎执行。
3. SQL专家系统的建设,对错误SQL和慢SQL的自动诊断,给用户提供出错误原因以及改进建议。
4. 数仓表之间血缘关系、查询热度分析及可视化展示。
5. 查询系统平滑升级、在线配置变更、流量控制等运维自动化工具的建设。

听众收益

1. 大数据SQL查询平台的技术选型。
2. 了解多级智能引擎选择的实现方案。
3. 了解大规模数据场景下,SQL查询平台遇到的痛点及解决方案。
4. 了解如何建设大数据SQL查询平台周边工具。

快手大数据平台架构师,数据查询引擎团队负责人。负责公司 SQL 引擎、OLAP 引擎、多维可视化平台的研发以及在公司的应用。曾供职于奇虎360,是开源项目 XLearning 的作者。主要研究领域包括分布式计算、OLAP 引擎、SQL on Hadoop、AI on Hadoop 等。

专题:大数据平台架构

人工智能技术离不开大数据的支撑,大数据近年来也已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。本专题将突出大数据平台实战,囊括Offline、Online、Real-time等多场景案例。

详情咨询:400-8128-020
赞助合作:sissi
联系电话:130-4321-8801
邮箱:market@msup.com.cn
CopyRight © 2008-2019 Msup