专题:大数据平台架构
人工智能技术离不开大数据的支撑,大数据近年来也已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。本专题将突出大数据平台实战,囊括Offline、Online、Real-time等多场景案例。
本专题下的议题
EC及EC转换融入在京东HDFS中的落地实践
毛宝龙 京东 分布式存储负责人
所属专题:大数据平台架构
课程概要
背景介绍:
数据作为公司战略资产之一,随着京东业务持续增长,开辟不同维度经营方向,业务集市年增长率达到133%,预估2019年年中总体存储将突破EB级别。温冷数据 (一周以上没有访问记录的数据) 最为适用使用降存方案,与此同时温冷数据占总存储比例的80%以上。
解决思路/成功要点:
将EC技术融于JDHDFS中,并实现基于TTL的离线EC转换、校验、降副本功能。最终实现降低50%的存储。社区版本存储着诸多功能问题、性能问题、兼容性问题,发现并解决后,得以在生产环境上线。
成果:
开启EC的NS存储降低50%。
未开启EC的NS性能也显著提高。
听众收益
听众收益:
1. 理解EC原理
2. 理解EC在HDFS中的实现原理及应用
3, 掌握JD 移植HDFS关于EC的社区代码过程
4. 掌握JD 自主研发的离线EC转换
5. 了解JDHDFS应用集群上线EC过程
Apache Doris – 在线分析型分布式数据库
赵纯 百度 资深工程师
所属专题:大数据平台架构
课程概要
数据平台提供方为业务部门提供在线数据服务时,现存的方案总是有各种不完美,比如不能很好的支持SQL;不能够独立部署需要依赖很多其他模块;运维起来比较痛苦;性能不够理想...
引入Doris系统能够为数据平台方提供一种选择,用户通过使用Doris能够解决面临的一些问题。
听众收益
1.了解Doris的整体架构
2.了解Doris的应用场景
3.了解Doris的特性
SQL on Hadoop在快手大数据平台的实践与优化
钟靓 快手 大数据架构工程师
所属专题:大数据平台架构
课程概要
Hadop经过近几年的快速发展,SQL on Hadoop已经成为大数据处理最有效的工具。针对不同的业务场景和不同的数据规模,SQL on Hadoop社区也提供了多种解决方案,以Hive、SparkSQL、Presto、Impala等为主已成为各大公司最常用的解决方案。快手的数据仓库和Adhoc查询系统以HiveServer作为统一的入口,后端支持MR、SparkSQL、Presto等多种查询引擎,平台目前服务几十个业务部门,每天SQL总量近百万。公司SQL查询引擎团队针在面对大规模数据SQL查询的场景下遇到了诸多难点问题,对如何保证服务质量、提升运行速度、降低系统使用难度等方面多了大量改进和创新,主要包括如下几点:
1. 统一查询入口,后端支持Hive、SparkSQL、Presto等多种查询引擎,通过插件化的方式集成,可以很方便集成新的查询引擎。
2. 多级引擎智能选择,不需要用户了解各引擎之间的差异性,降低了平台使用门槛。为了保证查询服务的成功率,实现了引擎分级,高优引擎执行失败后会自动降低到低优但更稳定的查询引擎执行。
3. SQL专家系统的建设,对错误SQL和慢SQL的自动诊断,给用户提供出错误原因以及改进建议。
4. 数仓表之间血缘关系、查询热度分析及可视化展示。
5. 查询系统平滑升级、在线配置变更、流量控制等运维自动化工具的建设。
听众收益
1. 大数据SQL查询平台的技术选型。
2. 了解多级智能引擎选择的实现方案。
3. 了解大规模数据场景下,SQL查询平台遇到的痛点及解决方案。
4. 了解如何建设大数据SQL查询平台周边工具。
快手大数据平台架构师,数据查询引擎团队负责人。负责公司 SQL 引擎、OLAP 引擎、多维可视化平台的研发以及在公司的应用。曾供职于奇虎360,是开源项目 XLearning 的作者。主要研究领域包括分布式计算、OLAP 引擎、SQL on Hadoop、AI on Hadoop 等。
专题:大数据平台架构
人工智能技术离不开大数据的支撑,大数据近年来也已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。本专题将突出大数据平台实战,囊括Offline、Online、Real-time等多场景案例。
其他相关专题
-
数据科学
专题出品人:敬请期待
在数据科学的时代,“数据科学家”、“数据分析师”等职位在各大公司开始越来越被重视,也开启了数据科学在中国发展的黄金时代。本专题着重探讨如何把数据科学落地化,如何提取数据中的商业价值为公司节省费用或者创造新的商业利益。
-
智能数据分析
专题出品人:敬请期待
运用数据驱动的思想和策略在实践中逐渐成为共识;数据的价值已在科学研究和工商业的不同领域得到充分展现。然而,如果无法从数据中提取出知识和信息并加以有效利用,数据本身并不能驱动和引领数字化转型取得成功。如何让数据发挥它最大的价值?
-
大数据前沿
专题出品人:敬请期待
现今是数据信息时代,每分每秒都在产生数不尽的数据。这些数据如何获取,有什么用途,如何与前沿的深度学习、机器学习等相结合,是众多技术型企业都在关注的问题,本专题将探讨大数据平台的前沿技术,囊括Flink、Clickhouse、Spark Streaming等热门技术。
-
大数据平台架构
专题出品人:李远策
快手 数据架构师
人工智能技术离不开大数据的支撑,大数据近年来也已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。本专题将突出大数据平台实战,囊括Offline、Online、Real-time等多场景案例。