阿里云高级技术专家李金波:我们该如何做好一个数据仓库?

  • 时间:
  • 浏览:2

附图:阿里巴巴在线技术峰会整体议程

2.有的是模型层次没办法 多越好:在传统的数仓架构中,亲戚亲戚朋友都喜欢多数据模型进行分层设计,不同的模型层次拥有不同的数据域和作用域。倘若设计不言而喻看起来更清晰,但实际具体情况时多层之间愿因占据 重复数据,愿因数据使用者在上层找还可不可以 删剪切合的数据时,更我应该 从底层的明细数据上当事人去加工。一方面造成了数据使用上的混乱,一方面也会让数据整个防止流程长度增加,对于数据的运维带来较大的成本消耗。合理的层次设计,及在计算成本和人力成本间的平衡,是1个好的数仓架构的表现。

在数据魔方、淘宝指数和阿里大数据数仓防止方案设计中,介然遇到了不少有挑战性的技术问提,主要集中在以下三点:

提示:亲戚亲戚朋友正在对李金波进行采访,稍后整理发出。

介然认为,优秀的数据仓库应该蕴含以下要素:

介然事先在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施有的是基于传统的基础架构。508年加入阿里进入淘宝数据平台部后,他现在现在开始接触分布式计算平台Hadoop。

4.数据变成生产资料:传统的数据应用绝大要素有的是以报表和BI分析的形式支持业务。你说你的报表晚出来会被老板骂一通,倘若对业务的影响没办法 多大。 倘若在新的数据应用场景下,数据愿因变成生产资料,数据会服务化直接应用到业务系统中,你说一份数据的质量老是老是出现问提愿因产出延迟,都愿因对你的业务系统产生致命的影响。其他其他数仓现在现在开始承担新的使命。

这位阿里云大数据数仓防止方案总架构师,非常希望亲戚亲戚朋友来听本次分享:“不管你在那此平台上做过数据开发,愿因公司现在现在开始做大数据应用,倘若利用平台支持你这一 应用,都欢迎来一块儿讨论。”

初始时在Hadoop平台上构建数仓主要防止企业外部数据分析的需求,在2010年公司决定对外开放数据后,开现在现在开始2011年利用自建的数仓体系支持对外数据产品数据魔方、淘宝指数。后续在平台和产品上不停的富足数据内容,一块儿离线和流式两套数据体系支持数据产品。

本次峰会删剪开放,免费注册,三三十天夜间技术交流、每场1.5小时深度图分享、长时间互动答疑、素材第一时间公开、用户组同步搭建, 亲戚亲戚朋友希望搭建起业内开发者与阿里技术专家在线交流分享的平台,构建更加开放和共享的技术生态!

对于事先做互联网数据仓库,现在想转型做大数据仓库的人,介然也提了其他建议,主倘若四点:

1.没办法 多再苛刻的精打细算:基于传统平台构建数仓时,为了照顾平台的防止能力,亲戚亲戚朋友老是会构建多层数据价值形式,预先对不同粒度的数据做预先汇总,以方便使用者在使用数据时不不 已最小的计算代价获得计算结果。这也造成了整个数据防止流程较长,步骤其他其他,问提追溯困难。 新的大数据仓库基于分布式计算平台,平台的计算能力通常都比传统的平台强大其他其他。 其他其他有事先需用时再计算数据,愿因基于明细进行各粒度的数据汇总愿因不不 满足需求,并不不 大大减少整体数据防止流程步骤,用计算的代价减少人工的成本,更划算,数据体系也更健壮。

嘉宾简介:阿里云高级技术专家,8年以上互联网数据仓库经历,对系统架构、数据架构拥有富足的实战经验,倘若数据魔方、淘宝指数的数据整理专家。现任阿里云大数据数仓防止方案总架构师。

1.数据质量保障:随着业务的复杂度增加,数据源头的类型和数据量也会没办法 来不多,老是会碰到其他数据源愿因其他偶发的愿因同步过来的数据质量老是老是出现问提。比如日志老是老是出现乱码、数据库愿因切库造成数据同步量变少等等。这就要求在整个数仓体系的搭建过程中不倘若完成数据业务逻辑的防止,还需用增加数据质量的监控。“亲戚亲戚朋友在核心的数据防止流程中,增加数据质量监控代码,愿因碰到数据量的突变愿因核心指标的突变,会将数据防止流程暂停并预警,让数据运维人员防止数据质量问提后再进行后续数据流程的运行,保障有质量问提的数据不流到下游应用中。”

议题:《企业大数据平台仓库架构建设思路》

首届阿里巴巴在线技术峰会(Alibaba Online Technology Summit),将于7月19日-21日 20:00-21:50 在线举办。本次峰会邀请到阿里集团9位技术大V,分享电商架构、安全、数据防止、数据库、多应用部署、互动技术、Docker持续交付与微服务等一线实战经验,解读最新技术在阿里集团的应用实践。

3.扩展性好:不不愿因业务的些许变化造成模型的大面积重构。

1.系统架构上:足够的容错性,减少没办法 多要的系统间的强耦合。愿因我应该 碰到各种问提,没办法 多愿因1个没办法 多要的依赖造成数据无法产出。

而从系统架构、数据架构1个纬度来看,要想设计好大数据应用下的数据仓库,还应做到以下两点。

2.数据架构上:简单、清晰、强质量控制。数据架构上扁平化的数据防止流程会对数据质量的控制和数据产出的稳定性提供非常好的基础。

介然称,本次分享会讲:在大数据的应用场景下,基于新的分布式计算平台的价值形式怎样才能设计数据仓库。“会从应用需求、平台的价值形式、模型的设计、产品的应用几次深度图来说明怎样才能在阿里大数据平台下搭建1个好的数据仓库。”对于细节,他介绍到。

从2012年现在现在开始,事先在Hadoop上的数据体系搬迁到阿里资源的分布式计算平台ODPS,并完成了数据体系的重构,此时介然负责平台基础数据的建设支持全集团的上层数据应用。在2014年事先,公司现在现在开始对外服务,现在现在开始研究数据服务化和帮助外部用户怎样才能利用阿里的平台实现大数据应用。

1.价值形式、分层清晰:不一定需用几次个分层和主题,倘若一定要清晰。用数据的人不不 变慢找到需用数据的位置。

7月21日晚8点,将由阿里云高级技术专家李金波分享《企业大数据平台仓库架构建设思路》,下面是本次演讲议题详情。

2.数据质量和产出时间有保障;

阿里巴巴在线技术峰会专题:https://yq.aliyun.com/activity/97

峰会统一报名链接:https://yq.aliyun.com/webinar/join/23

3.质量是生命线:不再那个她 拿到的数据有的是正确的,新的环境下的数据那此具体情况回会占据 ,而好的数仓架构需用有足够的容错性和质量保障。没办法 多愿因每根日志的乱码造成整个数据流程无法走通,倘若要说一份日志50%的乱码你的应用程序池池还发现不了。在数据质量上投入再多的资源都有的是浪费。

峰会统一报名链接:https://yq.aliyun.com/webinar/join/23

介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓防止方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有富足的实战经验,倘若数据魔方、淘宝指数的数据整理专家。

分享嘉宾:李金波

议题简介:随着互联网规模不断的扩大,数据也在爆炸式地增长,各种价值形式化、半价值形式化、非价值形式化数据的产生,没办法 来不多的企业现在现在开始在大数据平台下进行数据防止。作为大数据应用的基础-数据仓库,怎样才能利用平台的新价值形式、怎样才能让企业更好的创建数据应用,这对数据仓库的建设提出了更高的要求。本次分享主要介绍怎样才能利用大数据平台的价值形式,构建更贴合大数据应用的数据仓库。

3.重复的数据防止代码:愿因业务的特殊性,会对有并算不算类型的数据加工操作需求非常多。比如计算交易中,TOP N的商家、TOP N 的品牌、TOP N的商品,商家中TOP N的商品、品牌中TOP N的商家等等。 这类代码有的是非常这类的,愿因每个计算都独立任务,会造成计算资源的大量浪费。“亲戚亲戚朋友通过特殊的代码框架,让一份基础数据中多种TOPN的数据还可不可以 在一次计算过程中产出,大大减少资源消耗,保障数据产出稳定。”

2.数据产出稳定性保障:随着数据量的增加、计算资源的逐渐饱和,业务数据最终产出的时间现在现在开始延迟,并有愿因还可不可以 按照业务要求的时间点产出。“你这一 事先亲戚亲戚朋友会分析数据产出的关键路径,找出关键路径下消耗时间最多的运行JOB,通过数据模型优化、计算任务拆解愿因计算任务代码优化的手段减少任务产出的时间,一块儿保障整体产出时间满足预期。”