摘要:365bet体育在线分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读! 在谈数仓之前,先来看下面几个问题: 数仓为什么要分层? 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗 阅读全文
posted @ 2021-07-22 15:34 五分钟学大数据 阅读(223) 评论(0) 推荐(3) 编辑
摘要:目录: 一. 实时计算初期 二. 实时数仓建设 三. Lambda架构的实时数仓 四. Kappa架构的实时数仓 五. 流批结合的实时数仓 实时计算初期 虽然实时计算在最近几年才火起来,但是在早期也有部分公司有实时计算的需求,但是数据量比较少,365bet体育在线在实时方面形成不了完整的体系,基本所有的开发都是具体 阅读全文
posted @ 2021-07-17 13:00 五分钟学大数据 阅读(286) 评论(1) 推荐(0) 编辑
摘要:365bet体育在线最新版已发布至公众号【五分钟学大数据】 获取此套面试题最新pdf版,请搜索公众号【五分钟学大数据】,对话框发送 面试宝典 扫码获取最新PDF版: 版本 时间 描述 V1.0 2020-02-18 创建 V1.2 2020-06-17 新增 spark 、flink相关面试题 V1.3 2021- 阅读全文
posted @ 2021-07-16 16:22 五分钟学大数据 阅读(55) 评论(0) 推荐(0) 编辑
摘要:1. Flink 的容错机制(checkpoint) Checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保证应用流图状态的一致性。Flink的Checkpoint机制原理来自“C 阅读全文
posted @ 2021-07-13 17:45 五分钟学大数据 阅读(181) 评论(0) 推荐(0) 编辑
摘要:? 365bet体育在线分为四个章节介绍实时计算,第一节介绍实时计算出现的原因及概念;第二节介绍实时计算的应用场景;第三节介绍实时计算常见的架构;第四节是实时数仓解决方案。 一、实时计算 实时计算一般都是针对海量数据进行的,并且要求为秒级。由于大数据兴起之初,Hadoop并没有给出实时计算解决方案,随后Storm, 阅读全文
posted @ 2021-07-12 09:53 五分钟学大数据 阅读(429) 评论(0) 推荐(2) 编辑
摘要:面试官:说下你知道的MPP架构的计算引擎? 这个问题不少小伙伴在面试时都遇到过,因为对MPP这个概念了解较少,不少人都卡壳了,但是365bet体育在线们常用的大数据计算引擎有很多都是MPP架构的,像365bet体育在线们熟悉的Impala、ClickHouse、Druid、Doris等都是MPP架构。 采用MPP架构的很多OLAP引擎 阅读全文
posted @ 2021-07-11 16:33 五分钟学大数据 阅读(151) 评论(0) 推荐(0) 编辑
摘要:1. hive内部表和外部表的区别 未被external修饰的是内部表,被external修饰的为外部表。 365bet体育在线首发于公众号【五分钟学大数据】,关注公众号,获取最新大数据技术文章 区别: 内部表数据由Hive自身管理,外部表数据由HDFS管理; 内部表数据存储的位置是hive.metastore.w 阅读全文
posted @ 2021-07-03 15:40 五分钟学大数据 阅读(88) 评论(0) 推荐(0) 编辑
摘要:Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的,看似不等价的SQL其实是等价的SQL。可以说执行计划 阅读全文
posted @ 2021-06-23 13:56 五分钟学大数据 阅读(226) 评论(1) 推荐(0) 编辑
摘要:在SQL中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时365bet体育在线们想要既显示聚集前的数据,又要显示聚集后的数据,这时365bet体育在线们便引入了窗口函数。窗口函数又叫OLAP函数/分析函数,窗口函数兼具分组 阅读全文
posted @ 2021-06-15 17:48 五分钟学大数据 阅读(175) 评论(0) 推荐(0) 编辑
摘要:大数据好书推荐 历时多年整理,每看到一本好书都会收藏下来,到现在一看竟然有100多本了 这些书籍确实是大数据的宝藏,从大数据入门到实战,深入原理,大数据架构等全部都有 从 hadoop,hive,spark,flink,kafka,hbase,kudu,clickhouse,数仓建模,大数据算法,机 阅读全文
posted @ 2021-06-03 15:29 五分钟学大数据 阅读(83) 评论(0) 推荐(0) 编辑