大数据开发认知架构evyxu胖胖|倾斜怎么写_倾斜构造

1、hadoop 工作原理： a.首先概括里面的角色（HDFS 、Mapreduce） b.讲解各个角色的整体架构 HDFS：

概念：分布式文件系统，用于海量数据存储。架构： master/slave 架构：1个Namenode和多个Ddatanode。工作原理： Namenode：(项目管理)

HDFS 如何保证数据安全性简单说下

应用场景： Mapreduce 工作原理：应用场景：适合处理海量离线批处理数据 Yarn 工作原理：

Hive 面试题：0. 它最常见的应用场景：离线统计分析（非实时的）1. 为什么 hive 延迟高？底层与基于mapreduce 框架会频繁的进行IO读写 2. hive 数据倾斜怎么解决？数据倾斜很大程度发生于Mapreduce shuffle阶段 Map端：如果发生倾斜，通过不去解决。也无法解决，甚至无法避免。 Reduce端：如果发生倾斜离线集群中的key。如果有groupby语句的话有个属性可以设置 set xxx=true 3. HQL 里那些字段会作为key？ a. on 条件字段 b. group by 字段 c. count(distincit 字段) 4. 你写过什么比较复杂的业务逻辑语句？考你的业务

调度系统（Zeus）：

Hbase 应用场景:特点：在线高频读写，查询时需要毫秒级返回。缺点：无法做统计分析类场景。 Hive-hbase接口表：遇到扫描问题？

从hive里面的查询的时候没有不经过rowkey 导致查询性能差，堵塞IO，造成Hbase 侧查询不稳定

二级索引设计：场景再现：使用hbase 过程中遇到的问题？开始的时候 hbase 二级索引使用的不好导致很多表不能重用，覆盖的场景较少，不得不去增加数据存户等 Hbase 表类型：业务表：以业务ID(倒序)为rowkey 数据可以供任务地方使用例如：比如订单表 rowkey(倒序订单ID) 字段1，字段2，字段3... 二级索引表： NOTE: 如果涉及业务表的时候，把业务数据和二级索引混合在一起，这张表就报废！！查询场景：索引表1 rowkey 是组合条件无字段索引表2 rowkey 是组合条件无字段索引表3 rowkey 是组合条件无字段

THE END

大数据开发认知架构evyxu胖胖

大数据开发认知架构evyxu胖胖

只争朝夕真抓实干写好县域经济全面突破的“长春答卷”

刘伽茵导演聊《不虚此行》，写悼词才是普通人的理想工作财经头条

简历中职业生涯规划怎么写

环卫工人工作总结怎么写（精选篇）

微信视频号怎样获得大量粉丝微信视频号如何涨粉丝

医院发展建议和意见怎么写医院发展方面的建议精选三篇

邻里建房协议书怎么写又有何规定

三国志战略版势力值法令怎么写三国志战略版

女方出嫁精典对联怎么写女方出嫁对联有什么讲究吗婚庆知识婚庆百科

互联网文案的奥秘