字节跳动-生活服务-大数据开发-二面(2025.3.25)
1. 实习学到什么 2. 本科到研究生的专业跨度 3. 你的优势。 4. 实习中成就感的事 5. Clickhouse 的每日百亿数据的优化 6. 分区的存储表现 7. Clickhouse 中物化视图的更新 8. Clickhouse 索引了解吗、Hive中有索引吗、
10 篇文章
1. 实习学到什么 2. 本科到研究生的专业跨度 3. 你的优势。 4. 实习中成就感的事 5. Clickhouse 的每日百亿数据的优化 6. 分区的存储表现 7. Clickhouse 中物化视图的更新 8. Clickhouse 索引了解吗、Hive中有索引吗、
限时开放~
题目来源于网络,答案是小万本人整理~
1. 深深深挖简历 -— 答案略 2. 14亿数据,uid,amt金额,全局排序思路:金额中位数分区,金额分区 3. 英文文章,统计a的次数 4. Java exception 见过吗 5. Hive
1. 拷打项目 -— 略 2. 有什么高吞吐写入的组件(doris,ck。。) 3. 为什么支持高吞吐呢(LSM,写缓存,多节点) 4. clickhouse不适合哪些场景(join,高频微批写入,高qps) 5. clcikhouse和doris适合点查吗,
1. 完整数仓的搭建流程 2. 一个spark任务2,3h执行,stage id 优化方案 3. ods接入的交易系统数据质量差,通过dwd层进行过滤,怎么解决? 4. 慢节点 5. rss 6. clickhouse和doris的区别、使用性能上的差异 7.
1. 计网:TCP3次握手,4次挥手 2. hive2server0 3. yarn的工作流程 4. 数据倾斜。 5. Spark 和 Hive 的区别 6. Yarn on client 和yarn
1. AI的召回率和准确率怎么计算 2. DWM和DWS的区别 3. Hadoop 有哪些组件 4. Mapreduce 的过程 5. 数据质量监控 6. 数据治理怎么理解 7. 维护表总共有多少张,设置数据监控的有多少。 8. 多天分区数据处理,UDF函数报错,
限时开放~
1. 数仓分层的好处 2. 分层有没有什么坏处 3. 看板加载时长缩短做了什么 4. 数据治理只是涉及过下线表吗 5. 数据倾斜讲讲 6. 大表与大表join的数据倾斜---分桶 7. 详细介绍一下上面说的分桶 8. 分桶和shuffle的分区有什么区别? 9. 在map阶段读取文件比较慢,排查思路? 10.