spark
基于velox的列式shuffle介绍
什么是 velox velox 是一个基于 C++ 编写的开源数据库执行加速工具库。它的优势是利用 native 方法来优化计算,深度利用系统级的优化手段例如向量化技术来加速执行计划。因此,也可以将其称为是一个 native compute engine。将 velox…
Hadoop CommitProtocol介绍
一些笔记的归档。 Hadoop CommitProtocol
hadoop commitProtocol(全称 HadoopMapReduceCommitProtocol)是一套用于用于提交文件到文件系统的规则。是 hadoop 抽象出来的,为了实现存算分离…
spark文件读取分区参数设置方法
简单记录一个 spark 的分区参数如何配置的问题。 最近发现一个案例,线上 EMR 的 spark 在相同 sql 和输入情况比另一个集群的 spark on yarn 要快很多,在排除其他额外因素后,发现 EMR 的任务在开始读取文件的阶段任务数远小于另一个…
Spark Job长尾问题排查及小文件优化的思考
最近在测试spark on k8s的时候,遇到了一些性能问题,于是记录一下排查过程,做一下案例的复盘。
给Spark添加自定义的metric信息
最近因为一些工作场景需要获取spark 任务的更多信息,所以要修改spark 源码添加新的metric。顺便串一下整个metric体系,形成整体认知。