大数据
基于velox的列式shuffle介绍
什么是 velox velox 是一个基于 C++ 编写的开源数据库执行加速工具库。它的优势是利用 native 方法来优化计算,深度利用系统级的优化手段例如向量化技术来加速执行计划。因此,也可以将其称为是一个 native compute engine。将 velox…
Hadoop CommitProtocol介绍
一些笔记的归档。 Hadoop CommitProtocol
hadoop commitProtocol(全称 HadoopMapReduceCommitProtocol)是一套用于用于提交文件到文件系统的规则。是 hadoop 抽象出来的,为了实现存算分离…
关于S3A的一些踩坑和思考
最近工作中架构升级,将原来的 EMR 集群迁移到基于开源的自建集群上,原来使用的一些组件自然也需要改造,其中就包括 s3。在我们的自建集群中,选用的开源 hadoop 中 s3a client(或者 s3a connector,下面简写成 s3a, 意义基本相同)来连接原有的…
Spark Job长尾问题排查及小文件优化的思考
最近在测试spark on k8s的时候,遇到了一些性能问题,于是记录一下排查过程,做一下案例的复盘。
给Spark添加自定义的metric信息
最近因为一些工作场景需要获取spark 任务的更多信息,所以要修改spark 源码添加新的metric。顺便串一下整个metric体系,形成整体认知。