bladedragon

spark

cover

cover

cover

cover

cover

cover

基于velox的列式shuffle介绍

什么是 velox velox 是一个基于 C++ 编写的开源数据库执行加速工具库。它的优势是利用 native 方法来优化计算，深度利用系统级的优化手段例如向量化技术来加速执行计划。因此，也可以将其称为是一个 native compute engine。将 velox…

cover

cover

cover

cover

Hadoop CommitProtocol介绍

一些笔记的归档。 Hadoop CommitProtocol hadoop commitProtocol（全称 HadoopMapReduceCommitProtocol）是一套用于用于提交文件到文件系统的规则。是 hadoop 抽象出来的，为了实现存算分离…

spark文件读取分区参数设置方法

简单记录一个 spark 的分区参数如何配置的问题。最近发现一个案例，线上 EMR 的 spark 在相同 sql 和输入情况比另一个集群的 spark on yarn 要快很多，在排除其他额外因素后，发现 EMR 的任务在开始读取文件的阶段任务数远小于另一个…

cover

cover

cover

cover

cover

cover

cover

cover

Spark Job长尾问题排查及小文件优化的思考

最近在测试spark on k8s的时候，遇到了一些性能问题，于是记录一下排查过程，做一下案例的复盘。

cover

给Spark添加自定义的metric信息

最近因为一些工作场景需要获取spark 任务的更多信息，所以要修改spark 源码添加新的metric。顺便串一下整个metric体系，形成整体认知。

Ownership of this blog data is guaranteed by blockchain and smart contracts to the creator alone.

Blockchain ID
#39133
Owner
0xb8abdac6eb04028e2b0d3490e836db3442992a77
Transaction Hash
Creation 0x6815f69f...cd01f562ca Last Update 0x9b85242a...56ce390ba8
IPFS Address
ipfs://QmXp9gQYwqA8rJAqyF2zPAuwGMeUEVaJDVLcBQ4sTry1Jh