banner
bladedragon

bladedragon

大数据

cover
cover

blaze 执行流程源码阅读

首先介绍一下 blaze,blaze 是快手自研的基于 Rust 语言和 DataFusion 框架开发的 Spark 向量化执行引擎,旨在通过本机矢量化执行技术来加速 Spark SQL 的查询处理。为什么考虑深入了解 blaze,首先是因为当前相对成熟的开源 spark…
cover
cover
cover
cover
cover
cover

基于velox的列式shuffle介绍

什么是 velox velox 是一个基于 C++ 编写的开源数据库执行加速工具库。它的优势是利用 native 方法来优化计算,深度利用系统级的优化手段例如向量化技术来加速执行计划。因此,也可以将其称为是一个 native compute engine。将 velox…
cover
cover
cover
cover

Hadoop CommitProtocol介绍

一些笔记的归档。 Hadoop CommitProtocol hadoop commitProtocol(全称 HadoopMapReduceCommitProtocol)是一套用于用于提交文件到文件系统的规则。是 hadoop 抽象出来的,为了实现存算分离…
cover
cover
cover

关于S3A的一些踩坑和思考

最近工作中架构升级,将原来的 EMR 集群迁移到基于开源的自建集群上,原来使用的一些组件自然也需要改造,其中就包括 s3。在我们的自建集群中,选用的开源 hadoop 中 s3a client(或者 s3a connector,下面简写成 s3a, 意义基本相同)来连接原有的…
cover
cover
cover
cover
cover
cover
cover
cover

Spark Job长尾问题排查及小文件优化的思考

最近在测试spark on k8s的时候,遇到了一些性能问题,于是记录一下排查过程,做一下案例的复盘。
cover

给Spark添加自定义的metric信息

最近因为一些工作场景需要获取spark 任务的更多信息,所以要修改spark 源码添加新的metric。顺便串一下整个metric体系,形成整体认知。
此博客数据所有权由区块链加密技术和智能合约保障仅归创作者所有。