哥哥立志成为 Apache Commit～

痛苦的学习源码中～

Spark-源码学习-SparkCore-存储服务-磁盘组件

发表于2020-07-13|更新于2022-09-21|Spark

|阅读量:

一、理论

Spark 本身是基于内存计算的架构，数据的存储也主要分为内存和磁盘两个路径。在 Spark 当中，磁盘都用在哪些地方呢🤔️～

溢出临时文件
存储 Shuffle 中间文件
缓存分布式数据集

磁盘的第三个作用就是缓存分布式数据集。也就是说，凡是带DISK字样的存储模式，都会把内存中放不下的数据缓存到磁盘

Spark 将经常被重要的数据缓存到内存中以提升数据读取速度，当内存容量有限时，则将数据存入磁盘中或根据最近最少使用页面置换算法将内存中使用频率较低的文件空间收回，从而让新的数据进来。Spark 则根据存储位置、是否可序列化和副本数目这凡个要素将数据存储分为多种存储级别。

二、实现

2.1.架构设计

2.1.1. DiskBlockManager

DiskStore 负责 Spark 磁盘存储。依赖于 DiskBlockManager, DiskBlockManager 负责为逻辑的 Block 与数据写入磁盘的位置之间建立逻辑的映射关系

引用本站文章

Spark-源码学习-SparkCore-存储服务-磁盘组件-DiskBlockManager

2.2.2. DiskStore

DiskStore 负责将 Block 存储到磁盘。

引用本站文章

Spark-源码学习-SparkCore-存储服务-磁盘组件-DiskStore

文章作者: 周小丑

文章链接: http://example.com/2020/07/13/Spark-%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0-SparkCore-%E5%AD%98%E5%82%A8%E6%9C%8D%E5%8A%A1-%E7%A3%81%E7%9B%98%E7%BB%84%E4%BB%B6/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Joker！

Spark SparkCore

打赏

微信
支付宝

相关推荐

Spark-源码学习-SparkCore-存储服务-内存-存储内存池 StorageMemoryPool

Spark-源码学习-SparkCore-存储服务-内存组件-内存管理器 UnifiedMemoryManager

Spark-源码学习-SparkCore-存储服务-内存-执行内存池 ExecutionMemoryPool

Spark-源码学习-SparkCore-存储服务-内存组件

Spark-源码学习-SparkCore-存储服务-块传输服务

Spark-源码学习-SparkCore-存储服务-块元数据管理 BlockInfoManager

评论

ValineTwikoo

播放音乐

数据库加载中

全屏显示阅读模式添加书签

立志成为 Commiter 👏