- Spark大数据商业实战三部曲:内核解密、商业案例、性能调优(第2版)
- 王家林 段智华编著
- 145字
- 2025-02-25 00:19:36
第9章 Spark中Cache和checkpoint原理和源码详解
本章讲解Spark中Cache和checkpoint原理和源码。9.1节讲解Spark中Cache原理和源码,CacheManager管理缓存,缓存可基于内存或者磁盘。CacheManager通过BlockManager来操作数据;9.2节对Spark中checkpoint原理和源码进行详解。Spark在生产环境下,如果Tranformations的RDD非常多或者具体Tranformation产生的RDD本身计算特别复杂和耗时,我们就可以通过checkpoint对计算结果数据进行持久化。