Spark内存管理概览

geekgao • 2018年4月9日下午6:02 • 技术 • 阅读 4663

索引

翻译自Spark官网文档，版本：2.3.0

spark内存管理概览

Spark很大一部分内存用于storage和execution，即存储和执行任务。execution memory指的是在shuffle，join，sorts，aggregation操作中使用的内存，storage memory指的是用于整个集群缓存数据和传播中间数据的内存。

spark中storage和execution分享一个统一的区域(M)，当没有execution memory被使用，storage可以占用全部可用内存，反之亦然。storage占用execution memory时且有必要时execution可以驱逐storage，直到storage memory使用量低于一个阈值(R)。也就是说R描述了一个小于M的缓存区域，绝不会被驱逐。execution占用storage memory时因为实现复杂所以storage不会驱逐execution。

spark有两个相关配置项：

saprk.memory.fraction，即M，默认为0.6，剩余的40%是为用户数据结构，spark内部数据，防止Out of memory准备的
saprk.memory.storageFraction，即R，默认为0.5。

确定内存消耗量

从这里可以了解到，从spark web ui上的Executors页面中的Storage Memory部分看到的数据是storage部分的内存。如何知道某个RDD占用多大内存空间，最直接的方法是将RDD放进缓存中，然后从spark web ui查看Storage Memory即可。

原创文章，作者：geekgao，如若转载，请注明出处：https://www.geekgao.cn/archives/93

geekgao 2025年7月6日

https://www.geekgao.cn/feed 这个呢

评论于留言板
linux 2025年7月2日

学长，站点把rss加上呗

评论于留言板
111 2025年5月12日

感同身受，兄弟

评论于谈谈工作
可燃冰 2025年5月6日

也是西安人啊，挺好的，最近就业压力还挺大的，希望明年毕业可以西安了，爱的人也在西安。

评论于留言板
qingchen 2025年4月10日

博主能写一篇最新的nas文章不，最近准备diy一个玩一玩

评论于留言板
dd 2025年1月31日

alert(“测试嘻嘻嘻一踩踩踩下”)

评论于留言板
11 2025年1月3日

博主真牛逼,刚毕业啥也干不了

评论于留言板
阿强 2024年12月31日

大佬牛逼！

评论于谈谈工作
学习跳槽 2024年9月18日

我们公司就用了这个排查线上bug，还有热启动

评论于【每日阅读】2020年7月3日-线上项目出BUG没法调试？推荐这款阿里开源的诊断神器！
6750 2024年9月13日

alert(“测试嘻嘻嘻一踩踩踩下”)

评论于留言板

Spark内存管理概览

spark内存管理概览

确定内存消耗量

相关推荐

发表回复