Issue #1
问题描述
使用 Rocksdb statebackend Flink 作业频繁 oom 导致作业失败
报错原因
OOM 报错,本质是内存不够用导致, 通过 heap Dump 分析, 主要占用在 broadcaststate
的占用上
解决方案
调整堆内内存比例, 增大堆内内存比例, 或者增加作业 TaskManager 的内存, 进而增大堆内内存.
小结
当 Flink 作业用到了 broadcast
操作时,要注意多分配一些内存给堆内, 避免 broadcast
导致堆内内存占用过多,导致 OOM
反思
作为平台方,如何及时预警和发现这些可能存在问题的作业