Issue #1

问题描述

使用 Rocksdb statebackend Flink 作业频繁 oom 导致作业失败

报错原因

OOM 报错,本质是内存不够用导致, 通过 heap Dump 分析, 主要占用在 broadcaststate 的占用上

解决方案

调整堆内内存比例, 增大堆内内存比例, 或者增加作业 TaskManager 的内存, 进而增大堆内内存.

小结

当 Flink 作业用到了 broadcast 操作时,要注意多分配一些内存给堆内, 避免 broadcast 导致堆内内存占用过多,导致 OOM

反思

作为平台方,如何及时预警和发现这些可能存在问题的作业