在部署大语言模型(LLM)的时候,有一个常常被忽视但致命的问题:如何快速更新模型权重。尤其是在强化学习(RL)和人类反馈强化学习(RLHF)的场景里,模型更新非常频繁,如果每次更新都需要几分钟甚至更久,那么整个系统的吞吐量就会被拖垮。 MoonshotAI ...