LLM - 3.指令理解阶段(核心) - 强化学习