強化學習微調

儘管業界幾乎已經宣布強化學習不適用於語言模型，但仍有許多機構和研究人員在探索強化學習微調全部或部分語言模型參數的可行性。 OpenAI 是最著名的一個。 ChatGPT採用了OpenAI自己提出的成熟的SOTA強化學習模型PPO來進行語言模型微調。到目前為止，PPO 是唯一成功應用於語言模型的 RL 算法。讓我們從使用 RL 算法圖形的角度來看如何描述這個微調過程。