文本GPT

文本GPT,Web3.0的世界由數字內容構成,舉凡圖文影音皆為文本,是數據化世界的基礎建設。

MusseAI結合了RLHF(人類反饋強化學習)的訓練方法。此方法包括人工演示模型應如何響應以及從最佳到最差對響應進行排序,進而推薦組合。

在實踐中,人類培訓師扮演對話的雙方,即用戶和 AI,並提供範例文本。當人類培訓師扮演文本機器人的角色時,模型會被要求生成一些建議以協助培訓師提供響應;然後訓練者對響應進行評分和排序,並將較好的返回給模型,通過上述獎勵模型對模型進行微調和不斷迭代。

Last updated