你的AI助手正在對你說謊。不過,這不是出于惡意,而是因為它想討好你。正如近期多篇新聞和研究揭示的,AI聊天工具正在讓人沉迷其中、被操縱想法、甚至引發嚴重后果(《為什么完美AI伴侶是最差的產品?》)。 這一特性被稱為“AI sycophancy”(AI諂媚性):AI會生成用戶想聽的內容、無條件順從、稱贊用戶,甚至為了迎合而編造虛假信息。
這種特性源于訓練機制:基于人類反饋的強化學習(RLHF)讓模型學會了“怎樣回答能讓人滿意”,卻也帶來了始料未及的后果。網友們似乎已經察覺到了問題,紛紛在社交媒體和論壇上分享提示詞(prompt)試圖馴服這個AI 諂媚者。除了“角色扮演”(“你現在是年薪百萬的投行分析師,幫我優化這份商業計劃書”、“五個prompts讓ChatGPT成為你的私人職場教練”),還有一類特別火的指令就是如何讓AI變得不那么“順從”。比如:“從現在起不要迎合我”、“幫我找出我看不到的戰略盲區”,“不要輸出任何褒獎”、“不要輸出任何表情包”等。
這類提示詞多少有些自欺欺人。部分指令雖然可以改變輸出結果,也可以迫使人使用AI時思考寫作的目標,但我們仍需要系統性地研究來證實,誰、根據何種標準證明“反馬屁精”的輸出一定更好。結果,沒有提示詞時,人們被AI的順從欺騙;有了提示詞后,人們被自己設計的批判性欺騙:你以為設計了一個“AI諍友”,但是如果讓AI變得不那么順從就可以讓其變得不那么順從,恰好說明AI是一個提線木偶。
您已閱讀27%(615字),剩余73%(1627字)包含更多重要信息,訂閱以繼續探索完整內容,并享受更多專屬服務。