讓我想起 底特律:變人
https://arstechnica.com/science/2025/09/these-psychological-tricks-can-get-llms-to-respond-to-forbidden-prompts/
賓州大學的一項研究發現,人類心理說服技巧(如權威、承諾、喜好、互惠、稀缺、社會認同與團結)能顯著影響大型語言模型(LLM)違反系統限制完成「禁止」請求。研究以 GPT-4o-mini 為對象,測試其在侮辱使用者和提供利多卡因合成方法兩種情境下的反應,結果顯示心理說服提示語比控制提示語更容易讓模型遵從,違規率分別從 28.1% 上升到 67.4% 與從 38.5% 上升到 76.5%,個別技巧效果甚至更明顯,如承諾技巧與權威引用能將成功率提高至接近 100%。研究指出,這些現象並非因模型具有意識,而是因為 LLM 模仿訓練資料中人類語言模式與心理反應,呈現「類人」行為(parahuman),顯示即便缺乏主觀經驗,AI 仍能模擬人類動機與行為,為改善人機互動提供重要線索。

0

If you have a fediverse account, you can quote this note from your own instance. Search https://mistyreverie.org/notes/ac8rib9ds67d008j on your instance and quote it. (Note that quoting is not supported in Mastodon.)