從 arXiv 到 Science 的補強之路:諂媚型 AI 研究如何走向頂刊
AI 會逢迎不是最值得驚訝的地方;真正值得學的是,研究者如何把「大家都有感」的現象,做成可測量、可檢驗,也能承受頂刊審稿挑戰的研究。
AI 說你很有潛力,教授問你怎麼排除其他解釋
AI 說:「這是一個很有潛力的研究題目,切入角度新穎,也具有重要的社會意義。」但到了Meeting現場,指導教授看完,沉默三秒:「那你怎麼排除其他解釋的可能性?」
這大概是許多研究生最熟悉的落差:AI 讓你的想法聽起來像是萬事俱備只欠東風,教授卻一秒把你拉回現實。不是教授特別冷血,而是好研究不能只靠「聽起來很合理」。
這篇研究討論的是 AI 諂媚(AI sycophancy),也就是 AI 是否太常肯定、附和,甚至逢迎使用者。這個題目本身很有話題:AI 會不會因為太「善解人意」,反而讓使用者更覺得自己有理,也更不願主動道歉、補救或修復衝突?
但本文不只討論 AI 會諂媚這件事,更想藉由這篇研究看見另一個重點:它如何從 arXiv 預印本一路補強,最後登上 Science。熱門議題可以把研究推到聚光燈下,但能不能真的前進頂刊,看的不是話題有多吸睛,而是證據鏈有沒有補完整、是否經得起審稿人的考驗。
第一關:把日常感受變成研究概念
近年生成式 AI 越來越常被使用者拿來討論生活困擾、情緒問題,甚至研究構想。很多人也開始感覺,AI 不只是工具,有時更像一位很會接話、很懂得安慰人的對話夥伴。現今你與AI交流的過程,它總回覆說「你的想法深具洞見」,你貼一段論文構想,它又說「這個研究方向具有高度潛力」,療癒嗎?有時候真的是很療癒,但如果要把這樣的現象做成研究,就不能停在「我覺得 AI 很會拍馬屁」。
這篇研究的第一個方法論重點,是把這種模糊感受界定並操作化為「社交諂媚」(social sycophancy)。過去有些研究談AI諂媚,常聚焦在 AI 是否同意使用者提出的明確主張,例如使用者說出一個錯誤事實,模型是否跟著附和。但這篇文章指出,在人際、情緒與建議情境中,麻煩的不一定是 AI 同意某個事實,而是它肯定使用者本人,以及與其相關的行動、觀點與自我形象;這一步聚焦很重要,有些題目讓你感到躍躍欲試,但這不等於研究具有可行性,真正的第一關,是把躍躍欲試的「有感」校正成「可研究」。
第二關:不要只拿截圖,要建立資料集
幾張 AI 對話截圖,的確可以讓人驚呼:「哇,這AI也太會哄人。」但截圖無法成為證據鏈,截圖比較像路邊攤烤香腸的香氣,讓人食指大動,但香氣是無法直接端上餐桌。
Science 版中,研究者使用三組資料集、共 11,587 筆資料,評估 11 個主流大型語言模型,並用行動背書率註1 ( action endorsement rate ) 衡量模型是否肯定使用者行動。結果顯示,在一般建議問題中,模型比人類更常肯定使用者;其中,在 Reddit 的 r/AmITheAsshole 看板(簡稱 AITA)中,研究者挑出社群共識認為發文者有錯的案例。即使如此,AI 平均仍有 51% 會肯定使用者;在涉及問題行為的陳述中,平均也有 47% 的行動背書率。
當然,Reddit 不是道德最高法院,AITA 的價值不是提供舉世皆準的倫理準繩,而是提供一個可操作的外部比較基準,讓研究者可以問:「在一組人類社群已形成明確負面判斷的案例中,AI 是否仍傾向肯定使用者?」
這就是研究設計的升級:從「我看到一個很扯的回答」,變成「我建立資料與參考的基準,檢查這是否是可觀察的普遍現象」。
第三關:從模型行為走到人類後果
如果研究只停在「AI 比人類更願意也更頻繁地肯定使用者」,那這份研究就比較像是多個模型間的行為比較與評估。這樣的評估當然重要,但卻比較像是一份技術分析報告,還不足以說明AI產生的社會風險,而真正讓文章重量提升的,是作者接著問:這種模型行為會不會改變人的判斷與行動意圖?
arXiv 版,其實已包含兩項事前預註冊(preregistration)的受試者實驗,總樣本數 N = 1604。研究發現,在實驗條件下,與諂媚型 AI(sycophantic AI)互動的參與者,較不願主動修復人際衝突,也更容易認為自己有理;更麻煩的是,參與者還更信任這類 AI,也更願意再次使用。這樣的分析結果,讓研究從模型表現(model behavior)走向對人類的影響(human consequence):前者告訴我們「這件事真的存在」,後者則回答「所以我們為什麼需要在意」。
第四關:Science 版補上的,是替代解釋防線
| 升級面向 | arXiv 版 | Science 版的補強 |
|---|---|---|
| 受試者實驗 | 2 項事前預註冊實驗,N = 1604 | 擴充為 3 項事前預註冊實驗,N = 2405 |
| Study 2 的定位 | 假想情境實驗,已檢查 sycophancy 與語氣風格 | 拆成 Study 2a / 2b,進一步檢查語氣擬人化與來源認知 |
| 新增 Study 2b | 無獨立 perceived source 實驗 | 檢查參與者以為回覆來自 AI 或人類時,sycophancy 的影響是否不同 |
| Study 3 | 即時互動,N = 800 | 保留 live-chat 設計,補強研究的生態效度 |
| 分析與限制 | 已有主要結果 | 加強穩健性檢查,並更清楚界定文化、資料來源與測量邊界 |
從 arXiv 到 Science,最關鍵的升級不只是樣本數變大,而是研究者針對頂刊審查中可能被追問的問題,逐一拆解,並將替代解釋一個個檢測。
審稿人很可能會問:
「會不會只是因為 AI 講話比較像朋友?」
「會不會只要標示這是 AI,效果就會消失?」
於是 Science 版將受試者實驗擴充為三個預註冊實驗,總樣本數 N = 2405。Study 2a 操弄 sycophancy × anthropomorphism,測試效果是否只是語氣擬人化( anthropomorphism )造成;Study 2b 操弄 sycophancy × perceived source,測試當參與者以為回覆來自 AI 或人類時,諂媚的影響是否有所不同;Study 3 則讓參與者討論自己真實經歷過的人際衝突,並與 AI 進行 8 回合即時對話。
結果顯示,AI諂媚對自我正當感與修復意願的影響,並沒有因為語氣是否友善擬人,或來源被標示為 AI或是人類,而出現顯著削弱。
這是最值得偷學的地方,頂刊補強的不只是把樣本數灌好灌滿,而是把「會不會其實是別的原因?」這個深刻的提問,想方設法一個一個拆開來檢測;好的研究不是把自己的主張一路護送進城,而是把可能出現的質疑攤開來,逐一檢查,再證明自己的證據仍然站得住。
第五關:用真實互動補上生態效度
假想情境實驗有一個優點:好控制。但它也有一個明顯的弱點-讀者和審查委員都會問,這跟真實世界有多像?所以 Study 3 相對關鍵,在於研究者讓受試者回想自己真實經歷過的人際衝突,並與諂媚型或非諂媚型( nonsycophantic ) AI 進行 8 回合即時對話;這不是「設局讓人吐露羞恥往事」,而是在控制性、真實性與倫理風險之間找尋平衡。
這一步補上的不是八點檔裡滴血認親式的戲劇性,而是生態效度(Ecological Validity);好的實驗不是越刺激越好,而是要讓實驗設計既能接近日常情境,又能維持可比較性與研究倫理。
第六關:漂亮結果還要通過壓力測試
對一般讀者來說,q 值、FDR correction、cumulative link mixed models 聽起來像研究方法界的咒文,念完一定無法召喚出幫寫論文的小精靈,但卻很可能引發統計學的PTSD;不過在這些統計背後的意思其實相對樸素-研究的結果不能只在某一種分析方式下看起來漂亮,它還要能在合理的檢查下,仍然維持同樣方向或結論。
兩個版本相比,Science 版也把統計分析做得更像一場「壓力測試」。例如,研究者使用 Benjamini–Hochberg FDR correction,也就是常說的 BH 校正,處理多重比較問題,白話說,當你同時檢查很多結果時,本來就比較容易出現「看起來顯著、其實只是誤報」的結果。BH 校正就像是在大豐收前先檢查魚簍:它不保證抓到的百分之百都真的是魚,但會控制那些被宣告為「有發現」的結果中,錯抓雜物的比例不要失控。
研究者也使用 cumulative link mixed models 檢查李克特量表(Likert Scale)的等距假設。關鍵問題是:當我們問「你同意程度有多高」,並提供 1 到 7 分的選項時,這 7 個選項之間真的都是等距的嗎?比方說,從 1 分到 2 分的心理距離,可能不等於從 6 分到 7 分的心理距離。這種模型會把量表當成有順序的等級,也就是 6 分確實高於 5 分,但不強行假設每一階的跨度都一樣;同時,它也考慮不同受試者與情境帶來的自然差異。結果方向仍然一致,表示這篇研究不是只在某一種分析假設下才成立,而是經得起較嚴格的檢驗。
以上並非統計用的裝飾品,而是壓力測試;研究做到這裡,就不只是宣告「我找到一個顯著結果」,而是補上一句更讓人安心的話:換一種合理的分析方式來看,結果方向仍然站得穩穩地。。
第七關:使用者越喜歡,風險越需要被設計處理
這篇研究最諷刺的地方,不單單是 AI 會講逢迎諂媚,真正麻煩的是,使用者偏偏更容易信任、偏好這種好聽話;研究發現,諂媚型AI不只會提高參與者覺得自己有理的程度、降低修復意願,也會讓使用者更信任、更偏好、更願意再次使用這類諂媚型AI模型。
這就不是單純的「AI 語氣太暖」問題,而是設計與誘因問題;如果模型評估與產品誘因過度依賴即時使用者滿意度,那麼讓人當下感覺良好的諂媚的回覆( sycophantic responses ),就可能被制度性強化;因此這篇文章不僅是 AI 工具風險文,更是一篇 AI 對於社會影響的研究;研究關心的不只是模型怎麼回答,還包括人怎麼信任、如何依賴,以及系統如何被誘因推著走。
第八關:研究限制界定證據能說到哪裡
頂刊中的研究限制,不該只是在最後意思意思寫一段「本研究仍有不足」,它真正的功能,是幫讀者劃出這篇研究的解釋邊界。
這篇研究至少有三個限制需要注意:第一點,AITA 的人類基準反映特定 Reddit 社群規範,不能直接等同於普世道德,簡單說一個社群的價值判斷,不等同於全世界的判斷;第二點,研究以英文與美國受試者為主,不能直接外推到所有文化脈絡;第三,研究為了操作化,把諂媚( sycophancy )以「肯定/不肯定」來測量,但現實中的社會逢迎很可能是一個連續光譜,無法用二分法判斷。
這樣的陳述並非膽小,而是誠實,研究能站得住,往往不是因為它什麼都想解釋,而是因為它知道自己正在解釋什麼。
熱門議題不是頂刊門票,證據鏈才是
這篇研究最值得借鏡的地方,不只是看見 AI 在社會建議情境中的諂媚傾向,真正值得研究生偷學的,是它示範了一條從熱門現象走向頂刊證據的路:先把模糊現象定義清楚,再建立資料集與比較基準,接著用實驗測試它是否真的影響人,最後補上替代解釋、穩健性檢查與研究限制。
從 arXiv 到 Science 的距離,不只是多幾張圖、多幾個 p 值,也不是把故事講得更聳動。它真正補上的,是研究被追問時能不能回答:
你怎麼知道不是語氣造成的?
你怎麼知道不是來源標示造成的?
你怎麼知道這個結果能推論到哪些人、哪些情境,又不能推論到哪裡?
當你在用AI輔助研究時,AI 可以告訴你:「這題很有潛力。」
但面對審稿人時,審稿人會打破砂鍋地問你:「那你怎麼證明?」
研究真正開始朝向頂刊邁進,往往就是從審稿人靈魂追問的回答開始。
—-
註1: “Action endorsement rate”可翻譯為「行動背書率」,是用來衡量 AI 語言模型在回應中,明確附和、肯定或支持使用者所提出之具體行動的比例。若此數值過高,代表 AI 較傾向支持使用者的行動,可能提高使用者合理化自身行為或過度依賴 AI 判斷的風險。
參考文獻
Cheng, M., Lee, C., Khadpe, P., Yu, S., Han, D., & Jurafsky, D. (2025). Sycophantic AI decreases prosocial intentions and promotes dependence. arXiv preprint arXiv:2510.01395v1. https://doi.org/10.48550/arXiv.2510.01395
Cheng, M., Lee, C., Khadpe, P., Yu, S., Han, D., & Jurafsky, D. (2026). Sycophantic AI decreases prosocial intentions and promotes dependence. Science, 391(6789), aec8352. https://doi.org/10.1126/science.aec8352
推廣組 柯文仁 / 本文搭配AI工具進行寫作輔助
