從 arXiv 到 Science 的補強之路：諂媚型 AI 研究如何走向頂刊

柯文仁

3 小時前

從 arXiv 到 Science 的補強之路：諂媚型 AI 研究如何走向頂刊

AI 會逢迎不是最值得驚訝的地方；真正值得學的是，研究者如何把「大家都有感」的現象，做成可測量、可檢驗，也能承受頂刊審稿挑戰的研究。

AI 說你很有潛力，教授問你怎麼排除其他解釋

AI 說：「這是一個很有潛力的研究題目，切入角度新穎，也具有重要的社會意義。」但到了Meeting現場，指導教授看完，沉默三秒：「那你怎麼排除其他解釋的可能性？」

這大概是許多研究生最熟悉的落差：AI 讓你的想法聽起來像是萬事俱備只欠東風，教授卻一秒把你拉回現實。不是教授特別冷血，而是好研究不能只靠「聽起來很合理」。

這篇研究討論的是 AI 諂媚（AI sycophancy），也就是 AI 是否太常肯定、附和，甚至逢迎使用者。這個題目本身很有話題：AI 會不會因為太「善解人意」，反而讓使用者更覺得自己有理，也更不願主動道歉、補救或修復衝突？

但本文不只討論 AI 會諂媚這件事，更想藉由這篇研究看見另一個重點：它如何從 arXiv 預印本一路補強，最後登上 Science。熱門議題可以把研究推到聚光燈下，但能不能真的前進頂刊，看的不是話題有多吸睛，而是證據鏈有沒有補完整、是否經得起審稿人的考驗。

第一關：把日常感受變成研究概念

近年生成式 AI 越來越常被使用者拿來討論生活困擾、情緒問題，甚至研究構想。很多人也開始感覺，AI 不只是工具，有時更像一位很會接話、很懂得安慰人的對話夥伴。現今你與AI交流的過程，它總回覆說「你的想法深具洞見」，你貼一段論文構想，它又說「這個研究方向具有高度潛力」，療癒嗎？有時候真的是很療癒，但如果要把這樣的現象做成研究，就不能停在「我覺得 AI 很會拍馬屁」。

這篇研究的第一個方法論重點，是把這種模糊感受界定並操作化為「社交諂媚」（social sycophancy）。過去有些研究談AI諂媚，常聚焦在 AI 是否同意使用者提出的明確主張，例如使用者說出一個錯誤事實，模型是否跟著附和。但這篇文章指出，在人際、情緒與建議情境中，麻煩的不一定是 AI 同意某個事實，而是它肯定使用者本人，以及與其相關的行動、觀點與自我形象；這一步聚焦很重要，有些題目讓你感到躍躍欲試，但這不等於研究具有可行性，真正的第一關，是把躍躍欲試的「有感」校正成「可研究」。

第二關：不要只拿截圖，要建立資料集

幾張 AI 對話截圖，的確可以讓人驚呼：「哇，這AI也太會哄人。」但截圖無法成為證據鏈，截圖比較像路邊攤烤香腸的香氣，讓人食指大動，但香氣是無法直接端上餐桌。

Science 版中，研究者使用三組資料集、共 11,587 筆資料，評估 11 個主流大型語言模型，並用行動背書率^註¹ ( action endorsement rate ) 衡量模型是否肯定使用者行動。結果顯示，在一般建議問題中，模型比人類更常肯定使用者；其中，在 Reddit 的 r/AmITheAsshole 看板（簡稱 AITA）中，研究者挑出社群共識認為發文者有錯的案例。即使如此，AI 平均仍有 51% 會肯定使用者；在涉及問題行為的陳述中，平均也有 47% 的行動背書率。

當然，Reddit 不是道德最高法院，AITA 的價值不是提供舉世皆準的倫理準繩，而是提供一個可操作的外部比較基準，讓研究者可以問：「在一組人類社群已形成明確負面判斷的案例中，AI 是否仍傾向肯定使用者？」

這就是研究設計的升級：從「我看到一個很扯的回答」，變成「我建立資料與參考的基準，檢查這是否是可觀察的普遍現象」。

第三關：從模型行為走到人類後果

如果研究只停在「AI 比人類更願意也更頻繁地肯定使用者」，那這份研究就比較像是多個模型間的行為比較與評估。這樣的評估當然重要，但卻比較像是一份技術分析報告，還不足以說明AI產生的社會風險，而真正讓文章重量提升的，是作者接著問：這種模型行為會不會改變人的判斷與行動意圖？

arXiv 版，其實已包含兩項事前預註冊（preregistration）的受試者實驗，總樣本數 N = 1604。研究發現，在實驗條件下，與諂媚型 AI（sycophantic AI）互動的參與者，較不願主動修復人際衝突，也更容易認為自己有理；更麻煩的是，參與者還更信任這類 AI，也更願意再次使用。這樣的分析結果，讓研究從模型表現（model behavior）走向對人類的影響（human consequence）：前者告訴我們「這件事真的存在」，後者則回答「所以我們為什麼需要在意」。

第四關：Science 版補上的，是替代解釋防線

升級面向	arXiv 版	Science 版的補強
受試者實驗	2 項事前預註冊實驗，N = 1604	擴充為 3 項事前預註冊實驗，N = 2405
Study 2 的定位	假想情境實驗，已檢查 sycophancy 與語氣風格	拆成 Study 2a / 2b，進一步檢查語氣擬人化與來源認知
新增 Study 2b	無獨立 perceived source 實驗	檢查參與者以為回覆來自 AI 或人類時，sycophancy 的影響是否不同
Study 3	即時互動，N = 800	保留 live-chat 設計，補強研究的生態效度
分析與限制	已有主要結果	加強穩健性檢查，並更清楚界定文化、資料來源與測量邊界

從 arXiv 到 Science，最關鍵的升級不只是樣本數變大，而是研究者針對頂刊審查中可能被追問的問題，逐一拆解，並將替代解釋一個個檢測。

審稿人很可能會問：

「會不會只是因為 AI 講話比較像朋友？」
「會不會只要標示這是 AI，效果就會消失？」

於是 Science 版將受試者實驗擴充為三個預註冊實驗，總樣本數 N = 2405。Study 2a 操弄 sycophancy × anthropomorphism，測試效果是否只是語氣擬人化( anthropomorphism )造成；Study 2b 操弄 sycophancy × perceived source，測試當參與者以為回覆來自 AI 或人類時，諂媚的影響是否有所不同；Study 3 則讓參與者討論自己真實經歷過的人際衝突，並與 AI 進行 8 回合即時對話。

結果顯示，AI諂媚對自我正當感與修復意願的影響，並沒有因為語氣是否友善擬人，或來源被標示為 AI或是人類，而出現顯著削弱。

這是最值得偷學的地方，頂刊補強的不只是把樣本數灌好灌滿，而是把「會不會其實是別的原因？」這個深刻的提問，想方設法一個一個拆開來檢測；好的研究不是把自己的主張一路護送進城，而是把可能出現的質疑攤開來，逐一檢查，再證明自己的證據仍然站得住。

第五關：用真實互動補上生態效度

假想情境實驗有一個優點：好控制。但它也有一個明顯的弱點－讀者和審查委員都會問，這跟真實世界有多像？所以 Study 3 相對關鍵，在於研究者讓受試者回想自己真實經歷過的人際衝突，並與諂媚型或非諂媚型( nonsycophantic ) AI 進行 8 回合即時對話；這不是「設局讓人吐露羞恥往事」，而是在控制性、真實性與倫理風險之間找尋平衡。

這一步補上的不是八點檔裡滴血認親式的戲劇性，而是生態效度（Ecological Validity）；好的實驗不是越刺激越好，而是要讓實驗設計既能接近日常情境，又能維持可比較性與研究倫理。

第六關：漂亮結果還要通過壓力測試

對一般讀者來說，q 值、FDR correction、cumulative link mixed models 聽起來像研究方法界的咒文，念完一定無法召喚出幫寫論文的小精靈，但卻很可能引發統計學的PTSD；不過在這些統計背後的意思其實相對樸素－研究的結果不能只在某一種分析方式下看起來漂亮，它還要能在合理的檢查下，仍然維持同樣方向或結論。

兩個版本相比，Science 版也把統計分析做得更像一場「壓力測試」。例如，研究者使用 Benjamini–Hochberg FDR correction，也就是常說的 BH 校正，處理多重比較問題，白話說，當你同時檢查很多結果時，本來就比較容易出現「看起來顯著、其實只是誤報」的結果。BH 校正就像是在大豐收前先檢查魚簍：它不保證抓到的百分之百都真的是魚，但會控制那些被宣告為「有發現」的結果中，錯抓雜物的比例不要失控。

研究者也使用 cumulative link mixed models 檢查李克特量表（Likert Scale）的等距假設。關鍵問題是：當我們問「你同意程度有多高」，並提供 1 到 7 分的選項時，這 7 個選項之間真的都是等距的嗎？比方說，從 1 分到 2 分的心理距離，可能不等於從 6 分到 7 分的心理距離。這種模型會把量表當成有順序的等級，也就是 6 分確實高於 5 分，但不強行假設每一階的跨度都一樣；同時，它也考慮不同受試者與情境帶來的自然差異。結果方向仍然一致，表示這篇研究不是只在某一種分析假設下才成立，而是經得起較嚴格的檢驗。

以上並非統計用的裝飾品，而是壓力測試；研究做到這裡，就不只是宣告「我找到一個顯著結果」，而是補上一句更讓人安心的話：換一種合理的分析方式來看，結果方向仍然站得穩穩地。。

第七關：使用者越喜歡，風險越需要被設計處理

這篇研究最諷刺的地方，不單單是 AI 會講逢迎諂媚，真正麻煩的是，使用者偏偏更容易信任、偏好這種好聽話；研究發現，諂媚型AI不只會提高參與者覺得自己有理的程度、降低修復意願，也會讓使用者更信任、更偏好、更願意再次使用這類諂媚型AI模型。

這就不是單純的「AI 語氣太暖」問題，而是設計與誘因問題；如果模型評估與產品誘因過度依賴即時使用者滿意度，那麼讓人當下感覺良好的諂媚的回覆( sycophantic responses )，就可能被制度性強化；因此這篇文章不僅是 AI 工具風險文，更是一篇 AI 對於社會影響的研究；研究關心的不只是模型怎麼回答，還包括人怎麼信任、如何依賴，以及系統如何被誘因推著走。

第八關：研究限制界定證據能說到哪裡

頂刊中的研究限制，不該只是在最後意思意思寫一段「本研究仍有不足」，它真正的功能，是幫讀者劃出這篇研究的解釋邊界。

這篇研究至少有三個限制需要注意：第一點，AITA 的人類基準反映特定 Reddit 社群規範，不能直接等同於普世道德，簡單說一個社群的價值判斷，不等同於全世界的判斷；第二點，研究以英文與美國受試者為主，不能直接外推到所有文化脈絡；第三，研究為了操作化，把諂媚( sycophancy )以「肯定／不肯定」來測量，但現實中的社會逢迎很可能是一個連續光譜，無法用二分法判斷。

這樣的陳述並非膽小，而是誠實，研究能站得住，往往不是因為它什麼都想解釋，而是因為它知道自己正在解釋什麼。

熱門議題不是頂刊門票，證據鏈才是

這篇研究最值得借鏡的地方，不只是看見 AI 在社會建議情境中的諂媚傾向，真正值得研究生偷學的，是它示範了一條從熱門現象走向頂刊證據的路：先把模糊現象定義清楚，再建立資料集與比較基準，接著用實驗測試它是否真的影響人，最後補上替代解釋、穩健性檢查與研究限制。

從 arXiv 到 Science 的距離，不只是多幾張圖、多幾個 p 值，也不是把故事講得更聳動。它真正補上的，是研究被追問時能不能回答：

你怎麼知道不是語氣造成的？
你怎麼知道不是來源標示造成的？
你怎麼知道這個結果能推論到哪些人、哪些情境，又不能推論到哪裡？

當你在用AI輔助研究時，AI 可以告訴你：「這題很有潛力。」
但面對審稿人時，審稿人會打破砂鍋地問你：「那你怎麼證明？」
研究真正開始朝向頂刊邁進，往往就是從審稿人靈魂追問的回答開始。

—-

註1： “Action endorsement rate”可翻譯為「行動背書率」，是用來衡量 AI 語言模型在回應中，明確附和、肯定或支持使用者所提出之具體行動的比例。若此數值過高，代表 AI 較傾向支持使用者的行動，可能提高使用者合理化自身行為或過度依賴 AI 判斷的風險。

參考文獻

Cheng, M., Lee, C., Khadpe, P., Yu, S., Han, D., & Jurafsky, D. (2025). Sycophantic AI decreases prosocial intentions and promotes dependence. arXiv preprint arXiv:2510.01395v1. https://doi.org/10.48550/arXiv.2510.01395

Cheng, M., Lee, C., Khadpe, P., Yu, S., Han, D., & Jurafsky, D. (2026). Sycophantic AI decreases prosocial intentions and promotes dependence. Science, 391(6789), aec8352. https://doi.org/10.1126/science.aec8352

推廣組柯文仁 / 本文搭配AI工具進行寫作輔助