卑微求助還是化身地獄慣老闆? 兩篇研究揭露 Prompt 語氣如何影響 AI 表現
如果你最近開始比較頻繁地使用 AI 工具,大概會慢慢發現一件事,人跟 AI 對話時,很容易傾向兩種語氣的極端。
第一種,姑且叫做「溫良恭儉讓模式」;每次要求 AI 幫忙整理文獻、改句子、潤稿,最後都不忘補上一句:麻煩你了,謝謝,這樣的使用者,值得給他一個乖寶寶印章。
第二種則是另一條完全不同的路線,你開始研究各種 Prompt 模板:Zero-shot、Few-shot、角色設定、輸出格式、Step-by-step reasoning……一個原本只需要一句話的問題,最後被寫成一段看起來很專業的操作流程。
如果你兩種都做過,其實不用太意外,大多數人在開始認真使用 AI 之後,多少都會經歷這段過程;但問題是:事情真的有這麼複雜嗎?有研究開始發掘一件很有意思的事情:
影響大型語言模型表現的,可能不只是你把任務寫得多清楚。
還有一個常被忽略的小變數 — 語氣,以及句子裡夾帶的那些情緒線索;換句話說,當你以為自己只是「在問問題」的時候,其實很可能已經在無意間改變了語言情境的條件;而這件事,有兩篇研究剛好從不同角度切入,提供使用者一些參考結果。
第一件奇怪的事:對 AI 進行情緒勒索
第一篇研究是 Li 等人(2023)發表的:《Large Language Models Understand and Can Be Enhanced by Emotional Stimuli》,研究團隊做的事情其實很簡單,他們在原本的 Prompt 後面,加上一句帶有情緒色彩的補充語句,例如:
這是你最後的答案嗎?相信你的能力,追求卓越。你的努力會帶來驚人的結果。(Are you sure that’s your final answer? Believe in your abilities and strive for excellence. Your hard work will yield remarkable results.)
或者:
這對我的職業生涯非常重要。(This is very important to my career.)
如果只看文字,或許會覺得有點好笑或荒謬,大概腦海中會浮現一個畫面:研究生坐在電腦前,對著 AI 說:「這對我能否畢業真的很重要,拜託。」但研究者真正關心的其實不是 AI 會不會被「真摯的話語」所感動,他們想知道的是:
這些語言線索,會不會影響模型處理問題的方式。
結果顯示,在某些任務上確實有所提升,在 Instruction Induction 任務上表現變好,在 BIG-Bench 的一些高難度題目上也觀察到明顯改善,研究者後來從注意力機制分析推測,像 confidence 或 success 這些詞,可能會改變模型在推理過程中的注意力權重。
簡單說就是,基本上AI模型應該是會把較多的運算資源集中在任務本身,所以相對合理的解釋其實是-這不是情緒感染,比較像是注意力操弄;不過這裡有一個很容易被誤讀的地方,不要把這個研究理解成:只要跟 AI 說「這對我人生很重要」,它就會更為你賣命,雖然AI沒有命,或是說AI有無限命。
如果誤會Prompt對AI的作用,很可能會出現一種 Prompt 風格,每一段提示最後都補一句:「這對我的未來很重要,拜託」或是「我真的快要畢不了業了,求求你幫我把這段整理清楚。」如果整個對話視窗都長這樣,那就不是 Prompt engineering 了,那比較像是:研究生精神狀態外顯化,也就是研究生真的壓力山大。
第二件奇怪的事:對 AI 當地獄慣老闆
另一篇研究其實更貼近日常使用,Dobariya 與 Kumar(2024)發表的研究
《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》
做了一件很直接的事情,他們把同一批題目改寫成不同語氣版本,從「極度禮貌(Very Polite)」一路到「極度粗魯(Very Rude)」,然後測試模型答題準確率。
研究題目共有 50 題,涵蓋數學、科學與歷史,結果其實有點出乎很多人的預期:
-
- 極度禮貌語氣的準確率:80.8%
- 極度粗魯語氣的準確率:84.8%
也就是說,在這組測試裡,「越直接的語氣,整體表現反而越好」,看到這裡,很容易得出一個很戲劇化的結論:「罵 AI 比較有效」;但如果稍微深究,就會發現事情沒有那麼誇張,比較合理的解釋可能會是:過多的客套話,會稀釋任務訊息。
例如這種寫法:「不好意思,可以麻煩你幫我整理一下這段文獻嗎?謝謝。」對人類來說很自然,但對模型來說,前面那些其實都是與任務無關的語言訊號;相反地,較短、較直接的指令,更容易讓模型抓到重點;所以你的 AI 聽不懂人話,問題未必是你「不夠兇」,或許更根本的原因是:你的Prompt真的太囉嗦了!
Prompt engineering,其實更像語言使用
把這兩篇研究放在一起看,其實會發現一件很有意思的事情:Prompt engineering 並不只是技術問題,它更像是一種「語言設計」,甚至某種程度上,也像是在對 AI 使用一點點「PUA 話術」。
你給 AI 模型的 Prompt,不只是題目,還包括:語氣、情境、指令強度、文字密度,也就是說,你其實是在替模型設定一個作答情境;這也是為什麼有些 Prompt 明明內容差不多,但輸出差很多,模型不只在處理「資訊內容」,也在處理你額外輸入的「語言訊號」。
如何成為 寶可夢大師 Prompt Master?
很多人開始研究 Prompt 之後,會養成一個很有趣的習慣 - 蒐集模板;今天看到一個 Prompt、明天抄另外一個,之後接一句:Think step by step.
整個過程非常虔誠,如果用研究方法的眼光看,其實這樣的行為有點會像:基於Prompt engineering 的一種數位民俗療法,但應該不至於是寵物溝通師;好像只要集滿幾句神秘咒語,模型就會突然變聰明,但比較實際的做法其實很普通。
當使用Prompt的過程中,想要做個版本比較,例如同一個任務試三種寫法:
版本 A-直接任務
版本 B-加入情境
版本 C-簡短但帶任務壓力
然後看看輸出差異,說穿了,這其實就是最基本的研究方法 - 實驗與比較。
那 Prompt 到底該怎麼寫?
如果把兩篇研究的啟發整理一下,大概可以變成幾個簡單原則,第一個原則很簡單:任務要直接,例如:「請用 300 字整理這篇論文的研究問題、方法、主要發現與限制。」這樣的寫法會比一長串寒暄更有效。
第二個原則是:情境比客套更重要,例如:「這段整理會用在論文文獻回顧,請避免遺漏關鍵概念。」這其實是在告訴模型一件事:輸出要被拿來做什麼。
第三個原則則是:精煉使用的語句,很多 Prompt 的問題,其實不是任務錯誤,而是「語句內容太過鬆散」,字很多,但有用的訊息很少。
陪你做研究的最後
這類研究結果充滿反直覺的吸睛效果,但也正因如此,其實並不太適合被奉為絕對的圭臬,只能作為一個參考,像是:模型版本、任務型態、評估方式,都會影響結果,更何況AI模型持續在迭代(畢竟chatGPT-4o 也離我們遠去),所以比較合理的結論或許應該是:不是「越兇越有效」,而是:「語氣、情緒線索與文字密度,確實可能影響模型表現。」
對於常用 AI 做研究輔助的人來說,這個提醒很重要,因為它會讓你重新想一件事:當你在寫 Prompt 的時候,「你是在交代任務,還是在練痟話 (liān-siáu-uē) ?」,又或者 — 我們只是在把自己的焦慮用Prompt的方式投射給AI?
參考文獻
- Li, C., Wang, J., Zhang, Y., Zhu, K., Hou, W., Lian, J., Luo, F., Yang, Q., & Xie, X. (2023, July 14). Large Language Models Understand and Can be Enhanced by Emotional Stimuli. arXiv.org. https://arxiv.org/abs/2307.11760
- Dobariya, O., & Kumar, A. (2025, October 6). Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper). arXiv.org. https://arxiv.org/abs/2510.04950
推廣組 柯文仁 / 本文搭配 AI工具 進行寫作輔助。