卑微求助還是化身地獄慣老闆？兩篇研究揭露 Prompt 語氣如何影響 AI 表現

Posted on 2026-03-092026-03-09 by 柯文仁

如果你最近開始比較頻繁地使用 AI 工具，大概會慢慢發現一件事，人跟 AI 對話時，很容易傾向兩種語氣的極端。

第一種，姑且叫做「溫良恭儉讓模式」；每次要求 AI 幫忙整理文獻、改句子、潤稿，最後都不忘補上一句：麻煩你了，謝謝，這樣的使用者，值得給他一個乖寶寶印章。

第二種則是另一條完全不同的路線，你開始研究各種 Prompt 模板：Zero-shot、Few-shot、角色設定、輸出格式、Step-by-step reasoning……一個原本只需要一句話的問題，最後被寫成一段看起來很專業的操作流程。

如果你兩種都做過，其實不用太意外，大多數人在開始認真使用 AI 之後，多少都會經歷這段過程；但問題是：事情真的有這麼複雜嗎？有研究開始發掘一件很有意思的事情：

影響大型語言模型表現的，可能不只是你把任務寫得多清楚。

還有一個常被忽略的小變數 — 語氣，以及句子裡夾帶的那些情緒線索；換句話說，當你以為自己只是「在問問題」的時候，其實很可能已經在無意間改變了語言情境的條件；而這件事，有兩篇研究剛好從不同角度切入，提供使用者一些參考結果。

第一件奇怪的事：對 AI 進行情緒勒索

第一篇研究是 Li 等人（2023）發表的：《Large Language Models Understand and Can Be Enhanced by Emotional Stimuli》，研究團隊做的事情其實很簡單，他們在原本的 Prompt 後面，加上一句帶有情緒色彩的補充語句，例如：

這是你最後的答案嗎？相信你的能力，追求卓越。你的努力會帶來驚人的結果。(Are you sure that’s your final answer? Believe in your abilities and strive for excellence. Your hard work will yield remarkable results.)

或者：

這對我的職業生涯非常重要。(This is very important to my career.)

如果只看文字，或許會覺得有點好笑或荒謬，大概腦海中會浮現一個畫面：研究生坐在電腦前，對著 AI 說：「這對我能否畢業真的很重要，拜託。」但研究者真正關心的其實不是 AI 會不會被「真摯的話語」所感動，他們想知道的是：

這些語言線索，會不會影響模型處理問題的方式。

結果顯示，在某些任務上確實有所提升，在 Instruction Induction 任務上表現變好，在 BIG-Bench 的一些高難度題目上也觀察到明顯改善，研究者後來從注意力機制分析推測，像 confidence 或 success 這些詞，可能會改變模型在推理過程中的注意力權重。

簡單說就是，基本上AI模型應該是會把較多的運算資源集中在任務本身，所以相對合理的解釋其實是－這不是情緒感染，比較像是注意力操弄；不過這裡有一個很容易被誤讀的地方，不要把這個研究理解成：只要跟 AI 說「這對我人生很重要」，它就會更為你賣命，雖然AI沒有命，或是說AI有無限命。

如果誤會Prompt對AI的作用，很可能會出現一種 Prompt 風格，每一段提示最後都補一句：「這對我的未來很重要，拜託」或是「我真的快要畢不了業了，求求你幫我把這段整理清楚。」如果整個對話視窗都長這樣，那就不是 Prompt engineering 了，那比較像是：研究生精神狀態外顯化，也就是研究生真的壓力山大。

第二件奇怪的事：對 AI 當地獄慣老闆

另一篇研究其實更貼近日常使用，Dobariya 與 Kumar（2024）發表的研究
《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》

做了一件很直接的事情，他們把同一批題目改寫成不同語氣版本，從「極度禮貌（Very Polite）」一路到「極度粗魯（Very Rude）」，然後測試模型答題準確率。

研究題目共有 50 題，涵蓋數學、科學與歷史，結果其實有點出乎很多人的預期：

- 極度禮貌語氣的準確率：80.8%
- 極度粗魯語氣的準確率：84.8%

也就是說，在這組測試裡，「越直接的語氣，整體表現反而越好」，看到這裡，很容易得出一個很戲劇化的結論：「罵 AI 比較有效」；但如果稍微深究，就會發現事情沒有那麼誇張，比較合理的解釋可能會是：過多的客套話，會稀釋任務訊息。

例如這種寫法：「不好意思，可以麻煩你幫我整理一下這段文獻嗎？謝謝。」對人類來說很自然，但對模型來說，前面那些其實都是與任務無關的語言訊號；相反地，較短、較直接的指令，更容易讓模型抓到重點；所以你的 AI 聽不懂人話，問題未必是你「不夠兇」，或許更根本的原因是：你的Prompt真的太囉嗦了！

Prompt engineering，其實更像語言使用

把這兩篇研究放在一起看，其實會發現一件很有意思的事情：Prompt engineering 並不只是技術問題，它更像是一種「語言設計」，甚至某種程度上，也像是在對 AI 使用一點點「PUA 話術」。

你給 AI 模型的 Prompt，不只是題目，還包括：語氣、情境、指令強度、文字密度，也就是說，你其實是在替模型設定一個作答情境；這也是為什麼有些 Prompt 明明內容差不多，但輸出差很多，模型不只在處理「資訊內容」，也在處理你額外輸入的「語言訊號」。

如何成為寶可夢大師 Prompt Master？

很多人開始研究 Prompt 之後，會養成一個很有趣的習慣－ 蒐集模板；今天看到一個 Prompt、明天抄另外一個，之後接一句：Think step by step.

整個過程非常虔誠，如果用研究方法的眼光看，其實這樣的行為有點會像：基於Prompt engineering 的一種數位民俗療法，但應該不至於是寵物溝通師；好像只要集滿幾句神秘咒語，模型就會突然變聰明，但比較實際的做法其實很普通。

當使用Prompt的過程中，想要做個版本比較，例如同一個任務試三種寫法：

版本 A－直接任務
版本 B－加入情境
版本 C－簡短但帶任務壓力

然後看看輸出差異，說穿了，這其實就是最基本的研究方法－ 實驗與比較。

那 Prompt 到底該怎麼寫？

如果把兩篇研究的啟發整理一下，大概可以變成幾個簡單原則，第一個原則很簡單：任務要直接，例如：「請用 300 字整理這篇論文的研究問題、方法、主要發現與限制。」這樣的寫法會比一長串寒暄更有效。

第二個原則是：情境比客套更重要，例如：「這段整理會用在論文文獻回顧，請避免遺漏關鍵概念。」這其實是在告訴模型一件事：輸出要被拿來做什麼。

第三個原則則是：精煉使用的語句，很多 Prompt 的問題，其實不是任務錯誤，而是「語句內容太過鬆散」，字很多，但有用的訊息很少。

陪你做研究的最後

這類研究結果充滿反直覺的吸睛效果，但也正因如此，其實並不太適合被奉為絕對的圭臬，只能作為一個參考，像是：模型版本、任務型態、評估方式，都會影響結果，更何況AI模型持續在迭代(畢竟chatGPT-4o 也離我們遠去)，所以比較合理的結論或許應該是：不是「越兇越有效」，而是：「語氣、情緒線索與文字密度，確實可能影響模型表現。」

對於常用 AI 做研究輔助的人來說，這個提醒很重要，因為它會讓你重新想一件事：當你在寫 Prompt 的時候，「你是在交代任務，還是在練痟話 (liān-siáu-uē) ？」，又或者 — 我們只是在把自己的焦慮用Prompt的方式投射給AI？

參考文獻

Li, C., Wang, J., Zhang, Y., Zhu, K., Hou, W., Lian, J., Luo, F., Yang, Q., & Xie, X. (2023, July 14). Large Language Models Understand and Can be Enhanced by Emotional Stimuli. arXiv.org. https://arxiv.org/abs/2307.11760
Dobariya, O., & Kumar, A. (2025, October 6). Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper). arXiv.org. https://arxiv.org/abs/2510.04950

推廣組柯文仁 / 本文搭配 AI工具進行寫作輔助。

瀏覽次數： 89

發佈留言 取消回覆

發佈留言取消回覆