不是 AI 不夠強，是你餵它太多垃圾

Posted on 2025-12-172025-12-17 by 柯文仁

不是 AI 不夠強，是你餵它太多垃圾

一篇肝癌預測論文，示範什麼叫「把特徵砍對，比模型換新更重要」

如果你是研究生，應該對這個場景不陌生：
資料一丟進模型，feature 欄位多到像 Excel 地獄捲軸，然後你滿心期待 AI 會自動悟道——
結果 accuracy 普普通通，訓練時間還跑到你可以去泡一杯咖啡再回來。

這時候你通常會懷疑三件事之一：

1️⃣ 模型不夠新
2️⃣ 資料不夠大
3️⃣ 我是不是哪裡參數設錯

但這篇 2024 年發表在 Journal of Big Data 的肝癌預測研究，直接一刀秒掉這個迷思：
👉 問題根本不在模型，而在你給模型看的「特徵」本身。

大家都在拚模型，作者卻先把資料「減肥」

這篇研究處理的是一個很硬的醫療問題：如何用臨床資料，預測肝細胞癌（HCC）是否發生或復發。

資料來自 TCGA（The Cancer Genome Atlas），一開始每位病人 77 個臨床特徵，從年齡、腫瘤分期、血液數值，到治療方式，通通包進來。
照一般直覺，資料這麼多，AI 應該爽到飛起對吧？

結果沒有。

作者點出一個研究生一定會心有戚戚焉的問題：

高維度資料 = 雜訊、冗餘、過度擬合，一次全包反而卡死模型。

於是他們沒有急著換模型，而是先問一句關鍵問題：

「這 77 個特徵，真的每一個都值得留下來嗎？」

真正的大絕不是模型，是「特徵瘦身術」

作者的作法，可以說是特徵工程的雙刀流。

第一刀：幫特徵打分數（誰真的有用？）

他們用了好幾種方法來評估「每個特徵到底重不重要」：

- Information Gain（資訊量多不多）
- Relief（能不能分辨相似病人）
- Correlation（是不是只是跟別人重複）

簡單說，就是在問：

「如果只留你一個，模型會不會變聰明？」

第二刀：優化選擇（留下最強陣容）

接著再用 Forward Selection / Backward Elimination 這類方法，
像在打牌一樣，一個一個試、慢慢組出最強特徵組合。

最後結果很關鍵：
👉 特徵數從 77 → 59 → 再縮到最佳子集
👉 模型不但沒變笨，反而全面升級

效果有多誇張？模型直接脫胎換骨

來看數字，這也是讀論文時你要特別抓的地方。

以 Naive Bayes 為例（一個很老派、但常被低估的模型）：

❌ 特徵全開：
- Accuracy 約 90%
- 執行時間：4 分鐘

✅ 特徵減肥後：
- Accuracy 97.33%
- 執行時間：49 秒

其他模型也一樣：

- Neural Network：76% → 96%
- Decision Tree：90.67% → 96%
- SVM：92% → 96%
- KNN：86.67% → 94.67%

你會發現一件事：

不是深度學習才厲害，而是資料餵對了，誰都能打。

這篇論文真正該學的，不是肝癌，是研究思路

如果你是研究生，這篇文章最有價值的地方，其實不是醫學結果，而是方法論示範：

1️⃣ 先懷疑資料，不要先懷疑模型
2️⃣ 模型表現差，可能只是你讓它「看太多沒用的東西」
3️⃣ Feature reduction 不是偷懶，是一種研究判斷力

冷靜提醒：這篇論文不能亂套用

當然，作者自己也很清楚限制在哪：

- 資料來自 TCGA，族群與情境有限
- 只用臨床變數，沒有影像、基因等多模態資料
- 醫療 AI 仍有 可解釋性與偏誤風險

所以這不是「拿去直接臨床用」的論文，而是：

一篇教你怎麼把資料處理好，讓模型正常發揮的示範作。

給研究生的一句話

如果你讀完這篇論文，只記得一件事就好：

AI 不是魔法師，你丟給它一堆雜訊，它只會更混亂。

把特徵想清楚，有時候，比你再換一個新模型還有用。

——
參考文獻
Mostafa, G., Mahmoud, H., Abd El-Hafeez, T., & ElAraby, M. E. (2024). Feature reduction for hepatocellular carcinoma prediction using machine learning algorithms. Journal of Big Data, 11, 88.
https://www.webofscience.com/wos/woscc/full-record/WOS:001249598900001

推廣組柯文仁 / 本文搭配ChatGPT進行寫作輔助。

瀏覽次數： 13

發佈留言 取消回覆

發佈留言取消回覆