不是 AI 不夠強,是你餵它太多垃圾

不是 AI 不夠強,是你餵它太多垃圾

一篇肝癌預測論文,示範什麼叫「把特徵砍對,比模型換新更重要」

如果你是研究生,應該對這個場景不陌生:
資料一丟進模型,feature 欄位多到像 Excel 地獄捲軸,然後你滿心期待 AI 會自動悟道——
結果 accuracy 普普通通,訓練時間還跑到你可以去泡一杯咖啡再回來。

這時候你通常會懷疑三件事之一:

1️⃣ 模型不夠新
2️⃣ 資料不夠大
3️⃣ 我是不是哪裡參數設錯

但這篇 2024 年發表在 Journal of Big Data 的肝癌預測研究,直接一刀秒掉這個迷思
👉 問題根本不在模型,而在你給模型看的「特徵」本身。

大家都在拚模型,作者卻先把資料「減肥」

這篇研究處理的是一個很硬的醫療問題:如何用臨床資料,預測肝細胞癌(HCC)是否發生或復發。

資料來自 TCGA(The Cancer Genome Atlas),一開始每位病人 77 個臨床特徵,從年齡、腫瘤分期、血液數值,到治療方式,通通包進來。
照一般直覺,資料這麼多,AI 應該爽到飛起對吧?

結果沒有。

作者點出一個研究生一定會心有戚戚焉的問題:

高維度資料 = 雜訊、冗餘、過度擬合,一次全包反而卡死模型。

於是他們沒有急著換模型,而是先問一句關鍵問題:

「這 77 個特徵,真的每一個都值得留下來嗎?」

真正的大絕不是模型,是「特徵瘦身術」

作者的作法,可以說是特徵工程的雙刀流

第一刀:幫特徵打分數(誰真的有用?)

他們用了好幾種方法來評估「每個特徵到底重不重要」:

    • Information Gain(資訊量多不多)
    • Relief(能不能分辨相似病人)
    • Correlation(是不是只是跟別人重複)

簡單說,就是在問:

「如果只留你一個,模型會不會變聰明?」

第二刀:優化選擇(留下最強陣容)

接著再用 Forward Selection / Backward Elimination 這類方法,
像在打牌一樣,一個一個試、慢慢組出最強特徵組合

最後結果很關鍵:
👉 特徵數從 77 → 59 → 再縮到最佳子集
👉 模型不但沒變笨,反而全面升級

效果有多誇張?模型直接脫胎換骨

來看數字,這也是讀論文時你要特別抓的地方。

Naive Bayes 為例(一個很老派、但常被低估的模型):

  • ❌ 特徵全開:
    • Accuracy 約 90%
    • 執行時間:4 分鐘
  • ✅ 特徵減肥後:
    • Accuracy 97.33%
    • 執行時間:49 秒

其他模型也一樣:

    • Neural Network:76% → 96%
    • Decision Tree:90.67% → 96%
    • SVM:92% → 96%
    • KNN:86.67% → 94.67%

你會發現一件事:

不是深度學習才厲害,而是資料餵對了,誰都能打。

這篇論文真正該學的,不是肝癌,是研究思路

如果你是研究生,這篇文章最有價值的地方,其實不是醫學結果,而是方法論示範

1️⃣ 先懷疑資料,不要先懷疑模型
2️⃣ 模型表現差,可能只是你讓它「看太多沒用的東西」
3️⃣ Feature reduction 不是偷懶,是一種研究判斷力

冷靜提醒:這篇論文不能亂套用

當然,作者自己也很清楚限制在哪:

    • 資料來自 TCGA,族群與情境有限
    • 只用臨床變數,沒有影像、基因等多模態資料
    • 醫療 AI 仍有 可解釋性與偏誤風險

所以這不是「拿去直接臨床用」的論文,而是:

一篇教你怎麼把資料處理好,讓模型正常發揮的示範作。

給研究生的一句話

如果你讀完這篇論文,只記得一件事就好:

AI 不是魔法師,你丟給它一堆雜訊,它只會更混亂。

把特徵想清楚,有時候,比你再換一個新模型還有用。

——
參考文獻
Mostafa, G., Mahmoud, H., Abd El-Hafeez, T., & ElAraby, M. E. (2024). Feature reduction for hepatocellular carcinoma prediction using machine learning algorithms. Journal of Big Data, 11, 88.
https://www.webofscience.com/wos/woscc/full-record/WOS:001249598900001

推廣組 柯文仁 / 本文搭配ChatGPT進行寫作輔助。