<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>研究方法 彙整 - NYCU陽明交大圖書館-陪你做研究</title>
	<atom:link href="https://news.lib.nycu.edu.tw/tag/%e7%a0%94%e7%a9%b6%e6%96%b9%e6%b3%95/feed/" rel="self" type="application/rss+xml" />
	<link>https://news.lib.nycu.edu.tw/tag/研究方法/</link>
	<description></description>
	<lastBuildDate>Wed, 17 Dec 2025 01:57:22 +0000</lastBuildDate>
	<language>zh-TW</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	

<image>
	<url>https://news.lib.nycu.edu.tw/wp-content/uploads/2023/02/icon.png</url>
	<title>研究方法 彙整 - NYCU陽明交大圖書館-陪你做研究</title>
	<link>https://news.lib.nycu.edu.tw/tag/研究方法/</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>不是 AI 不夠強，是你餵它太多垃圾</title>
		<link>https://news.lib.nycu.edu.tw/researches/writing-research-papers/%e4%b8%8d%e6%98%af-ai-%e4%b8%8d%e5%a4%a0%e5%bc%b7%ef%bc%8c%e6%98%af%e4%bd%a0%e9%a4%b5%e5%ae%83%e5%a4%aa%e5%a4%9a%e5%9e%83%e5%9c%be/</link>
					<comments>https://news.lib.nycu.edu.tw/researches/writing-research-papers/%e4%b8%8d%e6%98%af-ai-%e4%b8%8d%e5%a4%a0%e5%bc%b7%ef%bc%8c%e6%98%af%e4%bd%a0%e9%a4%b5%e5%ae%83%e5%a4%aa%e5%a4%9a%e5%9e%83%e5%9c%be/#respond</comments>
		
		<dc:creator><![CDATA[柯 文仁]]></dc:creator>
		<pubDate>Wed, 17 Dec 2025 01:22:39 +0000</pubDate>
				<category><![CDATA[研究方法]]></category>
		<category><![CDATA[論文寫作]]></category>
		<category><![CDATA[AI]]></category>
		<category><![CDATA[大數據]]></category>
		<guid isPermaLink="false">https://news.lib.nycu.edu.tw/?p=9721</guid>

					<description><![CDATA[<p>不是 AI 不夠強，是你餵它太多垃圾 一篇肝癌預測論文，示範什麼叫「把特徵砍對，比模型換新更重要」 如果你是研究生，應該對這個場景不陌生： 資料一丟進模型，feature 欄位多到像 Excel 地獄捲軸，然後你滿心期待 AI 會自動悟道—— 結果 accuracy 普普通通，訓練時間還跑到你可以去</p>
<p>這篇文章 <a href="https://news.lib.nycu.edu.tw/researches/writing-research-papers/%e4%b8%8d%e6%98%af-ai-%e4%b8%8d%e5%a4%a0%e5%bc%b7%ef%bc%8c%e6%98%af%e4%bd%a0%e9%a4%b5%e5%ae%83%e5%a4%aa%e5%a4%9a%e5%9e%83%e5%9c%be/">不是 AI 不夠強，是你餵它太多垃圾</a> 最早出現於 <a href="https://news.lib.nycu.edu.tw">NYCU陽明交大圖書館-陪你做研究</a>。</p>
]]></description>
										<content:encoded><![CDATA[<p><span style="font-size: 24pt;"><strong>不是 AI 不夠強，是你餵它太多垃圾</strong></span></p>
<p><span style="font-size: 18pt;"><strong>一篇肝癌預測論文，示範什麼叫「把特徵砍對，比模型換新更重要」</strong></span></p>
<p>如果你是研究生，應該對這個場景不陌生：<br />
資料一丟進模型，<strong>feature 欄位多到像 Excel 地獄捲軸</strong>，然後你滿心期待 AI 會自動悟道——<br />
結果 accuracy 普普通通，訓練時間還跑到你可以去泡一杯咖啡再回來。</p>
<p>這時候你通常會懷疑三件事之一：</p>
<p style="padding-left: 40px;">1️⃣ 模型不夠新<br />
2️⃣ 資料不夠大<br />
3️⃣ 我是不是哪裡參數設錯</p>
<p>但這篇 2024 年發表在 <em>Journal of Big Data</em> 的肝癌預測研究，直接<strong>一刀秒掉這個迷思</strong>：<br />
👉 <strong>問題根本不在模型，而在你給模型看的「特徵」本身。</strong></p>
<p><span style="font-size: 18pt;"><strong>大家都在拚模型，作者卻先把資料「減肥」</strong></span></p>
<p>這篇研究處理的是一個很硬的醫療問題：<strong>如何用臨床資料，預測肝細胞癌（HCC）是否發生或復發。</strong></p>
<p>資料來自 TCGA（The Cancer Genome Atlas），一開始每位病人 <strong>77 個臨床特徵</strong>，從年齡、腫瘤分期、血液數值，到治療方式，通通包進來。<br />
照一般直覺，資料這麼多，AI 應該爽到飛起對吧？</p>
<p style="padding-left: 40px;"><strong>結果沒有。</strong></p>
<p>作者點出一個研究生一定會心有戚戚焉的問題：</p>
<p style="padding-left: 40px;"><strong>高維度資料 = 雜訊、冗餘、過度擬合，一次全包反而卡死模型。</strong></p>
<p>於是他們沒有急著換模型，而是先問一句關鍵問題：</p>
<p style="padding-left: 40px;">「這 77 個特徵，真的每一個都值得留下來嗎？」</p>
<p><span style="font-size: 18pt;"><strong>真正的大絕不是模型，是「特徵瘦身術」</strong></span></p>
<p>作者的作法，可以說是<strong>特徵工程的雙刀流</strong>。</p>
<p><strong>第一刀：幫特徵打分數（誰真的有用？）</strong></p>
<p>他們用了好幾種方法來評估「每個特徵到底重不重要」：</p>
<ul>
<li style="list-style-type: none;">
<ul>
<li><strong>Information Gain</strong>（資訊量多不多）</li>
<li><strong>Relief</strong>（能不能分辨相似病人）</li>
<li><strong>Correlation</strong>（是不是只是跟別人重複）</li>
</ul>
</li>
</ul>
<p>簡單說，就是在問：</p>
<p style="padding-left: 40px;">「如果只留你一個，模型會不會變聰明？」</p>
<p><strong>第二刀：優化選擇（留下最強陣容）</strong></p>
<p>接著再用 <strong>Forward Selection / Backward Elimination</strong> 這類方法，<br />
像在打牌一樣，<strong>一個一個試、慢慢組出最強特徵組合</strong>。</p>
<p>最後結果很關鍵：<br />
👉 特徵數從 <strong>77 → 59 → 再縮到最佳子集</strong><br />
👉 模型不但沒變笨，<strong>反而全面升級</strong></p>
<p><span style="font-size: 18pt;"><strong>效果有多誇張？模型直接脫胎換骨</strong></span></p>
<p>來看數字，這也是讀論文時你要特別抓的地方。</p>
<p>以 <strong>Naive Bayes</strong> 為例（一個很老派、但常被低估的模型）：</p>
<ul>
<li>❌ 特徵全開：
<ul>
<li>Accuracy 約 90%</li>
<li>執行時間：<strong>4 分鐘</strong></li>
</ul>
</li>
</ul>
<ul>
<li>✅ 特徵減肥後：
<ul>
<li>Accuracy <strong>97.33%</strong></li>
<li>執行時間：<strong>49 秒</strong></li>
</ul>
</li>
</ul>
<p>其他模型也一樣：</p>
<ul>
<li style="list-style-type: none;">
<ul>
<li><strong>Neural Network</strong>：76% → <strong>96%</strong></li>
<li><strong>Decision Tree</strong>：90.67% → <strong>96%</strong></li>
<li><strong>SVM</strong>：92% → <strong>96%</strong></li>
<li><strong>KNN</strong>：86.67% → <strong>94.67%</strong></li>
</ul>
</li>
</ul>
<p>你會發現一件事：</p>
<p style="padding-left: 40px;"><strong>不是深度學習才厲害，而是資料餵對了，誰都能打。</strong></p>
<p><span style="font-size: 18pt;"><strong>這篇論文真正該學的，不是肝癌，是研究思路</strong></span></p>
<p>如果你是研究生，這篇文章最有價值的地方，其實不是醫學結果，而是<strong>方法論示範</strong>：</p>
<p style="padding-left: 40px;">1️⃣ <strong>先懷疑資料，不要先懷疑模型</strong><br />
2️⃣ 模型表現差，可能只是你讓它「看太多沒用的東西」<br />
3️⃣ Feature reduction 不是偷懶，是一種研究判斷力</p>
<p><span style="font-size: 18pt;"><strong>冷靜提醒：這篇論文不能亂套用</strong></span></p>
<p>當然，作者自己也很清楚限制在哪：</p>
<ul>
<li style="list-style-type: none;">
<ul>
<li>資料來自 <strong>TCGA</strong>，族群與情境有限</li>
<li>只用臨床變數，沒有影像、基因等多模態資料</li>
<li>醫療 AI 仍有 <strong>可解釋性與偏誤風險</strong></li>
</ul>
</li>
</ul>
<p>所以這不是「拿去直接臨床用」的論文，而是：</p>
<p style="padding-left: 40px;"><strong>一篇教你怎麼把資料處理好，讓模型正常發揮的示範作。</strong></p>
<p><span style="font-size: 18pt;"><strong>給研究生的一句話</strong></span></p>
<p>如果你讀完這篇論文，只記得一件事就好：</p>
<p style="padding-left: 40px;"><strong>AI </strong><strong>不是魔法師，你丟給它一堆雜訊，它只會更混亂。</strong></p>
<p>把特徵想清楚，有時候，比你再換一個新模型還有用。</p>
<p>——<br />
<strong>參考文獻</strong><br />
Mostafa, G., Mahmoud, H., Abd El-Hafeez, T., &amp; ElAraby, M. E. (2024). <em>Feature reduction for hepatocellular carcinoma prediction using machine learning algorithms</em>. <em>Journal of Big Data, 11</em>, 88.<br />
<a href="https://www.webofscience.com/wos/woscc/full-record/WOS:001249598900001">https://www.webofscience.com/wos/woscc/full-record/WOS:001249598900001</a></p>
<p>推廣組 柯文仁 / 本文搭配ChatGPT進行寫作輔助。</p>
<p>這篇文章 <a href="https://news.lib.nycu.edu.tw/researches/writing-research-papers/%e4%b8%8d%e6%98%af-ai-%e4%b8%8d%e5%a4%a0%e5%bc%b7%ef%bc%8c%e6%98%af%e4%bd%a0%e9%a4%b5%e5%ae%83%e5%a4%aa%e5%a4%9a%e5%9e%83%e5%9c%be/">不是 AI 不夠強，是你餵它太多垃圾</a> 最早出現於 <a href="https://news.lib.nycu.edu.tw">NYCU陽明交大圖書館-陪你做研究</a>。</p>
]]></content:encoded>
					
					<wfw:commentRss>https://news.lib.nycu.edu.tw/researches/writing-research-papers/%e4%b8%8d%e6%98%af-ai-%e4%b8%8d%e5%a4%a0%e5%bc%b7%ef%bc%8c%e6%98%af%e4%bd%a0%e9%a4%b5%e5%ae%83%e5%a4%aa%e5%a4%9a%e5%9e%83%e5%9c%be/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
