哪一款AI最可靠？研究揭Claude家族最老實：為何對LLM來說，坦承無知比「已讀亂回」更難？

數位時代

2025年11月18日週二下午5:07

重點一：依據 AA‑Omniscience 顯示，多數大型語言模型在高難度知識題上「猜錯比答對多」，僅三款例外；核心指標 Omniscience Index 以懲罰幻覺衡量可靠度。

重點二：在全知指數上，Claude 4.1 Opus因較低幻覺率領先；GPT‑5.1與 Grok 4則多靠較高準確率。

重點三：各模型在不同領域表現不一，沒有「一款通吃」。例如 Claude 4.1 Opus在法律、軟體工程、人文社科較穩

先進 AI 大模型雖然越來越強，但近期一份報告指出，在「少幻覺、敢承認不知道」這件事上，仍然是不及格。

第三方 AI 模型評比平台 Artificial Analysis 於 11 月 18 日公布全新基準「AA‑Omniscience（全知指標）」指出，在面對高難度知識題時，當前主流大型語言模型（LLMs）「猜錯比答對多」，僅有三款模型例外。

該評測以「Omniscience Index（全知指數）」為核心，採用加權懲罰幻覺（錯誤作答）的方法：答對加一分、錯誤且有作答扣一分、選擇不作答記零分，從而衡量「知識可靠度」，而非僅看正確率。

團隊強調，模型的嵌入知識對真實世界應用至關重要；在知識不足時，模型易做出錯誤假設。且即便有工具如網路搜尋輔助，模型也須「先知道該搜什麼」。例如，遇到「MCP」查詢時，不應錯把「Multi Client Persistence」當答案，而應辨識為「Model Context Protocol（模型上下文協定）」。

低幻覺的 Claude vs. 高正確率的 Grok／GPT

Artificial Analysis 指出，在整體「事實可靠度」（Omniscience Index）排名上，Anthropic 的 Claude 4.1 Opus 居首，其優勢主要來自「低幻覺率」。相較之下，OpenAI 與 xAI 的模型則以較高「正確率」拉升名次，但因更傾向在不確定時「冒險作答」，而非「不懂就閉嘴」，因此可靠度未達頂尖水準。

純以「正確率」衡量時，xAI 的 Grok 4 居首，OpenAI 的 GPT‑5 與 Google 的 Gemini 2.5 Pro 緊隨。Artificial Analysis 也提及伊隆·馬斯克近期披露 Grok 4「總參數達 3 兆」，暗示大模型規模與前訓練算力或許是支撐其正確率表現的因素。

值得注意的是，在「幻覺率」榜單上，Anthropic 三款機型包辦最低幻覺率前段班：Claude 4.5 Haiku 以約 26% 領先，Claude 4.5 Sonnet 與 Claude 4.1 Opus 分列其後。這也呼應評測核心觀點：高知識並不必然等於低幻覺；能否在不確定時「選擇不作答」是可靠度的關鍵。

知識量不等於可靠度！AI 懂更多，卻未必說得對

Artificial Analysis 團隊在報告中指出，AA‑Omniscience 涵蓋 6,000 題、42 主題、6 大領域（商業、人文與社會科學、健康、法律、軟體工程、工程與數學），並細分 89 子題（如 Python 資料函式庫、公共政策、稅務等），更細緻地刻畫各模型的強弱。

結果顯示： 各模型在不同領域輪流領先，並無「全能王」。 例如，Claude 4.1 Opus 在法律、軟體工程、人文社科領先；OpenAI 的 GPT‑5.1 在商業題表現最可靠；xAI 的 Grok 4 則在健康與「科學、工程與數學」領域居前。

另一個發現是，模型規模與正確率正相關，但不必然提升可靠度。

白話說，模型越大，代表知識量越多，所以在「正確率」排行榜表現亮眼；但由於「可靠度」看的是遇到不確定時會不會硬答、造成幻覺。因此，像 Kimi K2 Thinking 和 DeepSeek R1（0528） 雖然答對比例高，遇到不熟的題目仍可能胡亂作答，拉低了「全知指數」。

反過來說，Llama 3.1 405B 雖然不是最大的，但更懂得在不確定時不作答，幻覺率較低，整體「可靠度」因此勝過規模更大的 Kimi K2 款式。

結論：選用 AI 的建議，也是「誠實為上」

總結來說，AA‑Omniscience 的證據顯示：能在不確定時停手、降低幻覺的模型，才在真實場景更可靠；僅看準確率，會把「會猜」誤認為「會答」。因此，選擇模型時，應以事實可靠度、幻覺率與拒答行為為核心準則，並依領域差異做選擇。

最後，模型規模與準確率雖有正相關，但並不直接降低幻覺；縮減幻覺更依賴訓練與校準機制。基於此，企業在落地知識密集型任務時，應優先採用「校準佳、願意在不確定時拒答」的模型。

延伸閱讀：ChatGPT濫用破折號怎麼改？如何避免飄出超油膩「AI味」？實用指令教學快收藏！
「這是地表最強編碼模型！」Claude Sonnet 4.5上線：更快更穩不加價，它是GPT‑5 Codex最大剋星？

資料來源：AA‑Omniscience、Artificial Analysis

本文初稿為AI編撰，整理．編輯/ 李先泰

其他人也在看

你也有「選擇困難症」嗎？創意思考大師親授思維妙招，讓你3分鐘輕鬆下決定

有一次我應邀到澳洲雪梨，為一群教育專家示範CoRT思考課程。在開始上課前，我跟在場的30位男童（10~11歲）說，只要他們乖乖上學，每個人一週都能拿到5澳元，這個主意他們覺得如何？他們全都愛死了這個構想，然後開始告訴我他們打算如何花用這些錢（買糖果、漫畫等等）。我於是解釋PMI方法，接著要求他們五人...

商業周刊・ 1 天前

獨家專訪》季辛格轉戰創投，率「獨角獸」來台找隊友：「早餐有想法、晚上討論量產」只有台灣有這速度

卸任英特爾執行長近一年後，季辛格以創投公司合夥人的全新身分重返台灣，行前接受《今周刊》獨家專訪，暢談個人職涯、旗下新創公司技術，以及美國半導體前景。

今周刊・ 1 天前

藍白二度強修財劃法，卓榮泰喊無法接受違法編列預算：國會勿一意孤行「未到最後關頭絕不輕言抵制」

在藍白聯手下，立法院二度強修《財政收支劃分法》。行政院長卓榮泰周二（11/18）受訪表示，自去年520以來，國民及民眾主導的國會持續對行政院步步進逼，企圖迫使行政院接受違憲法案與預算案。卓揆直言，國會上周五逕付二讀火速通過國民版「財劃法」，不僅無法解決長期存在的水平分配與垂直劃分不公問題，更將造成中央需再舉債2600億元，總舉債規模達5600億元，已違反「公債法」規定。卓揆強調中央政府無法接受此次修法，也無法違法編列預算，並預告行政院將於周四院會通過院版「財劃法」，以五大原則全面照顧中央、地方與全民。他表示行政院在協商未達絕望前不會放棄，未到最後關頭也不會輕言抵制。

今周刊・ 1 天前

AI伺服器大廠法說會釋樂觀訊號，市場為何喜憂參半？輝達擬調代工模式，供應鏈面臨兩大天險

儘管AI業界頻傳巨額投資，關於產業泡沫化的疑慮卻未歇。而在輝達傳出擬調整代工模式後，市場正密切關注哪些合作台廠最具優勢，以及獲利空間如何變化。

今周刊・ 1 天前

黃國昌列貪汙被告，北檢分他字案調查！被爆金流回流、金主有成衣大廠？律師：收賄罪會比徐永明7年更重

國民主席鄭麗文與民眾主席黃國昌將於11/19會面，黃國昌11/18被《鏡週刊》繼續爆料，支付狗仔薪資的「凱思國際」，有資金回流到黃國昌口袋，資金來源則包括臺雅集團旗下寀奕公司、《鏡電視》前零元股東陳建平及黃安捷，黃國昌都曾對此質詢，等於金主把錢匯入凱思國際後，黃國昌拿錢辦事，確立貪汙的對價關係。黃國昌11/18在公聽會前對此回應，週刊之前的烏龍爆料都沒有道歉，現在又繼續潑糞、抹黑，「有什麼話到法院講，不會隨之起舞。」至於黃國昌涉嫌透過「凱斯國際」收到臺雅集團二代挹注資金200萬元，有民眾認為黃國昌涉嫌利用立委職權收受好處，告發黃國昌涉嫌貪污。北檢已分「他案」將列黃國昌為貪汙罪被告，交由正在偵辦黃國昌涉組織狗仔跟監政要的專責檢察官進行調查。

今周刊・ 1 天前

Google搜尋大進化！AI模式導入「生成式UI」：不用Vibe Coding，也能一鍵生成遊戲、工具、教材

Google Research 宣布在AI模式中推出「生成式UI」，讓模型不僅生成內容，還能「即時設計與編碼」完整的互動體驗。

數位時代・ 1 天前

台股盤勢震盪中，誰還有補漲空間？台玻、華通...看季報撿便宜，5檔低估股進可攻退可守

台股上市櫃公司第三季財報已陸續公布完畢，有哪些公司的財報表現及營運展望正向，股價卻相對被低估、有補漲空間呢？

今周刊・ 1 天前

銀價帶被動！陸被動元件龍頭漲價通知台股這檔被動元件跟銀最有關

陸資被動元件龍頭風華高科針對代理商、直接客戶同步發出漲價通知，該公司在信件中表示，由於金屬銀價今年以來已經上漲50%，其他金屬材料也全面性上漲，成本承壓，因此將針對電感磁珠、壓敏電阻、瓷介電容、厚膜電阻類產品上調5%～30%，且即日起新訂單採用新價。

理財周刊・ 1 天前

三大題材推升臺慶科成多軸成長受惠股

臺慶科(3357)為國內電感與磁性元件供應商，內容產品涵蓋電源電感、訊號電感、共模濾波器與晶片電感，應用於車用電子、AI 伺服器、PC、網通設備與消費性電子，是全球Tier1車廠與北美CSP伺服器供應鏈的認證廠商之一。

理財周刊・ 1 天前

鴻海跌跌不休但進場點即將浮現這三個價位要注意

本刊在鴻海(2317)股價還在170元左右時曾大力推薦，股價最高來到265元，不過在鴻海近期跌破月線之後，急速下墜的情況下，很多投資人都在問，鴻海進場點在哪?

理財周刊・ 1 天前

氣候變遷績效指標台灣倒數第9名環境部批不合理、不具代表性

德國看守協會今日公布2026年版氣候變遷表現指標（CCPI）顯示，台灣排名第59名，雖相較去年進步1名，卻是倒數第9名。環境部對此回應，CCPI 評比方法有爭議，評比結果不合理也不具代表性。事實上我國溫室氣體排放持續下降，且已公布2035年國家自定貢獻，今年碳費制度上路並依《氣候變遷因應法》推展各項工作。

中時新聞網・ 1 天前

注意溫差！最猛冷空氣快走了　「這一天」高溫恐飆到30度

東北季風持續增強，全台有感降溫！今（19）日清晨最低溫只有11.8度，北部白天高溫也僅20度。中央氣象署指出，這波冷空氣將持續影響至後日清晨，隨後氣溫將戲劇性回升，「這一天」將出現一週中的最高溫，飆到30度，體感如同夏天。

三立新聞網 setn.com ・ 19 小時前

侯湘婷消失演藝圈18年！閃嫁捷安特小開當2寶媽　近況曝變家長會長

曾以《秋天別來》《為你流的淚》走紅的玉女歌手侯湘婷，淡出演藝圈18年後，近日意外在中部某國小的家長會長交接活動中現身，引發熱烈討論。43歲的她身穿優雅紫色禮服，氣質清新如昔，凍齡的模樣讓粉絲驚呼「完全沒變」，再度掀起外界對她近況的高度關注。

三立新聞網 setn.com ・ 2 小時前

43歲侯湘婷接任國小家長會長　凍齡美貌驚艷粉絲

曾被封為「玉女歌手」的侯湘婷，當年以《秋天別來》、《為你流的淚》等代表作走紅，2007年淡出演藝圈到美國深造設計領域，2013年與捷安特董事長外孫楊孟學結婚。近日，中部某國小在臉書發布家長會長交接活動的照片，43歲的侯湘婷意外重現眾人眼前，她身穿優雅的紫色禮服、氣質依舊，精緻的五官和凍齡狀態令粉絲驚艷不已，紛紛留言表示「完全沒變！」

三立新聞網 setn.com ・ 8 小時前

中國人真的從日本消失！日本網友叫好

[NOWnews今日新聞]日本首相高市早苗「台灣有事」相關言論激起中國不滿，祭出多種反制措施包括呼籲民眾別去日本旅遊，航空公司機票、日本飯店乃至郵輪均傳出退訂、行程取消潮。不過，有日本網友對此歡呼叫好...

今日新聞NOWNEWS ・ 6 小時前

演藝圈大咖「中年夫妻」爆離婚雙方至今0回應掀熱議

EBC東森娛樂・ 1 天前

今起回溫！「最快這時」又一波冷空氣來台　強度曝光

今（20）日持續受東北季風影響，各地皆感受涼冷，清晨西半部及宜蘭低溫約15、16度，花東也只有17、18度，局部溫度會再更低一些，請注意保暖，白天起冷空氣逐漸減弱，北部及宜花氣溫稍回升，高溫約20至22度。氣象粉專也提醒，下一波冷空氣預估將在這時抵達。

三立新聞網 setn.com ・ 10 小時前

凍齡女神就服宋慧喬！青龍獎場內生圖封神，44歲美得不像同一個圖層，無懼「前任同框」話題成最美亮點

粉色輕紗 x 俐落短髮，溫婉與率性的完美平衡宋慧喬身著一襲淺粉色輕紗洋裝亮相。這件禮服的選擇極具巧思，柔和的紗質在場內燈光下呈現出飄逸靈動的光澤，抹胸設計優雅地露出了她漂亮的天鵝頸與鎖骨線條。不同於紅毯上常見的強勢大紅或經典黑白，這抹溫柔的粉色，反而襯托出她...

styletc ・ 7 小時前

台股紅翻黑！43萬散戶昨搶短…今天套牢了

台股反彈無力，收復2萬7點失敗，空軍氣焰大增，接近中午指數由紅翻黑，一度下跌近140點，據證交所資料顯示，昨天趁台股下跌691點，短短一天有43.7萬散戶進場「搶短」，但今天若收盤時指數未拉起，恐怕「搶反彈不成反住套房」，慘遭套牢。

Yahoo奇摩股市・ 1 天前

不是南亞科也非華邦電！億元教授點名「這檔記憶體」久抱相對安心　外資連5敲

[FTNN新聞網]財經中心／綜合報導在AI熱潮下，近期記憶體大缺貨價格狂飆，DRAM雙雄南亞科（2408）、華邦電（2344）雙創歷史新天價，成交量也炸天，針對記憶體...

FTNN新聞網・ 11 小時前