哪一款AI最可靠?研究揭Claude家族最老實:為何對LLM來說,坦承無知比「已讀亂回」更難?
重點一:依據 AA‑Omniscience 顯示,多數大型語言模型在高難度知識題上「猜錯比答對多」,僅三款例外;核心指標 Omniscience Index 以懲罰幻覺衡量可靠度。
重點二:在全知指數上,Claude 4.1 Opus因較低幻覺率領先;GPT‑5.1與 Grok 4則多靠較高準確率。
重點三:各模型在不同領域表現不一,沒有「一款通吃」。例如 Claude 4.1 Opus在法律、軟體工程、人文社科較穩
先進 AI 大模型雖然越來越強,但近期一份報告指出,在「少幻覺、敢承認不知道」這件事上,仍然是不及格。
第三方 AI 模型評比平台 Artificial Analysis 於 11 月 18 日公布全新基準「AA‑Omniscience(全知指標)」指出,在面對高難度知識題時,當前主流大型語言模型(LLMs)「猜錯比答對多」,僅有三款模型例外。
該評測以「Omniscience Index(全知指數)」為核心,採用加權懲罰幻覺(錯誤作答)的方法:答對加一分、錯誤且有作答扣一分、選擇不作答記零分,從而衡量「知識可靠度」,而非僅看正確率。
團隊強調,模型的嵌入知識對真實世界應用至關重要;在知識不足時,模型易做出錯誤假設。且即便有工具如網路搜尋輔助,模型也須「先知道該搜什麼」。例如,遇到「MCP」查詢時,不應錯把「Multi Client Persistence」當答案,而應辨識為「Model Context Protocol(模型上下文協定)」。
低幻覺的 Claude vs. 高正確率的 Grok/GPT
Artificial Analysis 指出,在整體「事實可靠度」(Omniscience Index)排名上,Anthropic 的 Claude 4.1 Opus 居首,其優勢主要來自「低幻覺率」。相較之下,OpenAI 與 xAI 的模型則以較高「正確率」拉升名次,但因更傾向在不確定時「冒險作答」,而非「不懂就閉嘴」,因此可靠度未達頂尖水準。
純以「正確率」衡量時,xAI 的 Grok 4 居首,OpenAI 的 GPT‑5 與 Google 的 Gemini 2.5 Pro 緊隨。Artificial Analysis 也提及伊隆·馬斯克近期披露 Grok 4「總參數達 3 兆」,暗示大模型規模與前訓練算力或許是支撐其正確率表現的因素。
值得注意的是,在「幻覺率」榜單上,Anthropic 三款機型包辦最低幻覺率前段班:Claude 4.5 Haiku 以約 26% 領先,Claude 4.5 Sonnet 與 Claude 4.1 Opus 分列其後。這也呼應評測核心觀點:高知識並不必然等於低幻覺;能否在不確定時「選擇不作答」是可靠度的關鍵。
知識量不等於可靠度!AI 懂更多,卻未必說得對
Artificial Analysis 團隊在報告中指出,AA‑Omniscience 涵蓋 6,000 題、42 主題、6 大領域(商業、人文與社會科學、健康、法律、軟體工程、工程與數學),並細分 89 子題(如 Python 資料函式庫、公共政策、稅務等),更細緻地刻畫各模型的強弱。
結果顯示: 各模型在不同領域輪流領先,並無「全能王」。 例如,Claude 4.1 Opus 在法律、軟體工程、人文社科領先;OpenAI 的 GPT‑5.1 在商業題表現最可靠;xAI 的 Grok 4 則在健康與「科學、工程與數學」領域居前。
另一個發現是,模型規模與正確率正相關,但不必然提升可靠度。
白話說,模型越大,代表知識量越多,所以在「正確率」排行榜表現亮眼;但由於「可靠度」看的是遇到不確定時會不會硬答、造成幻覺。因此,像 Kimi K2 Thinking 和 DeepSeek R1(0528) 雖然答對比例高,遇到不熟的題目仍可能胡亂作答,拉低了「全知指數」。
反過來說,Llama 3.1 405B 雖然不是最大的,但更懂得在不確定時不作答,幻覺率較低,整體「可靠度」因此勝過規模更大的 Kimi K2 款式。
結論:選用 AI 的建議,也是「誠實為上」
總結來說,AA‑Omniscience 的證據顯示:能在不確定時停手、降低幻覺的模型,才在真實場景更可靠;僅看準確率,會把「會猜」誤認為「會答」。因此,選擇模型時,應以事實可靠度、幻覺率與拒答行為為核心準則,並依領域差異做選擇。
最後,模型規模與準確率雖有正相關,但並不直接降低幻覺;縮減幻覺更依賴訓練與校準機制。基於此,企業在落地知識密集型任務時,應優先採用「校準佳、願意在不確定時拒答」的模型。
延伸閱讀:ChatGPT濫用破折號怎麼改?如何避免飄出超油膩「AI味」?實用指令教學快收藏!
「這是地表最強編碼模型!」Claude Sonnet 4.5上線:更快更穩不加價,它是GPT‑5 Codex最大剋星?
資料來源:AA‑Omniscience、Artificial Analysis
本文初稿為AI編撰,整理.編輯/ 李先泰
更多報導
一口氣清倉輝達!矽谷風投教父改抱「蘋果+微軟」:為何他認為AI估值過熱?
「在台灣,早餐有想法,晚上能量產!」季辛格率7家新創來台,為何他說AI沒有泡沫問題?
其他人也在看

你也有「選擇困難症」嗎?創意思考大師親授思維妙招,讓你3分鐘輕鬆下決定
有一次我應邀到澳洲雪梨,為一群教育專家示範CoRT思考課程。在開始上課前,我跟在場的30位男童(10~11歲)說,只要他們乖乖上學,每個人一週都能拿到5澳元,這個主意他們覺得如何?他們全都愛死了這個構想,然後開始告訴我他們打算如何花用這些錢(買糖果、漫畫等等)。我於是解釋PMI方法,接著要求他們五人...
商業周刊 ・ 1 天前
獨家專訪》季辛格轉戰創投,率「獨角獸」來台找隊友:「早餐有想法、晚上討論量產」只有台灣有這速度
卸任英特爾執行長近一年後,季辛格以創投公司合夥人的全新身分重返台灣,行前接受《今周刊》獨家專訪,暢談個人職涯、旗下新創公司技術,以及美國半導體前景。
今周刊 ・ 1 天前
藍白二度強修財劃法,卓榮泰喊無法接受違法編列預算:國會勿一意孤行「未到最後關頭絕不輕言抵制」
在藍白聯手下,立法院二度強修《財政收支劃分法》。行政院長卓榮泰周二(11/18)受訪表示,自去年520以來,國民及民眾主導的國會持續對行政院步步進逼,企圖迫使行政院接受違憲法案與預算案。 卓揆直言,國會上周五逕付二讀火速通過國民版「財劃法」,不僅無法解決長期存在的水平分配與垂直劃分不公問題,更將造成中央需再舉債2600億元,總舉債規模達5600億元,已違反「公債法」規定。 卓揆強調中央政府無法接受此次修法,也無法違法編列預算,並預告行政院將於周四院會通過院版「財劃法」,以五大原則全面照顧中央、地方與全民。 他表示行政院在協商未達絕望前不會放棄,未到最後關頭也不會輕言抵制。
今周刊 ・ 1 天前
AI伺服器大廠法說會釋樂觀訊號,市場為何喜憂參半?輝達擬調代工模式,供應鏈面臨兩大天險
儘管AI業界頻傳巨額投資,關於產業泡沫化的疑慮卻未歇。而在輝達傳出擬調整代工模式後,市場正密切關注哪些合作台廠最具優勢,以及獲利空間如何變化。
今周刊 ・ 1 天前
黃國昌列貪汙被告,北檢分他字案調查!被爆金流回流、金主有成衣大廠?律師:收賄罪會比徐永明7年更重
國民主席鄭麗文與民眾主席黃國昌將於11/19會面,黃國昌11/18被《鏡週刊》繼續爆料,支付狗仔薪資的「凱思國際」,有資金回流到黃國昌口袋,資金來源則包括臺雅集團旗下寀奕公司、《鏡電視》前零元股東陳建平及黃安捷,黃國昌都曾對此質詢,等於金主把錢匯入凱思國際後,黃國昌拿錢辦事,確立貪汙的對價關係。 黃國昌11/18在公聽會前對此回應,週刊之前的烏龍爆料都沒有道歉,現在又繼續潑糞、抹黑,「有什麼話到法院講,不會隨之起舞。」 至於黃國昌涉嫌透過「凱斯國際」收到臺雅集團二代挹注資金200萬元,有民眾認為黃國昌涉嫌利用立委職權收受好處,告發黃國昌涉嫌貪污。 北檢已分「他案」將列黃國昌為貪汙罪被告,交由正在偵辦黃國昌涉組織狗仔跟監政要的專責檢察官進行調查。
今周刊 ・ 1 天前
Google搜尋大進化!AI模式導入「生成式UI」:不用Vibe Coding,也能一鍵生成遊戲、工具、教材
Google Research 宣布在AI模式中推出「生成式UI」,讓模型不僅生成內容,還能「即時設計與編碼」完整的互動體驗。
數位時代 ・ 1 天前
台股盤勢震盪中,誰還有補漲空間?台玻、華通...看季報撿便宜,5檔低估股進可攻退可守
台股上市櫃公司第三季財報已陸續公布完畢,有哪些公司的財報表現及營運展望正向,股價卻相對被低估、有補漲空間呢?
今周刊 ・ 1 天前
銀價帶被動!陸被動元件龍頭漲價通知 台股這檔被動元件跟銀最有關
陸資被動元件龍頭風華高科針對代理商、直接客戶同步發出漲價通知,該公司在信件中表示,由於金屬銀價今年以來已經上漲50%,其他金屬材料也全面性上漲,成本承壓,因此將針對電感磁珠、壓敏電阻、瓷介電容、厚膜電阻類產品上調5%~30%,且即日起新訂單採用新價。
理財周刊 ・ 1 天前
三大題材推升 臺慶科成多軸成長受惠股
臺慶科(3357)為國內電感與磁性元件供應商,內容產品涵蓋電源電感、訊號電感、共模濾波器與晶片電感,應用於車用電子、AI 伺服器、PC、網通設備與消費性電子,是全球Tier1車廠與北美CSP伺服器供應鏈的認證廠商之一。
理財周刊 ・ 1 天前
鴻海跌跌不休 但進場點即將浮現這三個價位要注意
本刊在鴻海(2317)股價還在170元左右時曾大力推薦,股價最高來到265元,不過在鴻海近期跌破月線之後,急速下墜的情況下,很多投資人都在問,鴻海進場點在哪?
理財周刊 ・ 1 天前
氣候變遷績效指標台灣倒數第9名 環境部批不合理、不具代表性
德國看守協會今日公布2026年版氣候變遷表現指標(CCPI)顯示,台灣排名第59名,雖相較去年進步1名,卻是倒數第9名。環境部對此回應,CCPI 評比方法有爭議,評比結果不合理也不具代表性。事實上我國溫室氣體排放持續下降,且已公布2035年國家自定貢獻,今年碳費制度上路並依《氣候變遷因應法》推展各項工作。
中時新聞網 ・ 1 天前
注意溫差!最猛冷空氣快走了 「這一天」高溫恐飆到30度
東北季風持續增強,全台有感降溫!今(19)日清晨最低溫只有11.8度,北部白天高溫也僅20度。中央氣象署指出,這波冷空氣將持續影響至後日清晨,隨後氣溫將戲劇性回升,「這一天」將出現一週中的最高溫,飆到30度,體感如同夏天。
三立新聞網 setn.com ・ 19 小時前
侯湘婷消失演藝圈18年!閃嫁捷安特小開當2寶媽 近況曝變家長會長
曾以《秋天別來》《為你流的淚》走紅的玉女歌手侯湘婷,淡出演藝圈18年後,近日意外在中部某國小的家長會長交接活動中現身,引發熱烈討論。43歲的她身穿優雅紫色禮服,氣質清新如昔,凍齡的模樣讓粉絲驚呼「完全沒變」,再度掀起外界對她近況的高度關注。
三立新聞網 setn.com ・ 2 小時前
43歲侯湘婷接任國小家長會長 凍齡美貌驚艷粉絲
曾被封為「玉女歌手」的侯湘婷,當年以《秋天別來》、《為你流的淚》等代表作走紅,2007年淡出演藝圈到美國深造設計領域,2013年與捷安特董事長外孫楊孟學結婚。近日,中部某國小在臉書發布家長會長交接活動的照片,43歲的侯湘婷意外重現眾人眼前,她身穿優雅的紫色禮服、氣質依舊,精緻的五官和凍齡狀態令粉絲驚艷不已,紛紛留言表示「完全沒變!」
三立新聞網 setn.com ・ 8 小時前
中國人真的從日本消失!日本網友叫好
[NOWnews今日新聞]日本首相高市早苗「台灣有事」相關言論激起中國不滿,祭出多種反制措施包括呼籲民眾別去日本旅遊,航空公司機票、日本飯店乃至郵輪均傳出退訂、行程取消潮。不過,有日本網友對此歡呼叫好...
今日新聞NOWNEWS ・ 6 小時前

今起回溫!「最快這時」又一波冷空氣來台 強度曝光
今(20)日持續受東北季風影響,各地皆感受涼冷,清晨西半部及宜蘭低溫約15、16度,花東也只有17、18度,局部溫度會再更低一些,請注意保暖,白天起冷空氣逐漸減弱,北部及宜花氣溫稍回升,高溫約20至22度。氣象粉專也提醒,下一波冷空氣預估將在這時抵達。
三立新聞網 setn.com ・ 10 小時前
凍齡女神就服宋慧喬!青龍獎場內生圖封神,44歲美得不像同一個圖層,無懼「前任同框」話題成最美亮點
粉色輕紗 x 俐落短髮,溫婉與率性的完美平衡宋慧喬身著一襲淺粉色輕紗洋裝亮相。這件禮服的選擇極具巧思,柔和的紗質在場內燈光下呈現出飄逸靈動的光澤,抹胸設計優雅地露出了她漂亮的天鵝頸與鎖骨線條。不同於紅毯上常見的強勢大紅或經典黑白,這抹溫柔的粉色,反而襯托出她...
styletc ・ 7 小時前
台股紅翻黑!43萬散戶昨搶短…今天套牢了
台股反彈無力,收復2萬7點失敗,空軍氣焰大增,接近中午指數由紅翻黑,一度下跌近140點,據證交所資料顯示,昨天趁台股下跌691點,短短一天有43.7萬散戶進場「搶短」,但今天若收盤時指數未拉起,恐怕「搶反彈不成反住套房」,慘遭套牢。
Yahoo奇摩股市 ・ 1 天前
不是南亞科也非華邦電!億元教授點名「這檔記憶體」久抱相對安心 外資連5敲
[FTNN新聞網]財經中心/綜合報導在AI熱潮下,近期記憶體大缺貨價格狂飆,DRAM雙雄南亞科(2408)、華邦電(2344)雙創歷史新天價,成交量也炸天,針對記憶體...
FTNN新聞網 ・ 11 小時前