優寶購物《ubao.Tw》特貨品商城,黑貓宅配,取貨付款,哪一款AI最可靠?研究揭Claude家族最老實:為何對LLM來說,坦承無知比「已讀亂回」更難?
數位時代

哪一款AI最可靠?研究揭Claude家族最老實:為何對LLM來說,坦承無知比「已讀亂回」更難?

數位時代

重點一:依據 AA‑Omniscience 顯示,多數大型語言模型在高難度知識題上「猜錯比答對多」,僅三款例外;核心指標 Omniscience Index 以懲罰幻覺衡量可靠度。

重點二:在全知指數上,Claude 4.1 Opus因較低幻覺率領先;GPT‑5.1Grok 4則多靠較高準確率。

重點三:各模型在不同領域表現不一,沒有「一款通吃」。例如 Claude 4.1 Opus在法律、軟體工程、人文社科較穩

廣告

先進 AI 大模型雖然越來越強,但近期一份報告指出,在「少幻覺、敢承認不知道」這件事上,仍然是不及格。

第三方 AI 模型評比平台 Artificial Analysis 於 11 月 18 日公布全新基準「AA‑Omniscience(全知指標)」指出,在面對高難度知識題時,當前主流大型語言模型(LLMs)「猜錯比答對多」,僅有三款模型例外。

該評測以「Omniscience Index(全知指數)」為核心,採用加權懲罰幻覺(錯誤作答)的方法:答對加一分、錯誤且有作答扣一分、選擇不作答記零分,從而衡量「知識可靠度」,而非僅看正確率。

團隊強調,模型的嵌入知識對真實世界應用至關重要;在知識不足時,模型易做出錯誤假設。且即便有工具如網路搜尋輔助,模型也須「先知道該搜什麼」。例如,遇到「MCP」查詢時,不應錯把「Multi Client Persistence」當答案,而應辨識為「Model Context Protocol(模型上下文協定)」。

低幻覺的 Claude vs. 高正確率的 Grok/GPT

Artificial Analysis 指出,在整體「事實可靠度」(Omniscience Index)排名上,Anthropic 的 Claude 4.1 Opus 居首,其優勢主要來自「低幻覺率」。相較之下,OpenAI 與 xAI 的模型則以較高「正確率」拉升名次,但因更傾向在不確定時「冒險作答」,而非「不懂就閉嘴」,因此可靠度未達頂尖水準。

純以「正確率」衡量時,xAI 的 Grok 4 居首,OpenAI 的 GPT‑5 與 Google 的 Gemini 2.5 Pro 緊隨。Artificial Analysis 也提及伊隆·馬斯克近期披露 Grok 4「總參數達 3 兆」,暗示大模型規模與前訓練算力或許是支撐其正確率表現的因素。

最可靠AI有哪些? 圖/Artificial Analysis
最可靠AI有哪些? 圖/Artificial Analysis

值得注意的是,在「幻覺率」榜單上,Anthropic 三款機型包辦最低幻覺率前段班:Claude 4.5 Haiku 以約 26% 領先,Claude 4.5 Sonnet 與 Claude 4.1 Opus 分列其後。這也呼應評測核心觀點:高知識並不必然等於低幻覺;能否在不確定時「選擇不作答」是可靠度的關鍵。

知識量不等於可靠度!AI 懂更多,卻未必說得對

Artificial Analysis 團隊在報告中指出,AA‑Omniscience 涵蓋 6,000 題、42 主題、6 大領域(商業、人文與社會科學、健康、法律、軟體工程、工程與數學),並細分 89 子題(如 Python 資料函式庫、公共政策、稅務等),更細緻地刻畫各模型的強弱。

結果顯示: 各模型在不同領域輪流領先,並無「全能王」。 例如,Claude 4.1 Opus 在法律、軟體工程、人文社科領先;OpenAI 的 GPT‑5.1 在商業題表現最可靠;xAI 的 Grok 4 則在健康與「科學、工程與數學」領域居前。

AI 在六個領域的「可靠度分數」 圖/Artificial Analysis
AI 在六個領域的「可靠度分數」 圖/Artificial Analysis

另一個發現是,模型規模與正確率正相關,但不必然提升可靠度。

白話說,模型越大,代表知識量越多,所以在「正確率」排行榜表現亮眼;但由於「可靠度」看的是遇到不確定時會不會硬答、造成幻覺。因此,像 Kimi K2 ThinkingDeepSeek R1(0528) 雖然答對比例高,遇到不熟的題目仍可能胡亂作答,拉低了「全知指數」。

反過來說,Llama 3.1 405B 雖然不是最大的,但更懂得在不確定時不作答,幻覺率較低,整體「可靠度」因此勝過規模更大的 Kimi K2 款式。

結論:選用 AI 的建議,也是「誠實為上」

總結來說,AA‑Omniscience 的證據顯示:能在不確定時停手、降低幻覺的模型,才在真實場景更可靠;僅看準確率,會把「會猜」誤認為「會答」。因此,選擇模型時,應以事實可靠度、幻覺率與拒答行為為核心準則,並依領域差異做選擇。

最後,模型規模與準確率雖有正相關,但並不直接降低幻覺;縮減幻覺更依賴訓練與校準機制。基於此,企業在落地知識密集型任務時,應優先採用「校準佳、願意在不確定時拒答」的模型。

延伸閱讀:ChatGPT濫用破折號怎麼改?如何避免飄出超油膩「AI味」?實用指令教學快收藏!
「這是地表最強編碼模型!」Claude Sonnet 4.5上線:更快更穩不加價,它是GPT‑5 Codex最大剋星?

資料來源:AA‑OmniscienceArtificial Analysis

本文初稿為AI編撰,整理.編輯/ 李先泰

更多報導
一口氣清倉輝達!矽谷風投教父改抱「蘋果+微軟」:為何他認為AI估值過熱?
「在台灣,早餐有想法,晚上能量產!」季辛格率7家新創來台,為何他說AI沒有泡沫問題?

其他人也在看

你也有「選擇困難症」嗎?創意思考大師親授思維妙招,讓你3分鐘輕鬆下決定

你也有「選擇困難症」嗎?創意思考大師親授思維妙招,讓你3分鐘輕鬆下決定

有一次我應邀到澳洲雪梨,為一群教育專家示範CoRT思考課程。在開始上課前,我跟在場的30位男童(10~11歲)說,只要他們乖乖上學,每個人一週都能拿到5澳元,這個主意他們覺得如何?他們全都愛死了這個構想,然後開始告訴我他們打算如何花用這些錢(買糖果、漫畫等等)。我於是解釋PMI方法,接著要求他們五人...

商業周刊 ・ 1 天前
獨家專訪》季辛格轉戰創投,率「獨角獸」來台找隊友:「早餐有想法、晚上討論量產」只有台灣有這速度

獨家專訪》季辛格轉戰創投,率「獨角獸」來台找隊友:「早餐有想法、晚上討論量產」只有台灣有這速度

卸任英特爾執行長近一年後,季辛格以創投公司合夥人的全新身分重返台灣,行前接受《今周刊》獨家專訪,暢談個人職涯、旗下新創公司技術,以及美國半導體前景。

今周刊 ・ 1 天前
藍白二度強修財劃法,卓榮泰喊無法接受違法編列預算:國會勿一意孤行「未到最後關頭絕不輕言抵制」

藍白二度強修財劃法,卓榮泰喊無法接受違法編列預算:國會勿一意孤行「未到最後關頭絕不輕言抵制」

在藍白聯手下,立法院二度強修《財政收支劃分法》。行政院長卓榮泰周二(11/18)受訪表示,自去年520以來,國民及民眾主導的國會持續對行政院步步進逼,企圖迫使行政院接受違憲法案與預算案。 卓揆直言,國會上周五逕付二讀火速通過國民版「財劃法」,不僅無法解決長期存在的水平分配與垂直劃分不公問題,更將造成中央需再舉債2600億元,總舉債規模達5600億元,已違反「公債法」規定。 卓揆強調中央政府無法接受此次修法,也無法違法編列預算,並預告行政院將於周四院會通過院版「財劃法」,以五大原則全面照顧中央、地方與全民。 他表示行政院在協商未達絕望前不會放棄,未到最後關頭也不會輕言抵制。​​​​​​​​​​​​​​​​

今周刊 ・ 1 天前
AI伺服器大廠法說會釋樂觀訊號,市場為何喜憂參半?輝達擬調代工模式,供應鏈面臨兩大天險

AI伺服器大廠法說會釋樂觀訊號,市場為何喜憂參半?輝達擬調代工模式,供應鏈面臨兩大天險

儘管AI業界頻傳巨額投資,關於產業泡沫化的疑慮卻未歇。而在輝達傳出擬調整代工模式後,市場正密切關注哪些合作台廠最具優勢,以及獲利空間如何變化。

今周刊 ・ 1 天前
黃國昌列貪汙被告,北檢分他字案調查!被爆金流回流、金主有成衣大廠?律師:收賄罪會比徐永明7年更重

黃國昌列貪汙被告,北檢分他字案調查!被爆金流回流、金主有成衣大廠?律師:收賄罪會比徐永明7年更重

國民主席鄭麗文與民眾主席黃國昌將於11/19會面,黃國昌11/18被《鏡週刊》繼續爆料,支付狗仔薪資的「凱思國際」,有資金回流到黃國昌口袋,資金來源則包括臺雅集團旗下寀奕公司、《鏡電視》前零元股東陳建平及黃安捷,黃國昌都曾對此質詢,等於金主把錢匯入凱思國際後,黃國昌拿錢辦事,確立貪汙的對價關係。 黃國昌11/18在公聽會前對此回應,週刊之前的烏龍爆料都沒有道歉,現在又繼續潑糞、抹黑,「有什麼話到法院講,不會隨之起舞。」 至於黃國昌涉嫌透過「凱斯國際」收到臺雅集團二代挹注資金200萬元,有民眾認為黃國昌涉嫌利用立委職權收受好處,告發黃國昌涉嫌貪污。 北檢已分「他案」將列黃國昌為貪汙罪被告,交由正在偵辦黃國昌涉組織狗仔跟監政要的專責檢察官進行調查。

今周刊 ・ 1 天前
Google搜尋大進化!AI模式導入「生成式UI」:不用Vibe Coding,也能一鍵生成遊戲、工具、教材

Google搜尋大進化!AI模式導入「生成式UI」:不用Vibe Coding,也能一鍵生成遊戲、工具、教材

Google Research 宣布在AI模式中推出「生成式UI」,讓模型不僅生成內容,還能「即時設計與編碼」完整的互動體驗。

數位時代 ・ 1 天前
台股盤勢震盪中,誰還有補漲空間?台玻、華通...看季報撿便宜,5檔低估股進可攻退可守

台股盤勢震盪中,誰還有補漲空間?台玻、華通...看季報撿便宜,5檔低估股進可攻退可守

台股上市櫃公司第三季財報已陸續公布完畢,有哪些公司的財報表現及營運展望正向,股價卻相對被低估、有補漲空間呢?

今周刊 ・ 1 天前
銀價帶被動!陸被動元件龍頭漲價通知 台股這檔被動元件跟銀最有關

銀價帶被動!陸被動元件龍頭漲價通知 台股這檔被動元件跟銀最有關

陸資被動元件龍頭風華高科針對代理商、直接客戶同步發出漲價通知,該公司在信件中表示,由於金屬銀價今年以來已經上漲50%,其他金屬材料也全面性上漲,成本承壓,因此將針對電感磁珠、壓敏電阻、瓷介電容、厚膜電阻類產品上調5%~30%,且即日起新訂單採用新價。

理財周刊 ・ 1 天前
三大題材推升 臺慶科成多軸成長受惠股

三大題材推升 臺慶科成多軸成長受惠股

臺慶科(3357)為國內電感與磁性元件供應商,內容產品涵蓋電源電感、訊號電感、共模濾波器與晶片電感,應用於車用電子、AI 伺服器、PC、網通設備與消費性電子,是全球Tier1車廠與北美CSP伺服器供應鏈的認證廠商之一。

理財周刊 ・ 1 天前
鴻海跌跌不休 但進場點即將浮現這三個價位要注意

鴻海跌跌不休 但進場點即將浮現這三個價位要注意

本刊在鴻海(2317)股價還在170元左右時曾大力推薦,股價最高來到265元,不過在鴻海近期跌破月線之後,急速下墜的情況下,很多投資人都在問,鴻海進場點在哪?

理財周刊 ・ 1 天前
氣候變遷績效指標台灣倒數第9名 環境部批不合理、不具代表性

氣候變遷績效指標台灣倒數第9名 環境部批不合理、不具代表性

德國看守協會今日公布2026年版氣候變遷表現指標(CCPI)顯示,台灣排名第59名,雖相較去年進步1名,卻是倒數第9名。環境部對此回應,CCPI 評比方法有爭議,評比結果不合理也不具代表性。事實上我國溫室氣體排放持續下降,且已公布2035年國家自定貢獻,今年碳費制度上路並依《氣候變遷因應法》推展各項工作。

中時新聞網 ・ 1 天前
注意溫差!最猛冷空氣快走了 「這一天」高溫恐飆到30度

注意溫差!最猛冷空氣快走了 「這一天」高溫恐飆到30度

東北季風持續增強,全台有感降溫!今(19)日清晨最低溫只有11.8度,北部白天高溫也僅20度。中央氣象署指出,這波冷空氣將持續影響至後日清晨,隨後氣溫將戲劇性回升,「這一天」將出現一週中的最高溫,飆到30度,體感如同夏天。

三立新聞網 setn.com ・ 19 小時前
侯湘婷消失演藝圈18年!閃嫁捷安特小開當2寶媽 近況曝變家長會長

侯湘婷消失演藝圈18年!閃嫁捷安特小開當2寶媽 近況曝變家長會長

曾以《秋天別來》《為你流的淚》走紅的玉女歌手侯湘婷,淡出演藝圈18年後,近日意外在中部某國小的家長會長交接活動中現身,引發熱烈討論。43歲的她身穿優雅紫色禮服,氣質清新如昔,凍齡的模樣讓粉絲驚呼「完全沒變」,再度掀起外界對她近況的高度關注。

三立新聞網 setn.com ・ 2 小時前
43歲侯湘婷接任國小家長會長 凍齡美貌驚艷粉絲

43歲侯湘婷接任國小家長會長 凍齡美貌驚艷粉絲

曾被封為「玉女歌手」的侯湘婷,當年以《秋天別來》、《為你流的淚》等代表作走紅,2007年淡出演藝圈到美國深造設計領域,2013年與捷安特董事長外孫楊孟學結婚。近日,中部某國小在臉書發布家長會長交接活動的照片,43歲的侯湘婷意外重現眾人眼前,她身穿優雅的紫色禮服、氣質依舊,精緻的五官和凍齡狀態令粉絲驚艷不已,紛紛留言表示「完全沒變!」

三立新聞網 setn.com ・ 8 小時前
中國人真的從日本消失!日本網友叫好

中國人真的從日本消失!日本網友叫好

[NOWnews今日新聞]日本首相高市早苗「台灣有事」相關言論激起中國不滿,祭出多種反制措施包括呼籲民眾別去日本旅遊,航空公司機票、日本飯店乃至郵輪均傳出退訂、行程取消潮。不過,有日本網友對此歡呼叫好...

今日新聞NOWNEWS ・ 6 小時前
演藝圈大咖「中年夫妻」爆離婚 雙方至今0回應掀熱議

演藝圈大咖「中年夫妻」爆離婚 雙方至今0回應掀熱議

演藝圈大咖「中年夫妻」爆離婚 雙方至今0回應掀熱議

EBC東森娛樂 ・ 1 天前
今起回溫!「最快這時」又一波冷空氣來台 強度曝光

今起回溫!「最快這時」又一波冷空氣來台 強度曝光

今(20)日持續受東北季風影響,各地皆感受涼冷,清晨西半部及宜蘭低溫約15、16度,花東也只有17、18度,局部溫度會再更低一些,請注意保暖,白天起冷空氣逐漸減弱,北部及宜花氣溫稍回升,高溫約20至22度。氣象粉專也提醒,下一波冷空氣預估將在這時抵達。

三立新聞網 setn.com ・ 10 小時前
凍齡女神就服宋慧喬!青龍獎場內生圖封神,44歲美得不像同一個圖層,無懼「前任同框」話題成最美亮點

凍齡女神就服宋慧喬!青龍獎場內生圖封神,44歲美得不像同一個圖層,無懼「前任同框」話題成最美亮點

粉色輕紗 x 俐落短髮,溫婉與率性的完美平衡宋慧喬身著一襲淺粉色輕紗洋裝亮相。這件禮服的選擇極具巧思,柔和的紗質在場內燈光下呈現出飄逸靈動的光澤,抹胸設計優雅地露出了她漂亮的天鵝頸與鎖骨線條。不同於紅毯上常見的強勢大紅或經典黑白,這抹溫柔的粉色,反而襯托出她...

styletc ・ 7 小時前
台股紅翻黑!43萬散戶昨搶短…今天套牢了

台股紅翻黑!43萬散戶昨搶短…今天套牢了

台股反彈無力,收復2萬7點失敗,空軍氣焰大增,接近中午指數由紅翻黑,一度下跌近140點,據證交所資料顯示,昨天趁台股下跌691點,短短一天有43.7萬散戶進場「搶短」,但今天若收盤時指數未拉起,恐怕「搶反彈不成反住套房」,慘遭套牢。

Yahoo奇摩股市 ・ 1 天前
不是南亞科也非華邦電!億元教授點名「這檔記憶體」久抱相對安心 外資連5敲

不是南亞科也非華邦電!億元教授點名「這檔記憶體」久抱相對安心 外資連5敲

[FTNN新聞網]財經中心/綜合報導在AI熱潮下,近期記憶體大缺貨價格狂飆,DRAM雙雄南亞科(2408)、華邦電(2344)雙創歷史新天價,成交量也炸天,針對記憶體...

FTNN新聞網 ・ 11 小時前
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86