有个问题我始终没有弄明白，如 claude 这样的模型，中国大陆 IP 不能访问

那他为啥对中文支持还挺好，而且中文的回答并不比国内模型差呢？

既然不让中国人用（甚至港澳 IP 也用不了），为何搞简体中文版本？

难道是为了海外华人特别是还用简中的人使用的吗？那才有多少人啊，数量级也就百八十万吧。

还是说这 AI ，在训练或推理时，对于多一种语言支持，其实并不费什么事儿？

还有就是到底是中国想用而不得，还是 GFW 也墙了 claude ，这个有懂的吗

模型

中文

访问

62 replies 2026-05-22 07:07:11 +08:00

aes114514gcm

19h 6m ago

google 的大部分业务中国大陆也用不了，为什么还要做简体中文的本地化呢？

capric

19h 6m ago

用中文预料训练啊

mytsing520

PRO

19h 5m ago

1.境外华人华侨，使用中文，并且使用简中的比重在逐渐增大；
2.境内，用中转站喂养大模型的中文能力；
3.没法用是双向奔赴，对面既不想给中国用，中国也不想让这个东西因为不受控而在国内用途广泛，参考 Google 。

jaoyina

19h 4m ago

大模型的训练资料包括整个互联网，理所当然包括各种语言的互联网资料，没必要特别去排除吧。

idblife

19h 4m ago

你这是小看海外华人数量了
你可以问问 claude 海外有多少人使用简体中文

junoho

19h 4m ago

还有新加坡，马来西亚也是用简体

zhaiyuxin103

19h 3m ago

只能说 claude 模型强，并不是对于中文的回答强
市场这里的话，感觉就是中国市场大都想试试，不想斩钉截铁的直接放弃，但是不知道 A\ 的 CEO 怎么想的，自己的猜测拙见

bzkmsjy

18h 57m ago via Android

因为需求的人少就不用理会，这种思想是很可怕的，或许这也是国内软件无障碍如此糟糕的原因之一吧。

18h 57m ago

感觉楼主就是揣着明白装糊涂，这种帖子都月经了

ndxxx

18h 56m ago via Android

两个冷知识：

1. 「简体中文」不仅仅在我国被广泛使用。

2. 「简体中文」/「简化字」不是你裆的创造发明。

intoext

18h 55m ago

@nc 真不是装糊涂，虽然上面大家的回答我也能猜出一二三--不然不配在 v2 混了，但是主要还是想印证一下。并且 google 有中文版，也是历史原因，一开始中国大陆是允许 google 运营的。但是 A\的东西明显不是，一开始就有“歧视”中国大陆的意味在。

cppc

18h 54m ago

中国不能用是政策问题，模型支持中文语料是技术问题。哪天政策变了，重头训练模型？

18h 49m ago

@intoext 国外 AI 公司都被 GFW 墙了，普通人压根用不了，能在国内直连的都不是普通人，主动屏蔽中国 IP 防的就是这些奉旨翻墙的，我觉得这是件好事。

106npo

18h 47m ago

如果你真的是想讨论大模型训练
那结论是多支持一个语言并不需要太多语料

crysislinux

18h 46m ago via Android

虽然海外华人多，但是我感觉中文比当地语言好的人比例不大吧。

leglo

18h 43m ago

@nc #13 这说法就有点不客观了，美国的 AI ，受限于美国法律，就是不能为中国，包括香港提供服务，香港总没有 gfw 吧，不也一样不能直接用。

zfyime

18h 40m ago

你说百八十万我都想笑真是没概念啊

jiangzm

18h 40m ago

任何技术都要在党的指导下开展工作，大模型也不例外。没有内容过滤的大模型岂不是洪水猛兽，使不得使不得。

Duolingo

18h 40m ago

就是拿你的数据训练，然后不给你用，你能咋地 doge 。

A\还切了不少实体书用来训练，我相信其中肯定有珍贵的版本无了。

从表面上看，毕竟和军方有着合同关系，不给用也是正常操作。

diudiuu

18h 37m ago

他的网站还有 app 始终没有简体中文，人家不给用

ntdll

18h 35m ago

以我浅薄的基础，LLM 对于语言的支持并不困难，主要还是在 Tokenization 阶段，训练阶段语料少的语种需要更多的 token 才能达到相同的效果。

ndxxx

18h 31m ago

@ndxxx 既然楼主号称自己不是在装糊涂，那么我就稍微认真的回答一下。简单来说就是机器/AI 翻译的能力或者说模型的能力进化了：

1. 早期的统计机器翻译和早期神经机器翻译，很多时候是按语言对训练的：A 语言 ->B 语言； B 语言 -> C 语言； A 语言 -> C 语言。此时如果没有足够的“泰语 ->冰岛语”双语平行语料，那么就会引入 pivot language：泰语 -> 英语(pivot) -> 冰岛语

2. 现代 LLM 早已不需要显式 pivot ，是因为它不是简单的 A 语言词句映射到 B 语言词句，而是在一个统一模型里学到了很多语言和知识之间的关联。这个“跨语言迁移”的能力，底层机制就是常说的共享语意空间 shared semantic space 。

JiMuChan

18h 6m ago

盲道、无障碍设施根本就没几个人用，干嘛还要建设呢

ixcode

18h 5m ago

因为大（语言）模型最擅长的就是搞语言，不管是中文英文这样的自然语言，还是 java python 这样的编程语言，都是 LLM 最擅长的内容，也是对翻译和编程这两个领域带来最大的革命性的原因

XenoGear

18h 2m ago

谷歌有全世界的数据，中文语料实际上比中国绝大多数团队都强，而且真洗数据不会分那么细的，到底洗不洗某个语言的数据，尤其网页数据很多就是中英混杂的

jonty

17h 58m ago

你先明确一下，他们实际上不是针对中国人，是针对中国地区...

17h 52m ago

@intoext #11 ，那就从你这个角度出发延展。虽然 A\ 有点魔怔，但也只是因为当前政治环境下 PRC 是对立面。可以理解为是“敌意”，并不是“歧视”。如果政治环境变化了就不一定还是对立面了。

dyvdy

17h 47m ago via iPhone

非中国大陆，会讲中文的华人应该就有 5000 万以上，台湾 2300 万，香港 700 万，马来西亚 700 万，新加坡 300 万，美国 300 万+，再加上其他国家零零散散的移民，市场已经挺大了吧…

ndxxx

17h 42m ago via Android

@dyvdy 美国人中心主义是认为文明国家人人都会讲美式英语

中国人中心主义是世界上只有中国使用简体中文

lmmlwen

17h 41m ago

可以看看 Anthropic 首席科学家的采访，对中国或者“共产主义”的看法

docx

17h 40m ago via iPhone

Cladue 本来就没支持中文，你可以去 web 设置里看有哪些语言。至于语料是中文，这是另外一回事。

urlk

17h 39m ago

claude api 文档是有中文的, 反观 OpenAI 的却没有

zzutmebwd

17h 30m ago

Anthropic （ Claude 开发团队）的核心技术与研究团队中，华人或华裔比例大约在 16.4% 至 20% 之间。

Bad0Guy

17h 25m ago via iPhone

@intoext #11 论歧视而言 A\真不如早期的 OpenAI ，+86 不能注册并且必须要你验证手机号不，plus 还不允许国内卡支付，A\刚推出那会儿都不会强制要你验证手机号。从一开始这两家跟国内就是双向墙。

Bad0Guy

17h 24m ago via iPhone

@Bad0Guy “号”后面的“不”多打了

deplives

17h 19m ago

你搞混了一个概念
中文不是中国人的专属，A 社只是不想让中国大陆地区使用，而不是中文使用者使用
你就是英语母语者，在中国的环境下 A 社同样不欢迎使用

aogu555

16h 54m ago

马来西亚+新加坡也有 1000 万用简体中文的华人啊，然后还有繁中的几千万，这中文用户也不少啊

ykrank

16h 53m ago

@bzkmsjy 这才是市场经济

ykrank

16h 44m ago

@deplives 香港也不行

TimPeake

16h 39m ago

楼主你知道一个事情吗？大概就是，前段时间，他们的一个 CEO 发表了言论，大致意思是，卖给中国显卡发展 AI ，跟卖核武器跟朝鲜差不多。作为一个盈利目的的私企，这态度，只要是个正常人，都能看出来，是有点主观反华的意味的，根本就不是普通的配合政府法规要求。
国内环境：“爹您 claude 能卖我会员吗” anthropic: 滚！捞汁就是不卖！偷摸也不行！逮一个封一个！

我不是想故意制造对立渲染什么爱国情绪，作为消费者不要这么卑微，替代品又不是断崖式领先。实在不行用 copilot codex 之类的都行啊

chenliangngng

16h 34m ago

你可以直接搜索下海外华人华侨的数量，快和韩国人口相当

claude ceo 是个意识形态入脑的反华斗士，或者说，他可能只有这样才能拿到米国军方订单，以便获得巨量的融资来训练模型

lscho

16h 30m ago

楼上一个个这么自信的回答中文不是大陆专属，就是不敢正面回答一个问题。

A/到底用没用大陆的语料库训练？他自己敢说没有吗

idealhs

16h 30m ago

Simplified Chinese != zh-CN

icyalala

16h 23m ago

就算排除中国大陆，用简体中文的人口也有几千万的量级（新加坡/马来/其他移民）
按这个量级算，相当于韩语/荷兰语/越南语人口
你要考虑国际化，你肯定需要考虑这所有些语言
换句话说就算用荷兰语/越南语去聊天，模型能力也不会差到哪去

shaozelin030405

16h 4m ago

1. 公司是有国界的
2. 海外有华人，汉语使用很多
3. 哪天政策调整，中美关系超缓和，可以在中国做生意呢？那没做的现做啊。自己孩子都要上小学了，你问孩子名字叫啥么

vanillasky

16h 0m ago

和中文有毛关系，数据都是跑在语义空间里，你用任何所知的语言都一样

zhmouV2

14h 44m ago

@lscho 用脚想那肯定是用了啊。真当 ai 公司都是遵守版权规定的乖宝宝？

zhonghao01

14h 37m ago

它只是让工作在中国的人用不了，不区分哪里人。

iyaozhen

14h 18m ago

有些人还是不知道 claude 和 Google 被墙不是一回事

claude 是中国政府不准你用，claude 公司也不准你用

sammy520

14h 6m ago via Android

正好，作为法律工作者，我最近有个相对复杂的案子，分别对比了几个 AI ，就是把所有资料扔进去，看它对我的辩论意见和思路有什么想法。结论：豆包还行，但过于简单，分析思路不够开阔，没有主动发现其他思路提醒我的能力； gemini ，讨好型人格，我说啥它都跨一阵，然后分析的内容比豆包详细，结论都差不多，比豆包略强，但法律引用极容易错误，甚至给我伪造法条……； Claude 最强大！没有废话，各种思路和依据给我分析的好好的，在我的不断追问补充下，它得出的结论和建议我认为已经接近完美！

lujiaosama

14h 1m ago

anthropic 这种不纯血的资本家真让人挠头，无视 CN 这块巨大的蛋糕层层设限。说他是理想主义者又根本配不上，说他资本家又是半吊子。

catazshadow

11h 34m ago

@TimPeake 除了民族主义高潮，你还应该想想他说的是不是对的。

能把一个人的看法逼到如此极端，另一方应该也不是省油的灯

meteora0tkvo

11h 13m ago

生活在中国大陆海外的中文母语者也不少，数量甚至比其他的小众语言的使用者人数都多，没有理由不支持中文。而且 ceo 歧视并不是真多所有的中国人，只不过歧视生活在中国大陆的中国人而已。

hello2090

11h 1m ago via iPhone

@TimPeake “卖给中国显卡发展 AI ，跟卖核武器跟朝鲜差不多。” 那他说的对吗

unusualcat

10h 9m ago

1 ，中美冷战,意识形态问题. 2 ，尽可能防止被国内厂家蒸馏

GeruzoniAnsasu

9h 51m ago

有没有一种可能：模型训练的重点不是语言，而是 **知识**。

Transformer 架构天然能抹平语言差异，还记得 ATTENTION IS ALL YOU NEED 吗？只要中文语料存在大量知识这个客观事实存在，任何可预测的仍采用 GPT 架构的模型代际就一定会拿中文语料训练，也就一定能完美支持中文。就算 A\这家公司足够反华到上了一个 censorship 模型专门屏蔽中文输出，底层模型也是必须用全语种训练泛化能力的。i.e.「支持中文」