那他为啥对中文支持还挺好,而且中文的回答并不比国内模型差呢?
既然不让中国人用(甚至港澳 IP 也用不了),为何搞简体中文版本?
难道是为了海外华人特别是还用简中的人使用的吗? 那才有多少人啊,数量级也就百八十万吧。
还是说这 AI ,在训练或推理时,对于多一种语言支持,其实并不费什么事儿?
还有就是到底是中国想用而不得,还是 GFW 也墙了 claude ,这个有懂的吗

那他为啥对中文支持还挺好,而且中文的回答并不比国内模型差呢?
既然不让中国人用(甚至港澳 IP 也用不了),为何搞简体中文版本?
难道是为了海外华人特别是还用简中的人使用的吗? 那才有多少人啊,数量级也就百八十万吧。
还是说这 AI ,在训练或推理时,对于多一种语言支持,其实并不费什么事儿?
还有就是到底是中国想用而不得,还是 GFW 也墙了 claude ,这个有懂的吗
1 aes114514gcm 19h 6m ago google 的大部分业务中国大陆也用不了,为什么还要做简体中文的本地化呢? |
2 capric 19h 6m ago 用中文预料训练啊 |
3 mytsing520 PRO 1.境外华人华侨,使用中文,并且使用简中的比重在逐渐增大; 2.境内,用中转站喂养大模型的中文能力; 3.没法用是双向奔赴,对面既不想给中国用,中国也不想让这个东西因为不受控而在国内用途广泛,参考 Google 。 |
4 jaoyina 19h 4m ago 大模型的训练资料包括整个互联网,理所当然包括各种语言的互联网资料,没必要特别去排除吧。 |
5 idblife 19h 4m ago 你这是小看海外华人数量了 你可以问问 claude 海外有多少人使用简体中文 |
6 junoho 19h 4m ago 还有新加坡,马来西亚也是用简体 |
7 zhaiyuxin103 19h 3m ago |
8 bzkmsjy 18h 57m ago via Android 因为需求的人少就不用理会,这种思想是很可怕的,或许这也是国内软件无障碍如此糟糕的原因之一吧。 |
9 nc 18h 57m ago 感觉楼主就是揣着明白装糊涂,这种帖子都月经了 |
10 ndxxx 18h 56m ago via Android 两个冷知识: 1. 「简体中文」不仅仅在我国被广泛使用。 2. 「简体中文」/「简化字」不是你裆的创造发明。 |
11 intoext OP @nc 真不是装糊涂,虽然上面大家的回答我也能猜出一二三--不然不配在 v2 混了,但是主要还是想印证一下。并且 google 有中文版,也是历史原因, 一开始中国大陆是允许 google 运营的。但是 A\的东西明显不是,一开始就有“歧视”中国大陆的意味在。 |
12 cppc 18h 54m ago 中国不能用是政策问题,模型支持中文语料是技术问题。 哪天政策变了,重头训练模型? |
14 106npo 18h 47m ago 如果你真的是想讨论大模型训练 那结论是 多支持一个语言并不需要太多语料 |
15 crysislinux 18h 46m ago via Android 虽然海外华人多,但是我感觉中文比当地语言好的人比例不大吧。 |
17 zfyime 18h 40m ago 你说百八十万 我都想笑 真是没概念啊 |
18 jiangzm 18h 40m ago 任何技术都要在党的指导下开展工作,大模型也不例外。没有内容过滤的大模型岂不是洪水猛兽,使不得使不得。 |
19 Duolingo 18h 40m ago 就是拿你的数据训练,然后不给你用,你能咋地 doge 。 A\还切了不少实体书用来训练,我相信其中肯定有珍贵的版本无了。 从表面上看,毕竟和军方有着合同关系,不给用也是正常操作。 |
20 diudiuu 18h 37m ago 他的网站还有 app 始终没有简体中文,人家不给用 |
21 ntdll 18h 35m ago 以我浅薄的基础,LLM 对于语言的支持并不困难,主要还是在 Tokenization 阶段,训练阶段语料少的语种需要更多的 token 才能达到相同的效果。 |
22 ndxxx 18h 31m ago @ndxxx 既然楼主号称自己不是在装糊涂,那么我就稍微认真的回答一下。简单来说就是机器/AI 翻译的能力或者说模型的能力进化了: 1. 早期的统计机器翻译和早期神经机器翻译,很多时候是按语言对训练的:A 语言 ->B 语言; B 语言 -> C 语言; A 语言 -> C 语言。此时如果没有足够的“泰语 ->冰岛语”双语平行语料,那么就会引入 pivot language:泰语 -> 英语(pivot) -> 冰岛语 2. 现代 LLM 早已不需要显式 pivot ,是因为它不是简单的 A 语言词句映射到 B 语言词句,而是在一个统一模型里学到了很多语言和知识之间的关联。这个“跨语言迁移”的能力,底层机制就是常说的共享语意空间 shared semantic space 。 |
23 JiMuChan 18h 6m ago 盲道、无障碍设施根本就没几个人用,干嘛还要建设呢 |
24 ixcode 18h 5m ago 因为大(语言)模型最擅长的就是搞语言,不管是中文英文这样的自然语言,还是 java python 这样的编程语言,都是 LLM 最擅长的内容,也是对翻译和编程这两个领域带来最大的革命性的原因 |
25 XenoGear 18h 2m ago 谷歌有全世界的数据,中文语料实际上比中国绝大多数团队都强,而且真洗数据不会分那么细的,到底洗不洗某个语言的数据,尤其网页数据很多就是中英混杂的 |
26 jonty 17h 58m ago 你先明确一下,他们实际上不是针对中国人,是针对中国地区... |
27 94 17h 52m ago @intoext #11 ,那就从你这个角度出发延展。虽然 A\ 有点魔怔,但也只是因为当前政治环境下 PRC 是对立面。可以理解为是“敌意”,并不是“歧视”。如果政治环境变化了就不一定还是对立面了。 |
28 dyvdy 17h 47m ago via iPhone 非中国大陆,会讲中文的华人应该就有 5000 万以上,台湾 2300 万,香港 700 万,马来西亚 700 万,新加坡 300 万,美国 300 万+,再加上其他国家零零散散的移民,市场已经挺大了吧… |
30 lmmlwen 17h 41m ago 可以看看 Anthropic 首席科学家的采访,对中国或者“共产主义”的看法 |
31 docx 17h 40m ago via iPhone Cladue 本来就没支持中文,你可以去 web 设置里看有哪些语言。至于语料是中文,这是另外一回事。 |
32 urlk 17h 39m ago claude api 文档是有中文的, 反观 OpenAI 的却没有 |
33 zzutmebwd 17h 30m ago Anthropic ( Claude 开发团队)的核心技术与研究团队中,华人或华裔比例大约在 16.4% 至 20% 之间。 |
34 Bad0Guy 17h 25m ago via iPhone @intoext #11 论歧视而言 A\真不如早期的 OpenAI ,+86 不能注册并且必须要你验证手机号不,plus 还不允许国内卡支付,A\刚推出那会儿都不会强制要你验证手机号。从一开始这两家跟国内就是双向墙。 |
36 deplives 17h 19m ago 你搞混了一个概念 中文不是中国人的专属,A 社只是不想让中国大陆地区使用,而不是中文使用者使用 你就是英语母语者,在中国的环境下 A 社同样不欢迎使用 |
37 aogu555 16h 54m ago 马来西亚+新加坡也有 1000 万用简体中文的华人啊,然后还有繁中的几千万,这中文用户也不少啊 |
40 TimPeake 16h 39m ago 楼主 你知道一个事情吗?大概就是,前段时间,他们的一个 CEO 发表了言论,大致意思是,卖给中国显卡发展 AI , 跟卖核武器跟朝鲜差不多。作为一个盈利目的的私企,这态度,只要是个正常人,都能看出来,是有点主观反华的意味的,根本就不是普通的配合政府法规要求。 国内环境:“爹 您 claude 能卖我会员吗” anthropic: 滚!捞汁就是不卖!偷摸也不行!逮一个封一个! 我不是想故意制造对立渲染什么爱国情绪,作为消费者不要这么卑微,替代品又不是断崖式领先。实在不行用 copilot codex 之类的都行啊 |
41 chenliangngng 16h 34m ago 你可以直接搜索下海外华人华侨的数量,快和韩国人口相当 claude ceo 是个意识形态入脑的反华斗士,或者说,他可能只有这样才能拿到米国军方订单,以便获得巨量的融资来训练模型 |
42 lscho 16h 30m ago 楼上一个个这么自信的回答中文不是大陆专属,就是不敢正面回答一个问题。 A/到底用没用大陆的语料库训练?他自己敢说没有吗 |
43 idealhs 16h 30m ago Simplified Chinese != zh-CN |
44 icyalala 16h 23m ago 就算排除中国大陆,用简体中文的人口也有几千万的量级(新加坡/马来/其他移民) 按这个量级算,相当于韩语/荷兰语/越南语人口 你要考虑国际化,你肯定需要考虑这所有些语言 换句话说就算用荷兰语/越南语去聊天,模型能力也不会差到哪去 |
45 shaozelin030405 16h 4m ago 1. 公司是有国界的 2. 海外有华人,汉语使用很多 3. 哪天政策调整,中美关系超缓和,可以在中国做生意呢?那没做的现做啊。自己孩子都要上小学了,你问孩子名字叫啥么 |
46 vanillasky 16h 0m ago 和中文有毛关系,数据都是跑在语义空间里,你用任何所知的语言都一样 |
48 zhonghao01 14h 37m ago 它只是让工作在中国的人用不了,不区分哪里人。 |
49 iyaozhen 14h 18m ago 有些人还是不知道 claude 和 Google 被墙不是一回事 claude 是中国政府不准你用,claude 公司也不准你用 |
50 sammy520 14h 6m ago via Android 正好,作为法律工作者,我最近有个相对复杂的案子,分别对比了几个 AI ,就是把所有资料扔进去,看它对我的辩论意见和思路有什么想法。结论:豆包还行,但过于简单,分析思路不够开阔,没有主动发现其他思路提醒我的能力; gemini ,讨好型人格,我说啥它都跨一阵,然后分析的内容比豆包详细,结论都差不多,比豆包略强,但法律引用极容易错误,甚至给我伪造法条……; Claude 最强大!没有废话,各种思路和依据给我分析的好好的,在我的不断追问补充下,它得出的结论和建议我认为已经接近完美! |
51 lujiaosama 14h 1m ago anthropic 这种不纯血的资本家真让人挠头,无视 CN 这块巨大的蛋糕层层设限。说他是理想主义者又根本配不上,说他资本家又是半吊子。 |
52 catazshadow 11h 34m ago |
53 meteora0tkvo 11h 13m ago 生活在中国大陆海外的中文母语者也不少,数量甚至比其他的小众语言的使用者人数都多,没有理由不支持中文。而且 ceo 歧视并不是真多所有的中国人,只不过歧视生活在中国大陆的中国人而已。 |
55 unusualcat 10h 9m ago 1 ,中美冷战,意识形态问题. 2 ,尽可能防止被国内厂家蒸馏 |
56 GeruzoniAnsasu 9h 51m ago 有没有一种可能:模型训练的重点不是语言,而是 **知识**。 Transformer 架构天然能抹平语言差异,还记得 ATTENTION IS ALL YOU NEED 吗?只要中文语料存在大量知识这个客观事实存在,任何可预测的仍采用 GPT 架构的模型代际就一定会拿中文语料训练,也就一定能完美支持中文。就算 A\这家公司足够反华到上了一个 censorship 模型专门屏蔽中文输出,底层模型也是必须用全语种训练泛化能力的。i.e.「支持中文」 |
57 qinrui 9h 35m ago @meteora0tkvo 歧视用百毒的中国人 |
58 anmie 9h 33m ago 看着这帖子里的评论,现在 V2 的环境,真是用恶臭形容也不为过了。 |
59 AEDaydreamer 9h 28m ago 在大模型时代,翻译已成为一项基本能力。其他语言同样可能借鉴中文语料翻译后的信息,且对于如此大参数量的模型而言,中文语料是必不可缺的。 |
61 bzkmsjy 1h 49m ago via Android @ss2730 事实就是相当多国内开发者认为弱势群体数量太少,甚至一辈子都没见过一个,所以软件有没有无障碍无所谓,而不是弱势群体需要关爱,开发过程一定要注重无障碍的适配工作,另外不是我混淆了,我自己就是被混淆的那一类人 |
62 datou 1h 13m ago LLM 最擅长的就是翻译 |