deepseek-v4-flash 好像没大家说的这么智能啊？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

感觉就比 minimaxm2.7 强点，感觉不如 qwen3.6plus ，glm5 和 kimi2.5 啊，我已经用了 2 亿多 token 了，实在没体验出智能
尤其是指令遵循，我在 hermes 中使用时常出现不遵守规则回复。
还有长记忆捞回测试，我上传了 900k 的武林外传的剧本 txt ，回答的很差
v4-pro 这个比较很可疑，但是 v4-flash 有时候我感觉和 minimax2.7 坐一桌的

智能

指令

记忆

16 replies 2026-05-04 03:15:19 +08:00

lynn1su

2 days ago

flash 思考强度开的 max

ericguo

2 days ago

3 USD <= 2 RMB ，新的 token 不等式？

dingawm

2 days ago

flash 参数量和 qwen3.6plus ，glm5 和 kimi2.5 不是一个量级的

lynn1su

2 days ago

@dingawm 有的时候感觉和 minimax m2.7 一个感觉，有点破防。。

longxinglink

2 days ago

nvidia 的 API 测试了一下，很多国模无法完成通过 cloudflare API 部署 monolith 博客项目和独角兽 next （ Render+free 数据库），性能不如 jules （ Gemini 3.1pro ）（在其他论坛说这话会不会被喷）

defaw

2 days ago

至少他真会去自主 gradle 执行任务去拉源码解压然后分析，我没见过 glm5 以下的模型这么干过，kimi 不行，minimax 不行。
ps:最近 3 天 opencode 的 flash 明显变蠢了，不知道咋回事。

forisra

2 days ago

@ericguo 就是这个道理。之前 ilya 还说 ai 要进入研究时代现在看是完全错误，实际上还得是力大飞砖继续堆参数量继续堆显存。

lynn1su

2 days ago

@defaw 量化了估计

/div>

ybybwdwd

2 days ago

280 多 b 的参数，本来就是对标 minimax2.7 这个级别的啊

lynn1su

2 days ago

@ybybwdwd 但是晚发这么久，应该有智力上的优势呀

ClericPy

2 days ago

TPS 100+ 的国产模型里，我一直在各种套餐里反复横跳，不知道哪个聪明

minimax2.7-highspeed 、glm5-turbo 、deepseekv4-flash 、mimo2.5

claude code 里约束好各种 md 以后，基本看不出来有啥搞不定的事情，估计是已经被我限定了改动方向了，不像一些人让它自由发挥。TDD + SDD 以后确实很少出问题了

dingawm

2 days ago

@lynn1su #10 每个人使用的场景都不同，每个模型擅长的方向也不同，参考一些比较可靠的跑分结果和你的需求选择吧。我一般不会用各家的小模型的，但是我看 X 上有老外说 v4 flash 效果很好，性价比比 v4 pro 高很多，忘记他说的什么场景了，不过我自己的小任务还是不太考虑用小模型，毕竟用量本来就没有那么大。

yangyaofei

2 days ago

v4 flash 就是不是很聪明, 有一个业务原来跑在 Deepseek v3 非推理模式下面, 现在切换到 flash 非推理模型下面, 直接输出没有跟随指令. 由于原来的提示词比较复杂有多个逻辑在里面, 不得已修改了提示词, 但是效果还是不好, 只能切到 kimi 上面了, 当然慢的飞起.

flash 用来做简单的单一任务还是挺好的, 语音转文字的后处理做得又快又好, 不要要求太多, 这么便宜这么快还想怎样, 和 glm5.1 比就太过分了, 现在体感使用在 coding 场景下 v4 pro 都不如 glm5.1

ghos

1 day ago

@ClericPy 想问问 TDD+SDD 用什么 skill 好呢？

plmsuper8

1 day ago

和 Minimax 一桌也不奇怪。某种意义上的模型泛用智能没有诀窍，还是要靠参数量、尤其是激活量 + 高质量训练；更晚推出的模型的以小博大，更多还是因为对齐了更新的流行趋势，比如 Resaoning 、Tool 、Agent 等等。但如果你的应用方向不是主流的，甚至会觉得新的倒退（比如，很多人觉得 opus 4.5 角色扮演比 4.7 更好； gpt4 比 gpt5 更人性化；写文方面还有坚持用 llama3 70b 系列的）

germain

1 day ago

近 48 小时内降智了，我之前问的一些问题都能顺利过的现在同样的问题都是错的答案。（ pro ，我不用 flash ）