几小时的编程长任务到底是怎么做到的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

独立开发者节点

愿每一位独立开发者都能保持初心,获得一个好的结果.

经常在别的地方看到，AI 连续变成几小时。
拿 cc 举例子，具体咋做到的呢

Supplement 1 1 day ago

感谢兄弟们的回复，目前看到正确的方法是：
详细的任务拆解，是必要条件

编程

任务

43 replies 2026-04-29 07:20:53 +08:00

cortexm3

1 day ago

给权限，比如 yolo 模式,加上支持自动任务的框架，比如 ralph 。
其实你让 AI 给你写个自动运行的工作流也一样。

0x5c0f

1 day ago

这个我之前也想了一下，应该是要加入记忆插件吧，或者类似记忆的能力，比如要求先写计划书、每次功能编写都进行 git 归档，然后隔一段时间就让他自己 git log 看看完成任务，同步标记计划书，这个很多 ai 编辑器工具应该都具备，比如 kiro 的 plan 模式

tutulyy

1 day ago

插个眼，
中间状态飘了，最后产出根本没法收敛回来。

XuDongJianSama

1 day ago

三个方案
1：claude.md 或 memory 文件里写任务，直接让他干，等自动压缩能续上
2：主 agent 只调度，串行启动子 agent 干活
3：脚本循环启动

我用的 glm 搭配 cc ，1 很不稳，上下文大了容易坏。2 能干挺久挺稳。3 能无限干，实测好几天，还加了多角色切换

mengyaoren

1 day ago

oh-my-claudecode 的 ralph 可以执行长任务

june4

1 day ago

https://learn.shareai.run/zh/

andlp

1 day ago

昨晚执行了一个 2h30m 左右的任务,就是一个 flutter 项目 clone 下来之后,让他成功运行并 build apk 和 ipa 出来,提示词就说一直做出 apk 为止,中途不要询问,不要停止,不要等待

benjaminliangcom

1 day ago

前两天试用 gsd-pi ，前期对好需求就可以进入 auto mode 了

tanrenye

1 day ago

你只要减少代码洁癖就可以做到

alfa

1 day ago

插个眼，现在跑了 16 分钟，看看最后跑完需要多久。

byteLoading

1 day ago

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

claude 之前有过一篇 blog 讲这个问题，大概的思路是：
1. 拆分任务
2. 搞个记忆机制，维护任务状态
3. 结合各种钩子，更新任务状态 + 选择下一个任务

可以使用这个思路去构建自己的工作流，不过任务拆分的粒度不够 + 模型不够强的话跑偏了的话，可能就是会浪费你大量的 token 又达不到预期的效果，所以就需要把任务拆分的足够小 + 搭配充分的验证任务完成的机制，这一步对人的经验要求还是比较高的。

shinelamla

1 day ago

插个眼，感觉这种也是有边界的，是不是多数适合从 0-1 做一个新项目？

whatcall

1 day ago

试试 devin.ai
注册送 20~50USD ，我随便拉个个开源项目，制定好任务步骤目标，让它跑个重构升级，它能一直跑很久，送的 50USD 很快就用完了。

wat4me

1 day ago

https://openai.com/zh-Hans-CN/index/harness-engineering/
https://www.anthropic.com/engineering/harness-design-long-running-apps
拆解出足够多的目标以及目标完成后的验证步骤如何推进

momocraft

1 day ago

为什么要用时间当指标呢？好像时间短了别人会觉得你无能一样

让 AI 做事和让人做事，评价应该是差不多的
把一个人捆在那几小时很简单，让他可持续地做对你有用的事才叫管理

xingchenxf

1 day ago

不要听别人胡扯，能做到的方式就两种
1. 模型能力强，我对比过 gpt5.5 啥都不做，只要告诉他一直做完，就真的一直做。而 gpt5.4 、sonnet4.6 就不行。
2. 暴力流：比如 loop / hook / while(true){claude -p "xxx"}
其他的基于 Prompt 的都是不靠谱的。也就是说 claude.md 、skill 这些，都没用。

keshawnvan

1 day ago

1.提前写好比较完善的方案，并且有对应 skill 去约束按照方案执行，比如使用 superpowers
2.开启自动审查或者比较宽松的权限策略
3.使用比较强的推理模型
我测下来最多一次跑了七个小时，生成的代码还是比较可用的。

andforce

1 day ago

@momocraft #15 兄弟，你可以尝试这理解一下主题意思。

你只看到了“时间”，难道有人会单纯为了让 AI 长时间瞎跑吗？

那不是很明显个是想让 AI 长时间做最对自己有用的事么？

litchinn

1 day ago

试试 gstack + get-shit-down

IndexOutOfBounds

1 day ago via Android

@tanrenye 很真实，喜欢微操就不适合长时间跑

momocraft

1 day ago

@andforce 你看你还是在把长时间当成目标。我的意思是有用应该是唯一的目标，如果要再多一个目标就是节省人类时间

我最成功节省自己时间的时候是这样：

agent 在沙盒里跑，权限不管
人和 agent 一起在充分知识做计划，计划足够具体且可行
执行的时候不容易偏，比如各 CLAUDE.md 里有足够具体信息，代码质量不差，agent 可以简单地自己跑测试

andforce

1 day ago

@momocraft #21 我看你是没有实际碰到具体使用场景，从而很难理解别人说的“长时间有用”。

我给你举个例子吧，我现在的场景是：
我白天在公司跟 AI 结对编程，这就不说了，就是提到的“人和 agent 一起在充分知识下做计划，计划足够具体且可行”，我跟 AI 确实在一起好几个小时。

下班后我接了 2 个网站开发的活儿，有时候我还会自己开发开源项目，这些项目共同的特点就是：没有严格的苛刻的需求验收，大体上实现功能就行了。

我想要在睡觉前，让 AI 把我这些活儿交给 AI 按照我需求一条一条干，我早上起来看一下。

现在你明白使用场景了吗？

“有用”怎么定义？在我这能给我完成活儿，挣到钱就好了，这就是对我有用的

ntdll

1 day ago

其实拆了，也很难维持。我经常遇到 Claude 说

我现在已经完成 xxxx ，下一步是 xxxx ，如果你愿意的话，我可以 xxxxx

然后就停那了，明明它啥都知道，就是要你回个“继续”

我也试过提示词里告诉他，直到完成之前，不要问我，也不用告诉我任何中间状态，但依旧出现：

我已经完成了 xxxx ，下一步要做 xxxx ，用户的原话是:xxxx （就是我那一句让他不要停的提示词）

然后停在那了，等我回复

nicaiwss

1 day ago via iPhone

@ntdll 羞辱他不理解指令，告诉他 codex 要审核他的代码发现他居然没写完

kulove

1 day ago via Android

感觉是卖课做自媒体才这么搞这么长时间无法控制结果和质量的我这边最多让它完成一个小模块然后大概半小时左右

beimenjun

PRO

1 day ago

10 个小时的都有，cc 没有网络重试，就这么卡死了 10 个小时。

其实我觉得不要盯着时间，而是盯着产出……

maichael

1 day ago

如果你「思考清楚了」整个计划，那么「几小时」的长编程几乎都是代码生成，当然正常是不用几个小时的。
但是你是不可能提前「思考清楚了」，你正常只能想清楚大概，而且 LLM 生成代码也可能不出问题，不需要修正，所以包括「代码生成」、「 Cross-Agent Review 」、「路线修正」等等加起来耗几个小时是很正常的，当然，前提是你的机制（计划、loop 等）完善，才能一直跑不需要你介入。

mengdu

1 day ago

https://github.com/appautomaton/agent-designer 先拆分出 issue 的 csv ，然后 https://github.com/leo-lilinxiao/codex-autoresearch,让完成 issue 。

dabinDev

1 day ago

subagent 把
任务规划 agent
任务开发 agent
任务测试 agent

HomeZane

1 day ago

用了上几个 skill 就行，比如 superpower
不过让他写一个简单的 skill 就用了 4 个小时，让我对这个模式有点祛魅了
还是要关注产出，关注产出，关注产出

anyscript

1 day ago

github 上有一些开源的牛马框架比如 https://github.com/kunchenguid/gnhf

jackOff

1 day ago

1-讨论计划
2-拆分计划和自验收标准
3-给一台干净电脑的全部权限让它操作，允许他自我编译代码
4-网络要极其好，网络波动或者断网，它就彻底断片了

Liftman

1 day ago

hook

adgfr32

1 day ago via Android

死循环

1 day ago

长时间跑容易丢失专注力然后跑偏。所以一般都是拆任务，然后按照任务清单去跑，并且产生检查点方便回溯。及时人工介入纠正错误。
要不然跑一两个小时发现牛头不对马嘴，花了时间又花钱了，拿不到结果不是炸了么。

我都是在前期多轮对话写好 Plan （会用多个模型去挑刺），再启一个新的终端让他自己跑一整个开发计划。加上自测和小步提交，也完全不需要非常长的时间。
如果只是小需求或者项目起步，需求清晰任务明确，时间长一点几十分钟就搞定了。

但其实很多时候问题出在 Plan 不够细致，Agent 跑到一半或者整个任务跑完了才反应过来漏了一部分的细节…… 所以我觉得端板是在我这边。