它做什么
一句话:网文作者上传小说章节 → 自动生成 3-5 分钟的日系动漫风格短视频。
具体 pipeline:
- 豆包 LLM 解析文本 → 提取角色、场景、对话、自动分镜
- Seedream 按分镜生成动漫画面(参考图保持角色一致性)
- Seedance 2.0 图生视频 + 环境音效
- 火山引擎 TTS 多角色配音
- FFmpeg 合成字幕 → 导出 1080p MP4
整套跑下来一集成本约 9-19(用户自备火山方舟 API Key ),不需要 GPU ,纯编排代码。
跟现有方案的区别
- 即梦/可灵/Vidu:通用视频生成,没有角色一致性概念,理解不了长篇叙事
- NovelAI:能出图但需要大量手动操作,不是端到端
- 小说推文工具:本质是 PPT 翻页配 AI 配音,没有动画
这个项目想做的是「有声漫画」这个形态类似 B 站上已经百万播放验证过的有声漫画视频,对话场景用中景/远景配合微动作,不追求唇形同步,靠字幕和声优表现力撑。
为什么做这个
我是网文读者,注意到很多中腰部的作者其实很想把自己的作品「动漫化」来引流,但找动画工作室动辄几万块一集,完全不现实。AI 视频生成去年下半年的进步让我觉得这个事技术上可行了。
花了两个月调研 + 写 PRD ,技术链路基本跑通了。
我不确定的事
这也是发帖想请教的:
- 作者真的需要吗? 我聊过几个作者,反馈两极分化有人说「太需要了,手动做推文视频累死」,有人说「我不如花钱找人画个封面」。网文作者的付费意愿和能力到底怎么样?
- 有声漫画这个定位靠谱吗? 它介于 PPT 推文和真动画之间,会不会两头不讨好?追求动画质感的觉得不够,追求效率的觉得太慢?
- 开源免费但依赖商业 API 这个模式怪不怪? 代码全开源,但用户得自己充火山方舟的钱。这种「免费代码 + 付费 API 」的模式,创作者能接受吗?
- 9-19 一集的成本是高了还是低了? 我个人觉得还行,但网文作者很多是学生/副业,这个价格会不会劝退?
- 有没有更痛的场景我没看到? 也许网文作者最大的痛点根本不是「视频化」而是别的什么,我拿着锤子找钉子了?
技术上的诚意
- 全栈火山方舟(豆包 + Seedream + Seedance + TTS + 视频合成),一个 Key 搞定
- Web 端提供精调面板:不满意可以手动改角色外观、调整镜头顺序、重绘单帧
- 角色 IP 库:第一次上传章节后 AI 提取角色设定,作者确认后所有后续章节自动沿用
- Phase 1 目标:60 分质量,跑通端到端,成本 5-8/集
欢迎泼冷水,也欢迎告诉我「你其实应该做 XXX 方向」。V 站各位的判断力我是信的,拍砖越狠我越清醒。
