
好久不见迫于体了 最近搓了一个 macOS 菜单栏小工具 v2s (voice to subtitle),功能很简单:实时把语音转成双语字幕,悬浮在屏幕最上方。
开会、看直播、刷 YouTube 的时候,选一个音频源(麦克风或者任意 App ),选好语言,点 Start ,就会出现一个字幕条,上面一行翻译,下面一行原文
纯本地运行,语音识别用的 Apple Speech ,翻译用的 Apple Translation ,不过网络不联网
需要 macOS 26+
https://github.com/franklioxygen/v2s
欢迎试用,提 issue 或者 PR 都欢迎。
1 me876 3 月 25 日 试用了一下,功能非常棒,已 star 。 |
2 Chicagoake 3 月 25 日 |
3 franklioxygen OP |
4 zyxk 3 月 25 日 试过了,很不错, 能否可以设置隐藏输入或者目标语言, 输入语言和字幕语言相同时,会显示两个,应该自动隐藏一个 |
5 zyxk 3 月 25 日 用了一会后, 不显示翻译了, 只显示原文, 停止再开始也没有, 重启 app 后正常了 |
7 voicevlan 3 月 25 日 非常不错的功能, |
8 galenzhao 3 月 25 日 good ,有没有想法 port 到 win , 没有的话我抄一下思路,看看能不能搞个 win 的。 |
9 galenzhao 3 月 26 日 mac 一直都扔办公室,家里都是 win |
10 franklioxygen OP |
11 galenzhao 3 月 26 日 是,win 下复刻需要一堆 3rd 实现, 还是 apple 全家桶方便, 我刚试下了,mac 的自带模型相当可以啊,识别准确率 还有延迟, |
12 zyxk 3 月 26 日 |
13 franklioxygen OP |
14 zyxk 3 月 26 日 @franklioxygen #13 谢谢,才注意到这个齿轮图标,长句识别比较麻烦或者有些本身就是长句时,应该先优化一下显示, 保证最后输出内容显示在屏幕内。 |
15 galenzhao 3 天前 @franklioxygen 周末有空,试试 port 了一下。目前是用的 win11 自带的 recognition ,外加 model 翻译。 算是个 poc ,功能跑通了。https://github.com/galenzhao/v2s-win |
16 franklioxygen OP |