
最近在研究自动字幕,发现了这个程序:agermanidis/autosub。
这款程序可以做到实时生成 SRT 文件,我想问的是这款软件是怎么样做到生成时间轴的? 这块 分析语音的代码我没能看懂,麻烦能简单解释一下吗?提前感谢。
1 Geoion Aug 23, 2017 代码没看完,这块代码大概是切分每句话的长度(帧) |
2 starvedcat Aug 23, 2017 看变量命名( is_silence, energy, threshold ),就是通过音量来判断的吧 |
3 starvedcat Aug 23, 2017 看代码里面用到的 audioop.rms 函数的作用,就是在计算每个 chunk 的声音强度 https://docs.python.org/2/library/audioop.html#audioop.rms |