vget v0.12.1 发布,新增 AI 功能,语音转文字, 效果极好 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
guiyumin
V2EX    分享创造

vget v0.12.1 发布,新增 AI 功能,语音转文字, 效果极好

  •  
  •   guiyumin
    guiyumin 4 天前 700 次点击

    各位好

    vget v0.12.1 发布了

    https://github.com/guiyumin/vget

    https://vget.io

    这一版,有一个重大的更新: 语音转文字,英文是 speech to text ,或者是 Automatic Speech Recognition ( ASR )

    首先,你可以用 vget 下载视频,或者播客

    然后使用语音转文字功能,转录为带有时间戳的文本

    下一步,你可以继续用 openai api 来总结一下,当然,也可以复制粘贴去其他 ai 做一下总结

    目前支持的大模型是这些:

    • whisper-tiny
    • whisper-small
    • whisper-medium
    • whisper-large-v3
    • whisper-large-v3-turbo (推荐用这个,又快又准)
    • Parakeet-v3 这个不支持中文,但对其他语言支持良好

    命令行使用

    在 CLI 中使用 vget ai transcribe 命令即可进行语音转文字:

    # 基础用法:转写音频文件,默认输出 Markdown 格式 vget ai transcribe ./recording.mp3 # 指定语言:使用 -l 参数指定音频语言 vget ai transcribe -l zh ./interview.mp3 # 输出字幕文件:使用 -o 参数指定输出为 SRT 格式 vget ai transcribe -l zh ./podcast.mp3 -o podcast.srt # 转写视频文件:自动提取音频后进行转写 vget ai transcribe -l en ./lecture.mp4 -o lecture.srt 

    Docker Web 界面

    在 Docker 部署的 Web 界面中,点击左侧导航栏的 AI 图标即可访问语音转文字功能:

    1. 选择文件 - 可以从 /home/vget/downloads 目录选择已下载的文件,也可以直接上传本地文件
    2. 设置语言 - 选择音频对应的语言以获得最佳识别效果
    3. 选择格式 - 支持 Markdown 文本或 SRT 字幕格式输出
    4. 开始转写 - 点击按钮即可开始,转写完成后可直接下载结果

    支持的文件格式

    类型 支持格式
    音频 MP3, WAV, M4A, FLAC, OGG, AAC
    视频 MP4, MKV, MOV, AVI, WebM

    对于视频文件,vget 会自动提取音频轨道后进行转写,无需手动转换。

    目前尚无回复
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2848 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 14:28 PVG 22:28 LAX 06:28 JFK 09:28
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86