📌 核心定位:Windows平台集成语音识别与OCR的AI智能字幕工作站
📝 工具类型:🌎️ 视频/动画
👍 推荐指数:⭐⭐⭐⭐ 值得推荐
📈 实用指数:🔥🔥🔥🔥🔥 非常实用
🧠 上手难度:🟡 需要一定基础
📊 使用建议:💛💛 适合长期学习
💻 支持平台:Windows(开源版)、Windows/Mac(Pro版)
🚀 是否更新:✅ 截至2026年4月仍在活跃迭代(开源版v0.3.5维护中,Pro版2026年4月18日更新至1.0.3.28)
🪙 价格模式:开源版免费+API按量付费 / 专业版免费试用后内购
⭐️ 工具介绍
VideoSrt是由开发者wxbool开源的Windows-GUI工具,基于Golang语言和lxn/walk工具包构建,核心功能是通过阿里云语音识别接口自动为视频/音频生成SRT字幕文件。它解决了手动字幕制作的三大痛点:耗时费力(10分钟视频需数小时)、翻译困难、无法批量处理。开源版软件本身免费,但需自行注册阿里云等云服务,超出免费额度后按API调用量付费。此外,商业版Videosrt Pro在开源基础上整合了多引擎支持(微软、讯飞、离线语音引擎)、硬字幕OCR提取、人声分离、自动配音等高级功能,提供内置付费引擎,无需额外配置即可直接使用。
截至2026年4月,GitHub开源项目持续维护,社区评测推文密集发布,该工具已被众多B站UP主、YouTube博主、教育机构和企业宣传团队广泛采用。
⚙️ 核心功能
⚠️ 版本说明:VideoSrt存在开源版(GitHub项目)与商业版(Videosrt Pro)两条产品线。开源版聚焦语音转字幕基础功能,需自行配置API密钥;商业版集成了智能引擎套装,内置语音引擎、离线引擎和多种翻译引擎,开箱即用。以下功能同时标注两者支持情况。
- 🎯 智能语音转字幕(开源核心) 核心功能是基于阿里云语音识别接口,将视频/音频的语音内容自动转换为文字并精确匹配时间轴。识别准确率在标准普通话和英语环境下高达95%以上。软件采用本地处理模式,视频无需上传云端,有效保护素材隐私。集成FFmpeg完成音视频解析、音频提取等全流程自动化。支持主流格式:MP4、AVI、MOV、MKV、MP3、WAV、M4A等。开源版需自行注册阿里云账号并配置AccessKey,免费用户调用有限,超过后产生费用。Pro版内置微软、讯飞、离线语音引擎,可选择使用。
- 🌎 多语言翻译(开源核心) 集成百度翻译和腾讯云翻译两大引擎,支持中英互译、双语字幕输出,还支持日语、韩语、法语、德语、西班牙语、俄语、意大利语、泰语等多种语言。用户可在设置面板中配置翻译API密钥,开源版需要自行注册。Pro版内置Google、DeepL、ChatGPT等多种翻译引擎。
- 🧹 智能字幕优化 内置语气词过滤(自动去除“嗯”“啊”“呃”)、自定义文本替换、正则表达式高级过滤等功能,确保生成的字幕内容干净整洁,无需大量人工修正。可通过
app/tool/chinese_simple.go模块扩展过滤规则。 - 📦 批量处理与多格式输出 支持一次性添加多个视频文件,统一参数设置后自动按顺序处理。输出支持SRT、LRC、TXT三种格式,SRT为标准字幕格式,兼容Adobe Premiere、Final Cut Pro等主流剪辑软件;LRC适配音乐播放器。
- 👁️ 硬字幕提取OCR(Pro版核心) Videosrt Pro支持利用OCR技术从视频中提取内嵌硬字幕(已烧录在画面中的字幕),导出为SRT/ASS/TXT/LRC等可编辑格式。视频画面中的硬字幕无需人工逐帧抄录,极为方便。适用于处理缺失工程文件的旧视频、从无字幕原盘提取中文字幕等场景。
- 🎤 人声分离 + 自动配音(Pro版核心) 支持一键分离人声、伴奏、鼓、贝斯、钢琴等多个音轨,适用于清理背景噪音提升后续识别准确率。支持10多种语种自动配音,可选50多种不同风格、情绪的声音,一键制作多语言版视频。
- 🎯 字幕自动打轴(Pro版核心) 输入文案和对应的人声音频,软件自动打轴匹配,生成带有精确时间轴的字幕文件,无需手动对齐时间轴。
- ⚡ 效率提升数据 与传统手动方式相比:传统手动制作字幕需要暂停视频100多次,逐句输入台词。10分钟视频:传统方式120-180分钟,VideoSrt仅需5-8分钟(准确率92-98%)。效率提升:节省约90%的时间投入。
💻 安装说明
开源版安装配置:
- 系统要求:Windows 7/8/10/11操作系统。仅支持Windows,采用Golang + lxn/walk开发。内存建议2GB以上。
- API密钥准备(必须):需注册阿里云账号并开通语音识别服务,获取AccessKey ID和Secret。如需翻译则另需注册百度翻译开放平台或腾讯云API密钥。
- 获取与启动:从GitHub仓库
wxbool/video-srt-windows克隆或下载Release包。若下载完整版(含FFmpeg)可解压即用;若轻量版需自行安装FFmpeg。 - 首次启动:双击
videosrt.exe,在设置界面填写阿里云、百度/腾讯云API密钥。
商业版(Videosrt Pro)安装:
- 适用范围:Windows + Mac双平台。内置付费语音/翻译引擎,无需额外配置API。支持离线语音引擎(中文),可免费使用。提供7天免费试用。
硬件要求:无需独立显卡;需足够磁盘空间存储临时文件;需稳定网络连接用于API调用。
📈 前景预测
🔥 行业热度
截至2026年4月,VideoSrt已发展为一款功能全面、生态完善的视频处理工具组合。GitHub开源版主仓库获得5k+星标、619+分支。2026年以来主流自媒体平台集中涌现大量评测文章和实操教程,开源版+Pro版两条产品线共同支撑起从个人开发者到专业用户的完整覆盖。
🚀 增长动力
差异化定位使竞品难以完全覆盖:传统专业工具Aegisub功能强大但操作复杂;云服务工具(通义千问、飞书妙记)每家企业及个人用户需每月申请额度,存在隐私隐忧;而VideoSrt将开源的灵活性(可定制规则)与商业版的易用性(内置引擎、专业模块)有机结合,为不同层次的用户提供灵活选择。
🤖 AI能力持续扩展
Pro版已深度整合DeepL、Google、ChatGPT等翻译引擎和微软、讯飞多引擎语音识别,同时保持了开箱即用的内置付费引擎方案,加上离线语音引擎完全免费使用,迎合了2026年AI工具“端到端本地化”的趋势。
⚠️ 面临的挑战
开源版订阅阿里云API产生持续费用,大量使用时可能超出初始预算。此外,剪映、ArcTime等更著名的软体有一定号召力,专业商业版Videosrt Pro需持续优化来应对竞争。
推荐长期投入的理由:虽然单一工具可能会过时,但语音转文字、智能翻译、字幕处理是视频创作的刚性需求,掌握VideoSrt可为你节省大量后期制作时间,知识复用性极高。
👥 适合人群
- 👤 自媒体创作者 / B站UP主 / YouTube博主 典型场景:每周需要为多个视频添加字幕,用于提升观看体验和扩大海外受众。VideoSrt将原本数小时的工作压缩到几分钟,批量处理功能让多期节目可统一完成设置。Pro版的自动配音功能可一键生成外语配音版视频。
- 👤 教育工作者 / 在线培训机构 典型场景:需要为大量教学视频添加中英双语字幕,或从旧讲座录像中提取板书内容转为文字讲义。Pro版的硬字幕OCR提取功能将画面上的固定字幕直接转化为可编辑文本,适用于整理历史讲座资料。
- 👤 企业宣传 / 视频内容制作团队 典型场景:制作产品宣传、培训资料等视频,需要母带级字幕处理和灵活调整。Pro版的内置多引擎方案无需API配置,开箱即用;自动打轴功能可避免反复对齐时间轴,极大提高团队交付效率。
- 👤 技术爱好者 / 开源用户 典型场景:希望从GitHub获取项目源码,自行编译或深度定制过滤规则。精通Golang的用户可修改
app/tool/chinese_simple.go来扩展自定义文本替换和正则表达式规则,实现完全个性化的字幕处理流程。 - ⚠️ 不推荐人群 偶尔制作简单视频且无字幕刚需的用户;偏好全托管式云服务的用户(可直接使用剪映、通义千问等免费Web工具);依赖macOS原生生态且不愿意使用Pro购买方式的Mac用户。
⚔️ 对标工具
| 维度 | VideoSrt (开源版) | Videosrt Pro | 剪映(CapCut) | 通义千问音视频速读 |
|---|---|---|---|---|
| 核心特色 | 开源/免费+批量化API处理 | 内置语音+硬字幕OCR+自动打轴/配音 | 集成剪辑+字幕一键生成 | Web端免费,支持多说话人区分 |
| 平台支持 | 仅Windows | Windows + Mac | 跨平台全端(含移动端) | Web端 / App |
| 额外费用 | 软件免费 | 7天免费试用,之后内购 | 免费版有功能限制 | 免费使用 |
| 硬字幕OCR | ❌ 不支持 | ✅ 支持 | ❌ 不支持 | ❌ 不支持 |
| 离线使用 | 依赖云端API | ✅ 内置引擎,可离线 | 可离线 | 必须联网 |
| 数据隐私 | 本地处理,API上传音频 | 本地处理(内置引擎) | 本地/云端可切换 | 需上传至阿里云服务器 |
| 适用人群 | 开发者、技术用户 | 专业创作者、团队 | 大众用户 | 对数据隐私不敏感的普通个人 |
此外,Aegisub适合有深度样式编辑需求的专业制作者,但无自动语音识别功能;Subtitle Edit支持多种字幕格式但语音识别依赖网络,速度较慢。
📋 常见问题
🤔 VideoSrt开源版和Videosrt Pro是什么关系? 👉 开源版由wxbool开发(GitHub项目),软件免费但需自行配置阿里云等API,仅支持语音转字幕和翻译功能。Videosrt Pro是商业版本,在开源版基础上整合了硬字幕OCR提取、人声分离、自动配音、离线语音引擎等专业功能模块,内置多种付费引擎,开箱即可使用。
🤔 使用开源版需要付费吗? 👉 软件本身完全免费。但因调用阿里云语音识别API超出免费额度,会产生按量计费费用。百度翻译、腾讯云翻译API同理。建议适量使用或购买对应的资源包。
🤔 新手能快速上手吗? 👉 界面直观——主要分为媒体导入区、处理设置区和输出配置区。升级版Pro内置引擎一键可用,无需复杂配置。
🤔 有中文版吗? 👉 开源版界面为简繁体中文,且支持中英文语音识别。Pro版也全面支持中文。
🤔 在Windows 11上运行稳定吗? 👉 跨Win7/10/11版本测试多年,主流版本和Pro版运行稳定。但大文件处理时可能因FFmpeg解码负载较高,需CPU性能保证。
🤔 能识别中英文混输的对话吗? 👉 语音识别准确率达95%以上,但中英文混输仍需人工校对。为了提高准确率,建议在录制视频时保证发音清晰,减少背景噪音。
🤔 提取硬字幕的识别率有多高? 👉 在清晰画面中,主流OCR(百度和阿里云接口)准确率在92%~98%之间。Videosrt Pro内置多种OCR识别方式,可自行调整参数获得较好效果。
🤔 生成的字幕时间轴不准怎么调整? 👉 开源版可在「工具 > 时间校准」中手动设置偏移量,或开启「智能对齐」功能;Pro版提供了自动打轴工具,输入原文和人声音频即可生成精准匹配的时间轴。
🤔 人声分离效果好吗? 👉 Videosrt Pro支持一键分离人声、伴奏、鼓、贝斯、钢琴等多个音轨,适用于处理有背景音乐干扰的视频素材。分离后的纯净人声可大幅提升语音识别的准确率。
🤔 开源版如何更新到最新版并保留配置? 👉 下载新版后,用旧版本的data文件夹覆盖新版本中的同名文件夹,即可保留所有API密钥和自定义过滤规则配置。
🤔 配置API密钥时遇到问题怎么办? 👉 确保已注册阿里云账号并开通语音识别服务;仔细检查AccessKey ID和Secret是否填写正确;留意API的免费额度,超限后需充值。Pro版用户不需要任何配置。

评分及评论
暂无评分
来评个分数吧