buzz - Whisper 语音转文字模型的 GUI 使用
1. 背景
目前大部分 STT(Speech to Text,语音转文字)都是由厂商提供在线服务的,比如国内科大讯飞、阿里通义等,其共同问题就是收费相当高,对于某些需要高频转换的用户来说不甚友好。而 OpenAI 开源的 Whisper STT 模型就使用户可以使用家用设备进行语音转文字工作,对于一些经常需要使用 STT 服务的用户来说是极大利好。
目前,GitHub 上有若干个封装 Whisper 模型的 GUI 工具可供使用,不过都不算特别成熟好用。这里选用 Buzz 项目为例,简单介绍其安装与使用流程
2. 安装
这里以 Windows 系统安装为例
按照 系统官方文档 和 GitHub 项目 README,Windows 用户可以直接通过安装包安装。不过实际测试后发现安装包安装的版本运行时仍然会缺失库和工具,因此还是只能采用 PyPI 安装方式
流程如下:
安装 ffmpeg
安装 Python 3.11 版本,或者使用
conda create -n
创建并切换到对应版本的虚拟环境(强烈推荐使用虚拟环境)执行
pip install buzz-captions
安装 buzz执行如下命令安装 NVIDIA CUDA 支持库:
pip3 install -U torch==2.7.1+cu128 torchaudio==2.7.1+cu128 --index-url https://download.pytorch.org/whl/cu128 pip3 install nvidia-cublas-cu12==12.8.3.14 nvidia-cuda-cupti-cu12==12.8.57 nvidia-cuda-nvrtc-cu12==12.8.61 nvidia-cuda-runtime-cu12==12.8.57 nvidia-cudnn-cu12==9.7.1.26 nvidia-cufft-cu12==11.3.3.41 nvidia-curand-cu12==10.3.9.55 nvidia-cusolver-cu12==11.7.2.55 nvidia-cusparse-cu12==12.5.4.2 nvidia-cusparselt-cu12==0.6.3 nvidia-nvjitlink-cu12==12.8.61 nvidia-nvtx-cu12==12.8.55 --extra-index-url https://pypi.ngc.nvidia.com
执行
python -m buzz
,打开 buzz 主界面
3. 使用
TODO
详见 README
buzz - Whisper 语音转文字模型的 GUI 使用
https://blog.openyq.top/posts/19133/