buzz - Whisper 语音转文字模型的 GUI 使用

1. 背景

目前大部分 STT(Speech to Text,语音转文字)都是由厂商提供在线服务的,比如国内科大讯飞、阿里通义等,其共同问题就是收费相当高,对于某些需要高频转换的用户来说不甚友好。而 OpenAI 开源的 Whisper STT 模型就使用户可以使用家用设备进行语音转文字工作,对于一些经常需要使用 STT 服务的用户来说是极大利好。

目前,GitHub 上有若干个封装 Whisper 模型的 GUI 工具可供使用,不过都不算特别成熟好用。这里选用 Buzz 项目为例,简单介绍其安装与使用流程

2. 安装

这里以 Windows 系统安装为例

按照 系统官方文档GitHub 项目 README,Windows 用户可以直接通过安装包安装。不过实际测试后发现安装包安装的版本运行时仍然会缺失库和工具,因此还是只能采用 PyPI 安装方式

流程如下:

  1. 安装 ffmpeg

  2. 安装 Python 3.11 版本,或者使用 conda create -n 创建并切换到对应版本的虚拟环境(强烈推荐使用虚拟环境)

  3. 执行 pip install buzz-captions 安装 buzz

  4. 执行如下命令安装 NVIDIA CUDA 支持库:

    pip3 install -U torch==2.7.1+cu128 torchaudio==2.7.1+cu128 --index-url https://download.pytorch.org/whl/cu128
    pip3 install nvidia-cublas-cu12==12.8.3.14 nvidia-cuda-cupti-cu12==12.8.57 nvidia-cuda-nvrtc-cu12==12.8.61 nvidia-cuda-runtime-cu12==12.8.57 nvidia-cudnn-cu12==9.7.1.26 nvidia-cufft-cu12==11.3.3.41 nvidia-curand-cu12==10.3.9.55 nvidia-cusolver-cu12==11.7.2.55 nvidia-cusparse-cu12==12.5.4.2 nvidia-cusparselt-cu12==0.6.3 nvidia-nvjitlink-cu12==12.8.61 nvidia-nvtx-cu12==12.8.55 --extra-index-url https://pypi.ngc.nvidia.com
  5. 执行 python -m buzz,打开 buzz 主界面

3. 使用

TODO

详见 README


buzz - Whisper 语音转文字模型的 GUI 使用
https://blog.openyq.top/posts/19133/
作者
yqs112358
许可协议