buzz - Whisper 语音转文字模型的 GUI 使用

1. 背景

目前大部分 STT（Speech to Text，语音转文字）都是由厂商提供在线服务的，比如国内科大讯飞、阿里通义等，其共同问题就是收费相当高，对于某些需要高频转换的用户来说不甚友好。而 OpenAI 开源的 Whisper STT 模型就使用户可以使用家用设备进行语音转文字工作，对于一些经常需要使用 STT 服务的用户来说是极大利好。

目前，GitHub 上有若干个封装 Whisper 模型的 GUI 工具可供使用，不过都不算特别成熟好用。这里选用 Buzz 项目为例，简单介绍其安装与使用流程

2. 安装

这里以 Windows 系统安装为例

按照系统官方文档和 GitHub 项目 README，Windows 用户可以直接通过安装包安装。不过实际测试后发现安装包安装的版本运行时仍然会缺失库和工具，因此还是只能采用 PyPI 安装方式

流程如下：

安装 ffmpeg
安装 Python 3.11 版本，或者使用 conda create -n 创建并切换到对应版本的虚拟环境（强烈推荐使用虚拟环境）
执行 pip install buzz-captions 安装 buzz

执行如下命令安装 NVIDIA CUDA 支持库：

pip3 install -U torch==2.7.1+cu128 torchaudio==2.7.1+cu128 --index-url https://download.pytorch.org/whl/cu128
pip3 install nvidia-cublas-cu12==12.8.3.14 nvidia-cuda-cupti-cu12==12.8.57 nvidia-cuda-nvrtc-cu12==12.8.61 nvidia-cuda-runtime-cu12==12.8.57 nvidia-cudnn-cu12==9.7.1.26 nvidia-cufft-cu12==11.3.3.41 nvidia-curand-cu12==10.3.9.55 nvidia-cusolver-cu12==11.7.2.55 nvidia-cusparse-cu12==12.5.4.2 nvidia-cusparselt-cu12==0.6.3 nvidia-nvjitlink-cu12==12.8.61 nvidia-nvtx-cu12==12.8.55 --extra-index-url https://pypi.ngc.nvidia.com