soviets（so-vits-svc3.0 中文详细安装、训练、推理使用教程）

时间2025-07-30 10:06:17分类IT科技浏览19727

导读：SO-VITS-SVC3.0详细安装、训练、推理使用步骤...

SO-VITS-SVC3.0详细安装、训练、推理使用步骤

2023-3-12文档更新说明： 由于特殊原因，本项目文档将停止更新，详情请见原作者首页，感谢各位的支持！

本文档的Github项目地址点击前往

本帮助文档为项目 so-vits-svc补档的详细中文安装、调试、推理教程，您也可以直接选择官方README文档

撰写：Sucial 点击跳转B站主页

1. 环境依赖

本项目需要的环境：

NVIDIA-CUDA

Python <= 3.10

Pytorch

FFmpeg

- Cuda

在cmd控制台里输入nvidia-smi.exe以查看显卡驱动版本和对应的cuda版本

前往 NVIDIA-Developer 官网下载与系统对应

的Cuda版本

以Cuda-11.7版本为例（注：本文下述所有配置均在Cuda-11.7下演示）Cuda11.7下载地址根据自己的系统和需求选择安装（一般本地Windows用户请依次选择Windows, x86_64, 系统版本, exe(local)）

安装成功之后在cmd控制台中输入nvcc -V, 出现类似以下内容则安装成功：

nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2022 NVIDIA Corporation Built on Tue_May__3_19:00:59_Pacific_Daylight_Time_2022 Cuda compilation tools, release 11.7, V11.7.64 Build cuda_11.7.r11.7/compiler.31294372_0 特别注意！ 目前为止pytorch最高支持到cuda11.7 如果您在上述第一步中查看到自己的Cuda版本>11.7 ，请依然选择11.7进行下载安装（Cuda有版本兼容性）并且安装完成后再次在cmd输入nvidia-smi.exe并不会出现cuda版本变化，即任然显示的是>11,7的版本 Cuda的卸载方法：**打开控制面板-程序-卸载程序，将带有NVIDIA CUDA的程序全部卸载即可（一共5个）

- Python

前往 Python官网下载Python ，版本需要低于3.10（详细安装方法以及添加Path此处省略，网上随便一查都有）安装完成后在cmd控制台中输入python出现类似以下内容则安装成功： Python 3.10.4 (tags/v3.10.4:9d38120, Mar 23 2022, 23:13:41) [MSC v.1929 64 bit (AMD64)] on win32 Type "help", "copyright", "credits" or "license"

for more information. >>> 配置python下载镜像源（有国外网络条件可跳过）

在cmd控制台依次执行 # 设置清华大学下载镜像 pip config set global.index-url http://pypi.tuna.tsinghua.edu.cn/simple pip config set global.trusted-host pypi.tuna.tsinghua.edu.cn 安装依赖库在任意位置新建名为requirements.txt的文本文件，输入以下内容保存 Flask==2.1.2 Flask_Cors==3.0.10 gradio==3.4.1 numpy==1.23.5 playsound==1.3.0 PyAudio==0.2.12 pydub==0.25.1 pyworld==0.3.2 requests==2.28.1 scipy==1.10.0 sounddevice==0.4.5 SoundFile==0.10.3.post1 starlette==0.19.1 tqdm==4.63.0 scikit-maad praat-parselmouth tensorboard librosa 在该文本文件所处文件夹内右击空白处选择 在终端中打开 并执行下面命令以安装库（若出现报错请尝试用pip install [库名称]重新单独安装直至成功） pip install -r requirements.txt 接下来我们需要单独安装torch, torchaudio, torchvision这三个库，下面提供两种方法方法1（便捷但不建议，因为我在测试这种方法过程中发现有问题，对后续配置AI有影响

直接前往 Pytorch官网选择所需版本然后复制Run this Command栏显示的命令至cmd安装（不建议）

方法2（较慢但稳定，建议）前往该地址使用Ctrl+F搜索直接下载whl包点击前往 https://download.pytorch.org/whl/ 这个项目需要的是

torch==1.13.0+cu117

torchaudio==0.13.0+cu117

torchvision-0.14.0+cu117

1.13.0 和0.13.0表示是pytorch版本，cu117表示cuda版本11.7

以此类推，请选择 适合自己的版本 安装 下面我将以Cuda11.7版本为例 –示例开始–

我们需要安装以下三个库 torch-1.13.0+cu117点击下载：torch-1.13.0+cu117-cp310-cp310-win_amd64.whl

其中cp310指python3.10, win-amd64表示windows 64位操作系统 torchaudio-0.13.0+cu117点击下载：torchaudio-0.13.0+cu117-cp310-cp310-win_amd64.whl torchvision-0.14.0+cu117点击下载：torchvision-0.14.0+cu117-cp310-cp310-win_amd64.whl 下载完成后进入进入下载的whl文件的目录，在所处文件夹内右击空白处选择 在终端中打开 并执行下面命令以安装库 pip install .\torch-1.13.0+cu117-cp310-cp310-win_amd64.whl # 回车运行(安装时间较长) pip install .\torchaudio-0.13.0+cu117-cp310-cp310-win_amd64.whl # 回车运行 pip install .\torchvision-0.14.0+cu117-cp310-cp310-win_amd64.whl # 回车运行

务必在出现Successfully installed ...之后再执行下一条命令，第一个torch包安装时间较长

–示例结束–

安装完torch, torchaudio, torchvision这三个库之后，在cmd控制台运用以下命令检测cuda与torch版本是否匹配

python # 回车运行 import torch # 回车运行 print(torch.__version__) # 回车运行 print(torch.cuda.is_available()) # 回车运行最后一行出现True则成功，出现False则失败，需要重新安装

- FFmpeg

前往 FFmpeg官网下载。解压至任意位置并在高级系统设置-环境变量中添加Path定位至.\ffmpeg\bin（详细安装方法以及添加Path此处省略，网上随便一查都有）安装完成后在cmd控制台中输入ffmpeg -version出现类似以下内容则安装成功 ffmpeg version git-2020-08-12-bb59bdb Copyright (c) 2000-2020 the FFmpeg developers built with gcc 10.2.1 (GCC) 20200805 configuration: [此处省略一大堆内容] libavutil 56. 58.100 / 56. 58.100 libavcodec 58.100.100 / 58.100.100 ...

2. 预训练AI

- 下载项目源码

前往 so-vits-svc补档选择32k分支（本教程针对32k）下载源代码。

解压到任意文件夹

- 下载预训练模型

这部分官方文档写得很详细，我这边直接引用

hubert

https://github.com/bshall/hubert/releases/download/v0.1/hubert-soft-0d54a1f4.pt

G与D预训练模型

https://huggingface.co/innnky/sovits_pretrained/resolve/main/G_0.pth

https://huggingface.co/innnky/sovits_pretrained/resolve/main/D_0.pth

上述三个底模如果原链接下载不了请点击下方的链接 https://pan.baidu.com/s/1uw6W3gOBvMbVey1qt_AzhA?pwd=80eo 提取码：80eo hubert-soft-0d54a1f4.pt放入.\hubert文件夹 D_0.pth和G_0.pth文件放入.\logs\32k文件夹

- 准备训练样本

准备的训练数据，建议60-100条语音(格式务必为wav ，不同的说话人建立不同的文件夹) ，每条语音控制在4-8秒！（确保语音不要有噪音或尽量降低噪音，一个文件夹内语音必须是一个人说的），可以训练出效果不错的模型

将语音连带文件夹（有多个人就多个文件夹）一起放入.\dataset_raw文件夹里，文件结构类似如下： dataset_raw ├───speaker0 │ ├───xxx1-xxx1.wav │ ├───... │ └───Lxx-0xx8.wav └───speaker1 ├───xx2-0xxx2.wav ├───... └───xxx7-xxx007.wav 此外还需要在.\dataset_raw文件夹内新建并编辑config.json ，代码如下： "n_speakers": 10 //修改数字为说话人的人数 "spk":{ "speaker0": 0, //修改speaker0为第一个说话人的名字，需要和文件夹名字一样，后面的: 0, 不需要改 "speaker1": 1, //以此类推 "speaker2": 2, //以此类推 }

- 样本预处理

下面的所有步骤若出现报错请多次尝试，若一直报错就是第一部分环境依赖没有装到位，可以根据报错内容重新安装对应的库。（一般如果正确安装了的话出现报错请多次尝试或者关机重启，肯定可以解决报错的。） 1. 重采样在so-vits-svc文件夹内运行终端，直接执行： python resample.py

注意：如果遇到如下报错：

... E:\vs\so-vits-svc-32k\resample.py:17: FutureWarning: Pass sr=None as keyword args. From version 0.10 passing these as positional arguments will result in an error wav, sr = librosa.load(wav_path, None) E:\vs\so-vits-svc-32k\resample.py:17: FutureWarning: Pass sr=None as keyword args. From version 0.10 passing these as positional arguments will result in an error wav, sr = librosa.load(wav_path, None) ...

请打开resample.py ，修改第17行内容

# 第17行修改前如下 wav, sr = librosa.load(wav_path, None) # 第17行修改后如下 wav, sr = librosa.load(wav_path, sr = None)

保存，重新执行python resample.py命令

成功运行后，在.\dataset\32k文件夹中会有说话人的wav语音，之后dataset_raw文件夹就可以删除了 2. 自动划分训练集，验证集，测试集，自动生成配置文件在so-vits-svc文件夹内运行终端，直接执行： python preprocess_flist_config.py 出现类似以下内容则处理成功： PS E:\vs\so-vits-svc-32k> python preprocess_flist_config.py 100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1993.49it/s] Writing ./filelists/train.txt 100%|██████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:00<?, ?it/s] Writing ./filelists/val.txt 100%|████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<?, ?it/s] Writing ./filelists/test.txt 100%|████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<?, ?it/s] Writing configs/config.json 3. 生成hubert和f0 在so-vits-svc文件夹内运行终端，直接执行： python preprocess_hubert_f0.py 出现类似以下内容则处理成功：（我这里演示时只用了20条音频） PS E:\vs\so-vits-svc-32k> python preprocess_hubert_f0.py Loading hubert for content... Loaded hubert. 0%| | 0/20 [00:00<?, ?it/s]dataset/32k\speaker\1_01.wav 5%|████ | 1/20 [00:03<01:00, 3.20s/it]dataset/32k\speaker\1_02.wav 10%|████████ | 2/20 [00:03<00:25, 1.40s/it]dataset/32k\speaker\1_03.wav 15%|████████████ | 3/20 [00:03<00:14, 1.19it/s]dataset/32k\speaker\1_04.wav 20%|████████████████▌ | 4/20 [00:03<00:09, 1.69it/s]dataset/32k\speaker\1_05.wav 25%|████████████████████ | 5/20 [00:03<00:06, 2.39it/s]dataset/32k\speaker\1_06.wav 30%|████████████████████████ | 6/20 [00:04<00:04, 2.98it/s]dataset/32k\speaker\1_07.wav 35%|█████████████████████████████ | 7/20 [00:04<00:03, 3.48it/s]dataset/32k\speaker\1_08.wav 40%|█████████████████████████████████ | 8/20 [00:04<00:03, 3.78it/s]dataset/32k\speaker\1_09.wav 45%|█████████████████████████████████████ | 9/20 [00:04<00:02, 4.13it/s]dataset/32k\speaker\1_10.wav 50%|█████████████████████████████████████████ | 10/20 [00:04<00:02, 4.41it/s]dataset/32k\speaker\1_11.wav 55%|█████████████████████████████████████████████ | 11/20 [00:04<00:01, 4.71it/s]dataset/32k\speaker\1_12.wav 60%|█████████████████████████████████████████████████ | 12/20 [00:05<00:01, 4.93it/s]dataset/32k\speaker\1_13.wav 65%|█████████████████████████████████████████████████████ | 13/20 [00:05<00:01, 5.25it/s]dataset/32k\speaker\1_14.wav 70%|█████████████████████████████████████████████████████████ | 14/20 [00:05<00:01, 5.46it/s]dataset/32k\speaker\1_15.wav 75%|█████████████████████████████████████████████████████████████▌ | 15/20 [00:05<00:00, 6.19it/s]dataset/32k\speaker\1_16.wav 80%|█████████████████████████████████████████████████████████████████▌ | 16/20 [00:05<00:00, 5.84it/s]dataset/32k\speaker\1_17.wav 85%|█████████████████████████████████████████████████████████████████████ | 17/20 [00:06<00:00, 5.43it/s]dataset/32k\speaker\1_18.wav 90%|█████████████████████████████████████████████████████████████████████████ | 18/20 [00:06<00:00, 5.27it/s]dataset/32k\speaker\1_19.wav 95%|█████████████████████████████████████████████████████████████████████████████ | 19/20 [00:06<00:00, 5.26it/s]dataset/32k\speaker\1_20.wav 100%|██████████████████████████████████████████████████████████████████████████████████| 20/20 [00:06<00:00, 3.03it/s] 4. 修改配置文件和部分源代码打开上面第二步过程中生成的配置文件.\configs\config.json修改第13行代码"batch_size"的数值。这边解释一下"batch_size": 12,数值12要根据自己电脑的显存（任务管理器-GPU-专用GPU内存）来调整 修改建议

6G显存建议修改成2或3

8G显存建议修改成4

"batch_size"参数调小可以解决显存不够的问题修改train.py # 第60行将nccl改成gloo（如果后续开始训练时gloo报错就改回nccl ，一般不会报错） # 修改前如下 dist.init_process_group(backend=nccl, init_method=env://, world_size=n_gpus, rank=rank) # 修改后如下 dist.init_process_group(backend=gloo, init_method=env://, world_size=n_gpus, rank=rank) # 第44行开始 # 修改前如下 n_gpus = torch.cuda.device_count() os.environ[MASTER_ADDR] = localhost os.environ[MASTER_PORT] = hps.train.port #修改后增加代码后如下 n_gpus = torch.cuda.device_count() os.environ[MASTER_ADDR] = localhost os.environ[MASTER_PORT] = hps.train.port os.environ["CUDA_VISIBLE_DEVICES"] = "0" # 这里的0代表GPU0是用来训练的显卡，不知道是0还是1的可以在任务管理器查看，如果是双显卡的话一定要选择适合的显卡 os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "max_split_size_mb:32" # 这里的32如果懂的话也可以修改，不懂别改

3. 开始训练

在so-vits-svc文件夹内运行终端，直接执行下面命令开始训练

注意：开始训练前建议重启一下电脑清理内存和显存，并且关闭后台游戏，动态壁纸等等软件，最好只留一个cmd窗口 python train.py -c configs/config.json -m 32k 出现以下报错就是显存不够了 torch.cuda.OutOfMemoryError: CUDA out of menory. Tried to allocate 16.80 MiB (GPU 0; 8.0 GiB total capacity; 7.11 Gi8 already allocated; 0 bytes free; 7.30 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_cUDA_ALLOC_CONF # 注意：一定是 0 bytes free < Tried to allocate 16.80 MiB 才是显存不足，不然就是别的问题这边报错可能会比较多，如果出现报错先尝试重新执行python train.py -c configs/config.json -m 32k ，多重试几遍，或者关机重启，一般是会成功的。如果报错一直是同一个报错，那就是对应的那里出问题了（要靠报错找问题所在）成功执行以后应该是类似如下内容： 2023-02-08 18:07:42,439 32k INFO {train: {log_interval: 200, eval_interval: 1000, seed: 1234, epochs: 10000, learning_rate: 0.0001, betas: [0.8, 0.99], eps: 1e-09, batch_size: 2, fp16_run: False, lr_decay: 0.999875, segment_size: 17920, init_lr_ratio: 1, warmup_epochs: 0, c_mel: 45, c_kl: 1.0, use_sr: True, max_speclen: 384, port: 8001}, data: {training_files: filelists/train.txt, validation_files: filelists/val.txt, max_wav_value: 32768.0, sampling_rate: 32000, filter_length: 1280, hop_length: 320, win_length: 1280, n_mel_channels: 80, mel_fmin: 0.0, mel_fmax: None}, model: {inter_channels: 192, hidden_channels: 192, filter_channels: 768, n_heads: 2, n_layers: 6, kernel_size: 3, p_dropout: 0.1, resblock: 1, resblock_kernel_sizes: [3, 7, 11], resblock_dilation_sizes: [[1, 3, 5], [1, 3, 5], [1, 3, 5]], upsample_rates: [10, 8, 2, 2], upsample_initial_channel: 512, upsample_kernel_sizes: [16, 16, 4, 4], n_layers_q: 3, use_spectral_norm: False, gin_channels: 256, ssl_dim: 256, n_speakers: 2}, spk: {Sucial: 0}, model_dir: ./logs\\32k} 2023-02-08 18:07:42,440 32k WARNING E:\vs\so-vits-svc-32k is not a git repository, therefore hash value comparison will be ignored. 2023-02-08 18:07:45,451 32k INFO Loaded checkpoint ./logs\32k\G_0.pth (iteration 1) 2023-02-08 18:07:45,998 32k INFO Loaded checkpoint ./logs\32k\D_0.pth (iteration 1) 2023-02-08 18:07:55,722 32k INFO Train Epoch: 1 [0%] 2023-02-08 18:07:55,723 32k INFO [1.376741886138916, 3.908522129058838, 12.127800941467285, 35.539894104003906, 4.270486354827881, 0, 0.0001] 2023-02-08 18:08:01,381 32k INFO Saving model and optimizer state at iteration 1 to ./logs\32k\G_0.pth 2023-02-08 18:08:02,344 32k INFO Saving model and optimizer state at iteration 1 to ./logs\32k\D_0.pth 2023-02-08 18:08:19,482 32k INFO ====> Epoch: 1 2023-02-08 18:08:40,093 32k INFO ====> Epoch: 2 2023-02-08 18:09:01,010 32k INFO ====> Epoch: 3 2023-02-08 18:09:21,715 32k INFO ====> Epoch: 4 2023-02-08 18:09:42,242 32k INFO ====> Epoch: 5 2023-02-08 18:10:02,528 32k INFO ====> Epoch: 6 2023-02-08 18:10:22,965 32k INFO ====> Epoch: 7 2023-02-08 18:10:29,149 32k INFO Train Epoch: 8 [14%] 2023-02-08 18:10:29,150 32k INFO [2.378505229949951, 2.3670239448547363, 10.534687042236328, 19.235595703125, 1.8958038091659546, 200, 9.991253280566489e-05] 2023-02-08 18:10:43,388 32k INFO ====> Epoch: 8 2023-02-08 18:11:03,722 32k INFO ====> Epoch: 9 2023-02-08 18:11:23,859 32k INFO ====> Epoch: 10 ...

出现类似以上的内容就说明是在开始训练了（显存会直接爆满）。停止训练有下面两种方法：按Ctrl+C 直接右上角叉掉

在控制台中运行 python train.py -c config/config.json -m 32k即可继续训练

- 日志及训练次数的查看

日志保存的位置：.\logs\32k\train.log

阅读举例： # 示例3 2023-02-08 18:32:24,942 32k INFO [2.252035617828369, 2.5846095085144043, 8.220404624938965, 5 17.75478744506836, 0.9781494140625, 2000, 9.911637167309565e-05] 2023-02-08 18:32:28,889 32k INFO Saving model and optimizer state at iteration 72 to ./logs\32k\G_2000.pth 2023-02-08 18:32:29,661 32k INFO Saving model and optimizer state at iteration 72 to ./logs\32k\D_2000.pth # 示例1 2023-02-08 18:32:39,907 32k INFO ====> Epoch: 72 2023-02-08 18:33:00,099 32k INFO ====> Epoch: 73 2023-02-08 18:33:20,682 32k INFO ====> Epoch: 74 2023-02-08 18:33:40,887 32k INFO ====> Epoch: 75 2023-02-08 18:34:01,460 32k INFO ====> Epoch: 76 2023-02-08 18:34:21,798 32k INFO ====> Epoch: 77 2023-02-08 18:34:41,866 32k INFO ====> Epoch: 78 2023-02-08 18:34:54,712 32k INFO Train Epoch: 79 [57%] # 示例2 2023-02-08 18:34:54,712 32k INFO [2.282658100128174, 2.5492446422576904, 10.027194023132324, 15.401838302612305, 1.598284363746643, 2200, 9.902967736366644e-05]

以下的解释我引用了B站up主inifnite_loop的解释，相关视频相关专栏

需要关注两个参数：Epoch和global_step

Epoch表示迭代批次，每一批次可以看作一个迭代分组

Global_step表示总体迭代次数两者的关系是global_step = 最多语音说话人的语音数 / batch_size * epoch

batch_size是配置文件中的参数 示例1: 每一次迭代输出内 ====> Epoch: 74表示第74迭代批次完成 示例2: Global_step每200次输出一次（配置文件中的参数log_interval） 示例3: Global_step每1000次输出一次（配置文件中的参数eval_interval），会保存模型到新的文件一般情况下训练10000次（大约2小时）就能得到一个不错的声音模型了

- 保存的训练模型

以上，我们谈论到了每1000次迭代才会保存一次模型样本，那么，这些样本保存在哪里呢？如何处理这些样本呢？下面我将详细讲述。

训练模型保存位置：.\logs\32k 训练一定时间后打开这个路径，你会发现有很多文件： D_0.pth D_1000.pth D_2000.pth D_3000.pth D_4000.pth ... G_0.pth G_1000.pth G_2000.pth G_3000.pth G_4000.pth ... 如果你的硬盘空间不足，那么只要留下最后一次的G和D就可以了，前面的都可以删除（但是不要删别的文件）

4. 推理使用

按上述方法训练得到最后一次的G和D后，该如何使用这些模型呢？下面我将讲述具体的使用操作方法

- 准备干声

准备一首歌的干声，干声可以靠软件提取，我这边推荐的是Ultimate Vocal Remover ，该软件开源并且可以在Github上下载到。下载地址用音频处理软件（如Au ，Studio One等）将这个干声分成若干段不超过40秒的片段并且一一保存将你处理好的干声片段放入.\raw文件夹

- 修改推理代码

打开inference_main.py ，修改第17-27行，具体修改内容如下： model_path = "logs/32k/G_10000.pth" # 这里改成你最新训练出来的G模型路径 config_path = "configs/config.json" svc_model = Svc(model_path, config_path) infer_tool.mkdir(["raw", "results"]) # 支持多个wav文件，放在raw文件夹下 clean_names = ["vocals_01", "vocals_02","vocals_03"] # 这里修改成你要处理的干声片段的文件名，支持多个文件 trans = [0] # 音高调整，支持正负（半音） spk_list = [Sucial] # 这里是说话人的名字，之前准备训练样本的文件夹名字 slice_db = -40 # 默认-40，嘈杂的音频可以-30 ，干声保留呼吸可以-50 wav_format = wav # 音频输出格式如果下一步推理生成时出现错误，请尝试以下修改：(感谢kahotv提供建议) 详细信息 #inference_main.py line35 第35行， wav_path = Path(raw_audio_path).with_suffix(.wav) #改为 wav_path = str(Path(raw_audio_path).with_suffix(.wav))

- 推理生成

修改完成后保存代码，在so-vits-svc文件夹内运行终端，执行下面命令开始推理生成 python .\inference_main.py 待黑窗口自动关闭后，推理生成完成。生成的音频文件在.\results文件夹下如果听上去效果不好，就多训练模型，10000次不够就训练20000次

- 后期处理

将生成的干音和歌曲伴奏（也可以通过Ultimate Vocal Remover提取）导入音频处理软件&宿主软件（如Au ，Studio One等）进行混音和母带处理，最终得到成品。

5. 感谢名单

以下是对本文档的撰写有帮助的感谢名单：

so-vits-svc 官方源代码和帮助文档

B站up主inifnite_loop 相关视频相关专栏

所有提供训练音频样本的人员