Fish Speech 如何在本地进行微调训练?开源语音模型部署【技术帖】


推荐LoRA微调:仅需单卡16GB显存,修改配置中data_root为数据集路径,执行torchrun训练命令,权重保存至outputs/last.ckpt。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您已成功部署Fish Speech本地环境,但希望让模型适配特定角色或语音风格,则需进行微调训练。以下是实现该目标的多种可行路径:

一、LoRA微调(推荐入门方案)

LoRA(Low-Rank Adaptation)通过注入低秩矩阵更新权重,仅需少量显存与数据即可完成高效适配,适合单卡16GB显存以下设备。

1、进入fish-speech项目根目录,确认已下载预训练模型至checkpoints/fish-speech-1.5/路径下。

2、复制配置模板:cp fish_speech/configs/lora/dual_ar_lora_zh.yaml configs/my_lora_config.yaml

3、编辑my_lora_config.yaml,修改data_root为您的语音数据集绝对路径,确保含wav与对应文本lab文件(命名一致)。

4、执行训练命令:torchrun --nproc_per_node=1 tools/train.py --config configs/my_lora_config.yaml

5、训练过程中模型权重将自动保存至outputs/子目录,最新检查点位于last.ckpt

二、全参数微调(高精度适配)

全参数微调直接更新全部模型权重,在数据充足、显存≥24GB(如A100或双RTX 4090)条件下可获得最优语音一致性与情感表达能力。

1、准备至少30分钟高质量单人语音数据,采样率统一为44.1kHz,格式为WAV,无压缩。

2、使用tools/vqgan/extract_vq.py对全部音频提取离散声学码本特征,生成.vq文件存入data/vq/

3、调整配置文件中的model_type: dual_ar保持不变,将lora_rank设为null,并启用use_gradient_checkpointing: false以提升稳定性。

4、设置学习率缩放策略:在优化器配置中将lr设为2e-5warmup_steps设为200

5、启动多卡训练:torchrun --nproc_per_node=2 tools/train.py --config configs/full_finetune.yaml

三、指令引导式微调(适配可控生成)

该方法在输入文本前注入结构化指令标记(如[laugh][slow]),使模型理解并响应语速、情绪等控制信号,无需额外标注情感标签。

1、在原始文本数据每行开头插入指令前缀,例如:[happy]今天天气真好[whisper]请小声告诉我

2、修改分词器配置,在tokenizer.json中注册新特殊token:"additional_special_tokens": ["[happy]", "[sad]", "[laugh]", "[whisper]"]

3、运行tools/tokenizer/build_tokenizer.py重建分词器,并将输出目录指定为tokenizer/

4、在训练配置中启用enable_instruction_tuning: true,并指向新分词器路径。

5、使用tools/data/prepare_instruction_data.py将原始数据转换为指令格式,生成instruction_dataset.jsonl

四、数据增强驱动的轻量微调

针对仅有10–20秒语音样本的极端受限场景,通过合成多样性增强样本提升泛化性,可在RTX 4060级别显卡上完成训练。

1、使用tools/augment/pitch_shift.py对原始音频进行±3音分偏移,生成3组变调副本。

2、调用tools/augment/noise_mix.py混入白噪声、咖啡馆背景音、键盘敲击音三类低信噪比干扰源。

3、运行tools/vqgan/extract_vq.py --augment同步提取增强后音频的VQ特征。

4、在配置文件中启用use_augmented_data: true,并设置max_duration: 8.0限制单段音频时长。

5、启动训练时添加环境变量:export CUDA_LAUNCH_BLOCKING=1便于定位显存异常。

五、跨语言迁移微调(支持小语种扩展)

当目标语音为中文以外的小语种(如泰语、越南语、希伯来语)时,利用Fish Speech多语言基座能力,冻结底层编码器仅微调解码器部分。

1、下载对应语言的开源语音数据集(如Thai Common Voice v16),清洗后整理为wav+txt结构。

2、将文本送入现有分词器处理,若出现大量[UNK]则运行tools/tokenizer/extend_vocab.py --lang th扩展词表。

3、在配置中设置freeze_text_encoder: true

freeze_semantic_decoder: false,仅更新声学建模分支。

4、将loss_weightssemantic_loss权重设为0.3acoustic_loss设为0.7,强化声学拟合。

5、使用torchrun --nproc_per_node=1 tools/train.py --config configs/cross_lang_th.yaml启动训练。


# Token  # 告诉我  # 如果您  # 小语种  # 您的  # 仅需  # 音分  # 希伯来  # 显存  # 设为  # whisper  # th  # js  # NULL  # igs  # 配置文件  # 多语言  # 环境变量  # ai  # app  # 显卡  # 编码  # node  # json 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: AI测试面试准备:提升你的面试技巧与知识储备  AI简历优化指南:如何让你的简历轻松通过ATS筛选系统  AI Lead Generation: 解锁未来增长引擎,营销新纪元  利用 ChatGPT 进行高质量代码重构与优化  AI视频创作终极指南:文本到视频的免费工具与技巧  Shopify着陆页:用AI工具快速提升营销效果  feelin聊天官方网站入口 feelinAl官方网站  Claude怎么用_Claude使用方法详细指南【教程】  Character AI深度解析:功能、用户反馈与替代方案全攻略  Kindroid AI:打造你的专属虚拟伙伴,开启AI社交新体验  轻松制作圣经视频:无需露脸也能赚钱的教程  百度输入法蓝色图标怎么关 百度输入法ai图标消除  Feelin网页版在线使用 Feelin官网登录入口  趣味 Phonics:轻松掌握 CVC 单词拼读技巧  通义千问怎样优化提示词效果_通义千问提示词优化技巧【攻略】  百度AI搜索怎样搜索百科知识_百度AI搜索百科频道与词条跳转【技巧】  热门科技新闻:BetterHelp、Photoshop AI、AMD CPU及NVIDIA显卡  tofai免费网页版入口 tofai官网手机版网站  AI电商网站搭建:CSV到WooCommerce全流程指南  HelloData.ai:AI驱动的多户型房地产市场分析平台  Artist.ly AI Image Designer: 终极指南  留学文书PS怎么写?教你用AI写出招生官眼前一亮的个人陈述  易企秀AI排版如何生成H5页面_易企秀AI排版H5制作入口与组件添加【方法】  E-LabVine:AI赋能的数字化学习平台,提升高中学业表现  GitHub Copilot与Azure AI Foundry模型:加速AI编程实践  豆包AI怎么用提示词生成短视频脚本_豆包AI脚本提示词编写【教程】  Notion AI整理笔记怎么用_Notion AI整理笔记使用方法详细指南【教程】  Jasper AI的Recipes是什么 Jasper AI配方功能使用【详解】  Claude官网在线对话地址 Claude官方网站直接使用  寻宝者的发现:古董探测与文物挖掘揭秘  批改网AI检测工具怎样开启实时检测_批改网AI检测工具实时检测开启与延迟设置【指南】  探索都市传说:追寻鳄鱼飞机怪物“Bombardino Crocodilo”  百度输入法ai面板怎么关 百度输入法ai面板隐藏技巧  斑马AI如何设置奖励机制_斑马AI积分奖励与勋章获取【步骤】  Gacha Club反应视频解析:探索热门角色和独特剧情  AI绘图工具测评:告别复杂流程,高效创作流程图  老电脑焕新:i5-2400搭配FirePro V5900 打造复古游戏利器  lovemo官网直达链接 lovemo网页版在线  Hugging Face Transformers:文本分类的完整指南  AI落地页优化:3个技巧,转化率飙升!  N8N 自动化教程:HR 简历智能分析系统搭建指南  豆包Ai官网在线入口_豆包Ai网页版访问方式  1-11月30万元以上插电混动车型销量榜:问界双车前二  AI vs. 人工书籍教练:哪个更适合你?终极指南  AI写作鱼怎么一键生成朋友圈文案_AI写作鱼文案风格切换与字数设置【指南】  通义千问怎样写文案_通义千问文案写作教程【指南】  7个简单高效的面部肌肉锻炼,改善面部不对称,塑造完美脸型  播客数据深度分析:揭秘全球听众分布及增长策略  Claude怎样写指令型提示词_Claude指令提示词写法【方法】  TopMedi AI:AI语音克隆和文本转语音终极指南 

 2026-01-22

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.