ACE-Step 1.5 的 Cover（翻唱）精密工作流

2026-05-11 - 17:16 #132042

追光

参与者

ACE-Step 1.5 的 Cover（翻唱）精密工作流

一、 Cover（翻唱/结构迁移）精密工作流

核心原理将源音频量化为语义结构化信息（旋律、节奏、和弦、配器），在新 Caption 与 Lyrics 的驱动下重新演绎。源音频提供骨架，文本提供血肉与风格。

输入与参数配置

任务类型：task_type 设为 cover

音频输入：上传 src_audio（需结构清晰、无严重底噪）

需要在翻唱位置插入音频，这里插入的音频作为src_audio

文本输入：填写新 caption 与 lyrics（可改风格、改情绪、改歌词）

核心参数：audio_cover_strength（0.0 至 1.0）。1.0 严格对齐原曲结构，0.0 完全自由发挥。日常推荐 0.6 至 0.8。

LM 设置：建议关闭 thinking 模式。源音频已约束作曲与结构，人工直接接管规划，跳过 LM 推理可显著提升速度并避免意图冲突。

Pink Floyd The Wall 原始曲

追光Cover01创意版 Pinokia MLX模型

追光 Cover02近似版 Pinokia MLX模型

标准操作步骤

1、素材准备

选取结构完整的源音频，编写目标风格的 Caption 与 Lyrics。确保文本描述与原曲节奏骨架不冲突。

2、参数装载

设置 task_type=cover，上传 src_audio，填入新文本。将 audio_cover_strength 设为 0.7 作为起点。

3、批量探索

关闭 thinking，设置 batch_size=4 至 8，开启 AutoGen 与随机 Seed。让 DiT 在固定结构下探索不同演绎。

4、自动初筛

启用自动打分，优先依据 DiT Lyrics Alignment Score 过滤词曲对齐度低的版本。

5、人工精调

锁定满意结果的 Seed。若结构偏移过大，调高 cover_strength；若演绎死板，调低强度或微调 lm_temperature（若开启 LM）。

6、定型输出

确认旋律走向、歌词咬字、风格融合度达标后，导出音频。如需多版本对比，固定 Seed 仅调整强度参数进行 Retake 抽卡。

ACE-Step 1.5 精密操作规范 (SOP)

ACE-Step 1.5 的 Cover（翻唱）精密工作流

ACE-Step 1.5 中使用Repaint（局部重绘/续写）精密工作流

Caption 聚焦目标风格与声学特征示例：

cyberpunk electronic rock, distorted synth bass, aggressive drum machine, dark atmospheric, male gritty vocal, studio-polished Lyrics 按原曲段落结构重写，严格保持每行6至10音节，同位置行偏差不超过2。结构标记仅保留1至2词，如 [Verse] [Chorus]。

高级玩法 Remix 重构：保留原曲和弦与节奏，通过改写 Caption 实现跨风格迁移（如流行转摇滚），或重写 Lyrics 实现改词翻唱。复杂结构构建：利用 cover_strength 的梯度变化（如主歌 0.8、副歌 0.5）在同一首歌中实现结构遵循度的动态控制。 Retake 抽卡：固定 src_audio 与文本，仅更换 Seed 批量生成，快速获取同一结构下的不同演唱/配器变体。

关键避坑：源音频质量决定上限。严重压缩、人声伴奏粘连或节奏混乱的音频会导致结构提取失真。强度参数勿走极端。1.0 易导致机械复制、丧失新风格特征；低于 0.4 易丢失原曲骨架，退化为 text2music。文本与结构需对齐。若原曲为慢板抒情，但 Lyrics 填入高密度快嘴说唱，模型会产生节奏撕裂。请保持音节密度与原曲律动匹配。

下载清单	我的账户
发布话题	会员权益