ACE-Step 1.5 中使用Repaint(局部重绘/续写)精密工作流

#132043

追光
参与者

二、 Repaint(局部重绘/续写)精密工作流

核心原理 基于源音频的上下文进行区间补全或修改。模型读取划定区间的前后文潜特征,在指定时间内重新生成,自动处理节奏、和声与音色的衔接。

输入与参数配置

任务类型:task_type 设为 repaint

音频输入:上传 src_audio(需包含完整上下文)

需要在翻唱位置插入音频,这里插入的音频作为src_audio

区间控制:设置 repainting_start 与 repainting_end。操作范围严格限制在 3 秒至 90 秒。

核心参数:audio_cover_strength 控制上下文遵循度。改词/改结构建议 0.5 至 0.7;纯修复/续写建议 0.8 至 1.0。

LM 设置:开启或关闭均可。Repaint 侧重局部细节与上下文衔接,DiT 直接基于音频上下文工作,LM 仅辅助文本规划。

标准操作步骤

1、定位区间

在源音频中精确定位需修改或续写的起点与终点。确保区间长度在 3 至 90 秒之间,且前后保留至少 2 秒完整上下文。

2、参数装载

设置 task_type=repaint,上传 src_audio,填入区间参数。若需改词或改结构,同步更新对应区间的 Lyrics 标记。

3、上下文生成

保持 batch_size=4 至 6,开启 AutoGen。模型将参考前后文在划定区间内重新雕刻音频。

4、衔接听辨

重点听辨区间边界处的节奏对齐、和声过渡与音色融合。若出现断层或突兀,微调区间边界(前后移动 0.5 至 1 秒)重绘。

5、迭代锁定

满意后锁定 Seed。若需调整局部演唱力度或配器层次,微调 cover_strength 或 Lyrics 控制标记(如 [powerful]、[whispered])重新生成。

6、拼接导出

确认局部与全局无缝融合后导出。若需继续延伸,将新生成音频作为下一轮 src_audio,重复上述流程。

ACE-Step 1.5 精密操作规范 (SOP)

ACE-Step 1.5 的 Cover(翻唱)精密工作流

ACE-Step 1.5 中使用Repaint(局部重绘/续写)精密工作流


高级玩法

限时长生成:通过多次 Repaint 首尾相接,每次续写 30 至 60 秒。基于前段上下文保持音乐自然过渡,突破单次生成时长限制。

智能音频缝合:将两段独立音频拼接,在连接处划定 5 至 15 秒区间使用 Repaint。模型会自动补全过渡段,实现节奏/和声/音色的平滑融合。

局部克隆与修复:保留源音频整体混音与人声特质,仅针对瑕疵段落(如破音、配器冲突、歌词咬字不清)进行定点重绘,不破坏全局一致性。


关键避坑

区间严禁越界,短于 3 秒上下文不足,生成易断裂;长于 90 秒模型注意力分散,易出现结构重复或逻辑漂移。

Lyrics 音节需匹配原节奏。重绘区间的歌词音节数应与原曲对应位置的节拍数保持 ±2 偏差,否则会导致节奏错位或拖拍/抢拍。 边界微调优于参数硬拉。衔接不自然时,优先移动 repainting_start/end 边界 0.5 至 1 秒,而非盲目调整 cover_strength。

上下文窗口的微小变化对缝合质量影响远大于参数。

避免连续重绘叠加失真。同一区间反复 Repaint 超过 3 次可能导致高频细节丢失或底噪累积。

建议回退至上一步满意版本,调整区间或文本后重新生成。

固定 Seed 做参数归因,随机 Seed 做创意挖掘。 接受模型惯性,引导而非强控。将随机性视为探索工具,快速迭代优于单次完美。保持心流节奏,让工作流服务于创作直觉。