ACE-Step 1.5 精密操作规范 (SOP)

2026-05-11 - 14:25 #132025

追光

参与者

ACE-Step 1.5 操作规范

一、核心原则与架构选型

定位：以人为中心的协作式生成工具。接受随机性，采用“批量探索 → 自动初筛 → 人工精调 → 局部修正”的迭代工作流。

架构流向：用户输入 → 5Hz LM（规划器）推理元数据/优化Caption/生成语义Codes → DiT（执行器）扩散生成音频。

LM选型（规划器）：显存小于8G选无或0.6B；8至16G选1.7B（默认）；大于16G或复杂长尾任务选4B。模型越大，世界知识越丰富，记忆与长尾风格处理能力越强。

LLM 是核心的“指挥官”，负责将自然语言转化为音乐逻辑：
结构规划： LLM 将歌词与提示词拆解为“主歌-副歌-间奏”的音乐结构，确保整首曲目逻辑连贯。
语义对齐：将文字描述（如“爵士乐”）映射为音频模型可理解的特征，实现指令与音频的精准同步。
律动控制：负责歌词与节拍的精细映射，确保演唱在节律上精准且自然。

DiT选型（执行器）：turbo为默认首选，创造性与语义兼顾，8步出音频；turbo-shift1重细节；turbo-shift3音色干爽极简；sft/base适用于高保真调参或特殊任务（lego/complete/extract仅限base模型）。

ACE-Step 1.5 精密操作规范 (SOP)

ACE-Step 1.5 的 Cover（翻唱）精密工作流

ACE-Step 1.5 中使用Repaint（局部重绘/续写）精密工作流

二、输入控制规范

1. Caption（全局画像）

构成维度：风格 + 情绪 + 乐器 + 音色质感 + 时代参考 + 制作风格 + 人声特点 + 结构提示。

编写原则：具体优于模糊；多维度组合锚定方向；善用参考句式（如 in the style of…）；使用质感词（warm, crisp, airy, punchy, lo-fi）。

禁忌：严禁在Caption中写入BPM、调性、拍号等元数据；避免冲突风格混搭，若需混搭请改为时间演变描述（开头…中段…结尾…）。

2. Lyrics（时间脚本）

结构标记：使用标记，仅保留1至2个核心词，复杂描述移至Caption。

常用结构标记：

类别	标记	说明
基础结构	`[Intro]`	开场，建立氛围
	`[Verse]` `[Verse 1]`	主歌，叙事推进
	`[Pre-Chorus]`	导歌，积蓄能量
	`[Chorus]`	副歌，情感高潮
	`[Bridge]`	桥段，转折或升华
	`[Outro]`	结尾，收束
动态段落	`[Build]`	能量逐渐攀升
	`[Drop]`	电子乐的能量释放
	`[Breakdown]`	配器减少，留白
器乐段落	`[Instrumental]`	纯器乐，无人声
	`[Guitar Solo]`	吉他独奏
	`[Piano Interlude]`	钢琴间奏
特殊标记	`[Fade Out]`	渐弱结束
	`[Silence]`	静默

[Intro – ambient]
[Main Theme – piano]
[Climax – powerful]
[Outro – fade out]

控制标记：演唱方式如


[raspy vocal]	沙哑、有质感的人声
[whispered]	轻声细语
[falsetto]	假声
[powerful belting]	高亢有力的演唱
[spoken word]	说唱/朗诵
[harmonies]	和声层叠
[call and response]	一呼一应
[ad-lib]	即兴装饰音

能量情绪如


[high energy]	高能量、激昂
[low energy]	低能量、内敛
[building energy]	能量递增
[explosive]	爆发性能量
[melancholic]	忧郁
[euphoric]	欣快
[dreamy]	梦幻
[aggressive]	激进

文本规范：每行严格控制在6至10个音节，同结构位置的行音节数偏差不超过

全大写表示强力度或呐喊；

段落间必须空行

[Verse]
walking through the empty streets（正常力度）

[Chorus]
WE ARE THE CHAMPIONS!（高强度、呐喊）

圆括号表示背景和声；

[Chorus]
We rise together (together)
Into the light (into the light)

延长元音：可以通过重复元音来延长音：

Feeeling so aliiive

纯音乐填写 [Instrumental] 或器乐结构标记

[Intro - ambient]

[Main Theme – piano]

[Climax – powerful]

[Outro – fade out]

避坑：禁止形容词堆砌、押韵混乱、段落越界、隐喻频繁切换。坚持单一核心隐喻贯穿全曲。

3. 元数据（Metadata）

默认策略：开启 usecotmetas=True，交由LM自动推断。

手动干预范围：bpm（30至300，稳定区间60至180）；keyscale（标准调性C/G/D/Am/Em最稳）；timesignature（4/4最稳，3/4与6/8可用，5/4与7/8为高级玩法）；duration（30秒至4分钟，超长易结构重复）。

铁律：元数据参数值严禁与Caption或Lyrics描述冲突。

4. 音频控制与任务类型

text2music：文本驱动全局生成，无需输入音频。

cover：输入 srcaudio 进行旋律/节奏/和弦/结构迁移。通过 audiocoverstrength（0.0至1.0）控制遵循度，0.0自由发挥，1.0严格对齐。支持Remix与改词。

repaint：输入 srcaudio 进行局部修改或续写。操作区间限定3至90秒，支持无限拼接与智能缝合。

lego/complete：仅base模型支持。lego用于智能加轨，complete用于单轨混音补全。

referenceaudio：全局参考音频。系统自动截取拼接为30秒潜特征，全局控制音色、混音、演奏风格与氛围。

三、推理参数精密配置

1. DiT（扩散模型）参数

inferencesteps：turbo固定8步；base模型建议32至100步。步数越高细节越多，速度越慢。

guidancescale：默认7.0。仅base模型有效。值越高越遵循Prompt，过高易过拟合或生硬。

shift：默认1.0。控制去噪轨迹偏移。值越大重早期结构构建，值越小重后期细节打磨。

infermethod：ode为确定性生成；sde引入随机性。

audiocoverstrength：默认1.0。控制Cover/Repaint任务中对源音频结构的遵循程度。

2. 5Hz LM（语言模型）参数

thinking：默认True。启用CoT推理，关闭则跳过LM由人工接管规划。

lmtemperature：默认0.85。值越高越具创意与随机性，值越低越保守确定。调试排查时建议降至0.7以下。

lmcfgscale：默认2.0。控制LM对正向Prompt的遵循强度。

lmtopp / lmtopk：默认0.9 / 0。Top-K为0表示禁用核采样限制。

usecotcaption / usecotmetas：默认均为True。自动优化Caption描述并推理元数据。

lmnegativeprompt：默认 NO USER INPUT。用于告知LM需规避的方向。

四、标准工作流 (SOP)

第一步：意图设定。编写Caption与Lyrics，选择tasktype，按需上传referenceaudio或srcaudio。

第二步：批量探索。设置 batchsize 为4至8，开启 AutoGen 后台持续生成，使用随机Seed探索创意空间。

第三步：自动初筛。启用自动打分机制，优先依据 DiT Lyrics Alignment Score（词曲对齐度）过滤低质结果。

第四步：人工精调。锁定满意结果的Seed，微调 lmtemperature、shift 或 audiocoverstrength 进行变体抽卡；修正Lyrics音节或冲突标记。

第五步：局部修正。针对瑕疵段落使用 repaint 划定3至90秒区间重生成，或调整Cover强度优化结构。

第六步：工程输出。确认结构、音色、对齐度达标后，导出分轨或完整音频。

五、边界控制与核心心法

指令冲突排查：Caption与Lyrics的乐器/情绪必须一致；元数据交由参数控制，Caption专注风格与音色。

标记过载防范：结构标记精简至1至2词，复杂描述一律移至Caption，防止模型将标记误唱或逻辑混乱。

节奏断裂修复：严格对齐每行6至10音节，同结构行保持正负2偏差，避免节奏怪异。

控制边界认知：文本是降维抽象，无法精确控制每个音符或混音细节。需接受模型随机性，改用 referenceaudio 或 srcaudio 进行声学级控制。

歌词去AI化：坚持单一核心隐喻，控制行长度，避免空洞形容词串联与押韵硬凑，保留呼吸感。

操作心法：将随机性视为探索工具而非缺陷。用固定Seed做参数归因调试，用随机Seed做创意挖掘。快速迭代优于单次完美，保持心流节奏。文本定方向，音频控细节，批量出结果，人工做取舍。

下载清单	我的账户
发布话题	会员权益