ACE-Step 1.5 精密操作规范 (SOP)
› 社区话题 › 📺 VFX Pipeline | 数字创意工作流 › 【AI创作】开源版 Suno-ACE-Step CPP UI本地部署与音乐制作、翻唱、改编音乐流程 › ACE-Step 1.5 精密操作规范 (SOP)
追光
ACE-Step 1.5 操作规范
一、 核心原则与架构选型
定位:以人为中心的协作式生成工具。接受随机性,采用“批量探索 → 自动初筛 → 人工精调 → 局部修正”的迭代工作流。
架构流向:用户输入 → 5Hz LM(规划器)推理元数据/优化Caption/生成语义Codes → DiT(执行器)扩散生成音频。
LM选型(规划器):显存小于8G选无或0.6B;8至16G选1.7B(默认);大于16G或复杂长尾任务选4B。模型越大,世界知识越丰富,记忆与长尾风格处理能力越强。
LLM 是核心的“指挥官”,负责将自然语言转化为音乐逻辑:
结构规划: LLM 将歌词与提示词拆解为“主歌-副歌-间奏”的音乐结构,确保整首曲目逻辑连贯。
语义对齐: 将文字描述(如“爵士乐”)映射为音频模型可理解的特征,实现指令与音频的精准同步。
律动控制: 负责歌词与节拍的精细映射,确保演唱在节律上精准且自然。
DiT选型(执行器):turbo为默认首选,创造性与语义兼顾,8步出音频;turbo-shift1重细节;turbo-shift3音色干爽极简;sft/base适用于高保真调参或特殊任务(lego/complete/extract仅限base模型)。
二、 输入控制规范
1. Caption(全局画像)
构成维度:风格 + 情绪 + 乐器 + 音色质感 + 时代参考 + 制作风格 + 人声特点 + 结构提示。
编写原则:具体优于模糊;多维度组合锚定方向;善用参考句式(如 in the style of…);使用质感词(warm, crisp, airy, punchy, lo-fi)。
禁忌:严禁在Caption中写入BPM、调性、拍号等元数据;避免冲突风格混搭,若需混搭请改为时间演变描述(开头…中段…结尾…)。
2. Lyrics(时间脚本)
结构标记:使用标记,仅保留1至2个核心词,复杂描述移至Caption。
常用结构标记:
| 类别 | 标记 | 说明 |
|---|---|---|
| 基础结构 | | 开场,建立氛围 |
| 主歌,叙事推进 | |
| 导歌,积蓄能量 | |
| 副歌,情感高潮 | |
| 桥段,转折或升华 | |
| 结尾,收束 | |
| 动态段落 | | 能量逐渐攀升 |
| 电子乐的能量释放 | |
| 配器减少,留白 | |
| 器乐段落 | | 纯器乐,无人声 |
| 吉他独奏 | |
| 钢琴间奏 | |
| 特殊标记 | | 渐弱结束 |
| 静默 |
[Intro – ambient]
[Main Theme – piano]
[Climax – powerful]
[Outro – fade out]
控制标记:演唱方式如
[raspy vocal] 沙哑、有质感的人声
[whispered] 轻声细语
[falsetto] 假声
[powerful belting] 高亢有力的演唱
[spoken word] 说唱/朗诵
[harmonies] 和声层叠
[call and response] 一呼一应
[ad-lib] 即兴装饰音
能量情绪如
[high energy] 高能量、激昂
[low energy] 低能量、内敛
[building energy] 能量递增
[explosive] 爆发性能量
[melancholic] 忧郁
[euphoric] 欣快
[dreamy] 梦幻
[aggressive] 激进
文本规范:每行严格控制在6至10个音节,同结构位置的行音节数偏差不超过
全大写表示强力度或呐喊;
段落间必须空行
[Verse]
walking through the empty streets(正常力度)[Chorus]
WE ARE THE CHAMPIONS!(高强度、呐喊)
圆括号表示背景和声;
[Chorus]
We rise together (together)
Into the light (into the light)延长元音:可以通过重复元音来延长音:
Feeeling so aliiive纯音乐填写 [Instrumental] 或器乐结构标记
[Intro - ambient][Main Theme – piano]
[Climax – powerful]
[Outro – fade out]
避坑:禁止形容词堆砌、押韵混乱、段落越界、隐喻频繁切换。坚持单一核心隐喻贯穿全曲。
3. 元数据(Metadata)
默认策略:开启 usecotmetas=True,交由LM自动推断。
手动干预范围:bpm(30至300,稳定区间60至180);keyscale(标准调性C/G/D/Am/Em最稳);timesignature(4/4最稳,3/4与6/8可用,5/4与7/8为高级玩法);duration(30秒至4分钟,超长易结构重复)。
铁律:元数据参数值严禁与Caption或Lyrics描述冲突。
4. 音频控制与任务类型
text2music:文本驱动全局生成,无需输入音频。
cover:输入 srcaudio 进行旋律/节奏/和弦/结构迁移。通过 audiocoverstrength(0.0至1.0)控制遵循度,0.0自由发挥,1.0严格对齐。支持Remix与改词。
repaint:输入 srcaudio 进行局部修改或续写。操作区间限定3至90秒,支持无限拼接与智能缝合。
lego/complete:仅base模型支持。lego用于智能加轨,complete用于单轨混音补全。
referenceaudio:全局参考音频。系统自动截取拼接为30秒潜特征,全局控制音色、混音、演奏风格与氛围。
三、 推理参数精密配置
1. DiT(扩散模型)参数
inferencesteps:turbo固定8步;base模型建议32至100步。步数越高细节越多,速度越慢。
guidancescale:默认7.0。仅base模型有效。值越高越遵循Prompt,过高易过拟合或生硬。
shift:默认1.0。控制去噪轨迹偏移。值越大重早期结构构建,值越小重后期细节打磨。
infermethod:ode为确定性生成;sde引入随机性。
audiocoverstrength:默认1.0。控制Cover/Repaint任务中对源音频结构的遵循程度。
2. 5Hz LM(语言模型)参数
thinking:默认True。启用CoT推理,关闭则跳过LM由人工接管规划。
lmtemperature:默认0.85。值越高越具创意与随机性,值越低越保守确定。调试排查时建议降至0.7以下。
lmcfgscale:默认2.0。控制LM对正向Prompt的遵循强度。
lmtopp / lmtopk:默认0.9 / 0。Top-K为0表示禁用核采样限制。
usecotcaption / usecotmetas:默认均为True。自动优化Caption描述并推理元数据。
lmnegativeprompt:默认 NO USER INPUT。用于告知LM需规避的方向。
四、 标准工作流 (SOP)
第一步:意图设定。编写Caption与Lyrics,选择tasktype,按需上传referenceaudio或srcaudio。
第二步:批量探索。设置 batchsize 为4至8,开启 AutoGen 后台持续生成,使用随机Seed探索创意空间。
第三步:自动初筛。启用自动打分机制,优先依据 DiT Lyrics Alignment Score(词曲对齐度)过滤低质结果。
第四步:人工精调。锁定满意结果的Seed,微调 lmtemperature、shift 或 audiocoverstrength 进行变体抽卡;修正Lyrics音节或冲突标记。
第五步:局部修正。针对瑕疵段落使用 repaint 划定3至90秒区间重生成,或调整Cover强度优化结构。
第六步:工程输出。确认结构、音色、对齐度达标后,导出分轨或完整音频。
五、 边界控制与核心心法
指令冲突排查:Caption与Lyrics的乐器/情绪必须一致;元数据交由参数控制,Caption专注风格与音色。
标记过载防范:结构标记精简至1至2词,复杂描述一律移至Caption,防止模型将标记误唱或逻辑混乱。
节奏断裂修复:严格对齐每行6至10音节,同结构行保持正负2偏差,避免节奏怪异。
控制边界认知:文本是降维抽象,无法精确控制每个音符或混音细节。需接受模型随机性,改用 referenceaudio 或 srcaudio 进行声学级控制。
歌词去AI化:坚持单一核心隐喻,控制行长度,避免空洞形容词串联与押韵硬凑,保留呼吸感。
操作心法:将随机性视为探索工具而非缺陷。用固定Seed做参数归因调试,用随机Seed做创意挖掘。快速迭代优于单次完美,保持心流节奏。文本定方向,音频控细节,批量出结果,人工做取舍。