ACE-Step 1.5 精密操作规范 (SOP)

#132025

追光
参与者

ACE-Step 1.5 操作规范

一、 核心原则与架构选型

定位:以人为中心的协作式生成工具。接受随机性,采用“批量探索 → 自动初筛 → 人工精调 → 局部修正”的迭代工作流。

架构流向:用户输入 → 5Hz LM(规划器)推理元数据/优化Caption/生成语义Codes → DiT(执行器)扩散生成音频。

LM选型(规划器):显存小于8G选无或0.6B;8至16G选1.7B(默认);大于16G或复杂长尾任务选4B。模型越大,世界知识越丰富,记忆与长尾风格处理能力越强。

LLM 是核心的“指挥官”,负责将自然语言转化为音乐逻辑:

结构规划: LLM 将歌词与提示词拆解为“主歌-副歌-间奏”的音乐结构,确保整首曲目逻辑连贯。

语义对齐: 将文字描述(如“爵士乐”)映射为音频模型可理解的特征,实现指令与音频的精准同步。

律动控制: 负责歌词与节拍的精细映射,确保演唱在节律上精准且自然。

DiT选型(执行器):turbo为默认首选,创造性与语义兼顾,8步出音频;turbo-shift1重细节;turbo-shift3音色干爽极简;sft/base适用于高保真调参或特殊任务(lego/complete/extract仅限base模型)。

ACE-Step 1.5 精密操作规范 (SOP)

ACE-Step 1.5 的 Cover(翻唱)精密工作流

ACE-Step 1.5 中使用Repaint(局部重绘/续写)精密工作流


二、 输入控制规范

1. Caption(全局画像)

构成维度:风格 + 情绪 + 乐器 + 音色质感 + 时代参考 + 制作风格 + 人声特点 + 结构提示。

编写原则:具体优于模糊;多维度组合锚定方向;善用参考句式(如 in the style of…);使用质感词(warm, crisp, airy, punchy, lo-fi)。

禁忌:严禁在Caption中写入BPM、调性、拍号等元数据;避免冲突风格混搭,若需混搭请改为时间演变描述(开头…中段…结尾…)。

2. Lyrics(时间脚本)

结构标记:使用标记,仅保留1至2个核心词,复杂描述移至Caption。

常用结构标记:

类别标记说明
基础结构
[Intro]
开场,建立氛围
[Verse]
[Verse 1]
主歌,叙事推进
[Pre-Chorus]
导歌,积蓄能量
[Chorus]
副歌,情感高潮
[Bridge]
桥段,转折或升华
[Outro]
结尾,收束
动态段落
[Build]
能量逐渐攀升
[Drop]
电子乐的能量释放
[Breakdown]
配器减少,留白
器乐段落
[Instrumental]
纯器乐,无人声
[Guitar Solo]
吉他独奏
[Piano Interlude]
钢琴间奏
特殊标记
[Fade Out]
渐弱结束
[Silence]
静默

[Intro – ambient]

[Main Theme – piano]

[Climax – powerful]

[Outro – fade out]

控制标记:演唱方式如


[raspy vocal]	沙哑、有质感的人声
[whispered]	轻声细语
[falsetto]	假声
[powerful belting]	高亢有力的演唱
[spoken word]	说唱/朗诵
[harmonies]	和声层叠
[call and response]	一呼一应
[ad-lib]	即兴装饰音

 

能量情绪如


[high energy]	高能量、激昂
[low energy]	低能量、内敛
[building energy]	能量递增
[explosive]	爆发性能量
[melancholic]	忧郁
[euphoric]	欣快
[dreamy]	梦幻
[aggressive]	激进

文本规范:每行严格控制在6至10个音节,同结构位置的行音节数偏差不超过

全大写表示强力度或呐喊

段落间必须空行

[Verse]
walking through the empty streets(正常力度)

[Chorus]
WE ARE THE CHAMPIONS!(高强度、呐喊)

圆括号表示背景和声;

[Chorus]
We rise together (together)
Into the light (into the light)

延长元音:可以通过重复元音来延长音:

Feeeling so aliiive

纯音乐填写 [Instrumental] 或器乐结构标记

[Intro - ambient]

[Main Theme – piano]

[Climax – powerful]

[Outro – fade out]

避坑:禁止形容词堆砌、押韵混乱、段落越界、隐喻频繁切换。坚持单一核心隐喻贯穿全曲。

3. 元数据(Metadata)

默认策略:开启 usecotmetas=True,交由LM自动推断。

手动干预范围:bpm(30至300,稳定区间60至180);keyscale(标准调性C/G/D/Am/Em最稳);timesignature(4/4最稳,3/4与6/8可用,5/4与7/8为高级玩法);duration(30秒至4分钟,超长易结构重复)。

铁律:元数据参数值严禁与Caption或Lyrics描述冲突。

4. 音频控制与任务类型

text2music:文本驱动全局生成,无需输入音频。

cover:输入 srcaudio 进行旋律/节奏/和弦/结构迁移。通过 audiocoverstrength(0.0至1.0)控制遵循度,0.0自由发挥,1.0严格对齐。支持Remix与改词。

repaint:输入 srcaudio 进行局部修改或续写。操作区间限定3至90秒,支持无限拼接与智能缝合。

lego/complete:仅base模型支持。lego用于智能加轨,complete用于单轨混音补全。

referenceaudio:全局参考音频。系统自动截取拼接为30秒潜特征,全局控制音色、混音、演奏风格与氛围。


三、 推理参数精密配置

1. DiT(扩散模型)参数

inferencesteps:turbo固定8步;base模型建议32至100步。步数越高细节越多,速度越慢。

guidancescale:默认7.0。仅base模型有效。值越高越遵循Prompt,过高易过拟合或生硬。

shift:默认1.0。控制去噪轨迹偏移。值越大重早期结构构建,值越小重后期细节打磨。

infermethod:ode为确定性生成;sde引入随机性。

audiocoverstrength:默认1.0。控制Cover/Repaint任务中对源音频结构的遵循程度。

2. 5Hz LM(语言模型)参数

thinking:默认True。启用CoT推理,关闭则跳过LM由人工接管规划。

lmtemperature:默认0.85。值越高越具创意与随机性,值越低越保守确定。调试排查时建议降至0.7以下。

lmcfgscale:默认2.0。控制LM对正向Prompt的遵循强度。

lmtopp / lmtopk:默认0.9 / 0。Top-K为0表示禁用核采样限制。

usecotcaption / usecotmetas:默认均为True。自动优化Caption描述并推理元数据。

lmnegativeprompt:默认 NO USER INPUT。用于告知LM需规避的方向。


四、 标准工作流 (SOP)

第一步:意图设定。编写CaptionLyrics,选择tasktype,按需上传referenceaudiosrcaudio

第二步:批量探索。设置 batchsize 为4至8,开启 AutoGen 后台持续生成,使用随机Seed探索创意空间。

第三步:自动初筛。启用自动打分机制,优先依据 DiT Lyrics Alignment Score(词曲对齐度)过滤低质结果。

第四步:人工精调。锁定满意结果的Seed,微调 lmtemperature、shift 或 audiocoverstrength 进行变体抽卡;修正Lyrics音节或冲突标记。

第五步:局部修正。针对瑕疵段落使用 repaint 划定3至90秒区间重生成,或调整Cover强度优化结构。

第六步:工程输出。确认结构、音色、对齐度达标后,导出分轨或完整音频。


五、 边界控制与核心心法

指令冲突排查CaptionLyrics的乐器/情绪必须一致;元数据交由参数控制,Caption专注风格与音色。

标记过载防范:结构标记精简至1至2词,复杂描述一律移至Caption,防止模型将标记误唱或逻辑混乱。

节奏断裂修复:严格对齐每行6至10音节,同结构行保持正负2偏差,避免节奏怪异。

控制边界认知:文本是降维抽象,无法精确控制每个音符或混音细节。需接受模型随机性,改用 referenceaudio 或 srcaudio 进行声学级控制。

歌词去AI化:坚持单一核心隐喻,控制行长度,避免空洞形容词串联与押韵硬凑,保留呼吸感。

操作心法:将随机性视为探索工具而非缺陷。用固定Seed做参数归因调试,用随机Seed做创意挖掘。快速迭代优于单次完美,保持心流节奏。文本定方向,音频控细节,批量出结果,人工做取舍。