追光
-
参考音频(referenceaudio)
控制「听起来像什么」:音色、混音、演奏风格、整体氛围。
后台用 VAE 编码为 latents,平均时间信息,全局作用,不保留具体旋律结构。源音频(srcaudio)
控制「结构是什么样」:旋律走向、节奏、和弦、配器层次。
用于 Cover 任务,量化为语义 codes,可通过 audiocoverstrength(0~1)调节结构遵循程度。🔹 一句话区分:参考音频管质感,源音频管骨架。
[Intro - piano][Verse 1]
月光洒在窗台上
我听见你的呼吸
城市在远处沉睡
只有我们还醒着[Pre-Chorus]
这一刻如此安静
却藏着汹涌的…[查看更多] -
二、 Repaint(局部重绘/续写)精密工作流
核心原理 基于源音频的上下文进行区间补全或修改。模型读取划定区间的前后文潜特征,在指定时间内重新生成,自动处理节奏、和声与音色的衔接。
输入与参数配置
任务类型:task_type 设为 repaint
音频输入:上传 src_audio(需包含完整上下文)
需要在翻唱位置插入音频,这里插入的音频作为src_audio
区间控制:设置 repainting_start 与 repainting_end。操作范围严格限制在 3 秒至 90 秒。
核心参数:audio_cover_stre…[查看更多]
-
ACE-Step 1.5 的 Cover(翻唱)精密工作流
一、 Cover(翻唱/结构迁移)精密工作流
核心原理 将源音频量化为语义结构化信息(旋律、节奏、和弦、配器),在新 Caption 与 Lyrics 的驱动下重新演绎。源音频提供骨架,文本提供血肉与风格。
输入与参数配置
任务类型:task_type 设为 cover
音频输入:上传 src_audio(需结构清晰、无严重底噪)
需要在翻唱位置插入音频,这里插入的音频作为src_audio
文本输入:填写新 caption 与 lyrics(可改风格、改情绪、改歌词)
核心参数:audio_cover_strength(0.0 至 1.0)。1.0 严格对…[查看更多]
-
ACE-Step 1.5 操作规范
一、 核心原则与架构选型
定位:以人为中心的协作式生成工具。接受随机性,采用“批量探索 → 自动初筛 → 人工精调 → 局部修正”的迭代工作流。
架构流向:用户输入 → 5Hz LM(规划器)推理元数据/优化Caption/生成语义Codes → DiT(执行器)扩散生成音频。
LM选型(规划器):显存小于8G选无或0.6B;8至16G选1.7B(默认);大于16G或复杂长尾任务选4B。模型越大,世界知识越丰富,记忆与长尾风格处理能力越强。
DiT选型(执行器):turbo为默认首选,创造性与语义兼顾,8…[查看更多]
-
Draw Things App 中 “T.I. Embedding”(文本反向选择嵌入)界面的各项内容。
这些 Embedding(通常也称为 Textual Inversion)本质上是“提示词打包”。它们通过极短的关键词来调用复杂的视觉特征,帮助你更轻松地控制生成风格或图像质量。
一、 核心分类说明
上方图片中展示了,Embedding 主要分为三大类用途:
1.质量增强/负面修正 (Negative Embeddings): 用于去除崩坏的肢体、低画质或不需要的视觉元素。2.视觉风格 (Stylistic Embeddings): 赋予图像特定的艺术风格(如双重曝光、水墨、剪纸等…[查看更多]
-
Draw Things的 SAI (Stability AI) 官方风格预设。
这些风格原本是 Stability AI 为其 SDXL 模型设计的官方提示词模组。Draw Things 将它们集成进来,让你只需要输入一个简单的物体(比如 “A cat”),再点选这些图标,AI 就会自动在后台为你补全复杂的风格描述词。
以下是为您整理的 SAI 风格预设文档,涵盖了截图中出现的常见项:
SAI 官方风格预设 (Style Presets)
这些预设会自动为你的提示词添加“风格后缀”,并配合特定的负面提示词,以确保画风统一。1. 写实与摄影类 (Photographic)
sai-analog film (胶片感)…[查看更多]
-
Draw Things 中核心的 编辑器(Canvas Editor)
它是用于图像修补(Inpainting)、局部重绘以及精细控制生成区域的工具集。
1:擦除与遮罩工具 (Eraser & Masking)
该功能主要用于定义重绘区域。你涂抹掉的部分,就是 AI 接下来会重新生成的部分。
顶部核心模式
橡皮擦图标 (当前选中): 进入遮罩/擦除模式。
中间控制条
撤销/重做: 位于左侧,用于撤销上一步涂抹。尺寸滑块: 红色横条上的滑块,用于调整笔触的粗细。
底部工具组
笔刷/矩形切换 (左一): 可以在“自由手绘笔刷”和“矩形框选”之间切换。边缘硬度 (左二)[查看更多]
-
Draw things提示词控制中心 (Prompt & Negative Prompt)
该界面用于管理生成图像的文本指令,包括正面引导和负面排除。
一、 正面提示词管理 (Positive Prompt / Sticker Designs)
底部蓝色标签(如截图中显示的 Sticker Designs)代表当前激活的正面提示词主题或预设。
Sticker Designs 标签: 这通常是一个预设的提示词组合(也可能是你自己命名的词组)。点击它可以快速调用或编辑一组特定风格的描述语。
输入逻辑: 在这里输入你想要生成的图像或者编辑图像的内容,如 A cute cat, 8k resolution, cinematic lighting。<…
-
开源版 Suno · 本地 AI 音乐生成 · 一键安装,ACE-Step 1.5 支持 Apple Silicon,但推理速度依赖 CPU。我个人使用M1 pro生成一首2-3分钟音乐的时间为 3-4分钟左右,速度偏慢但也可以接受。Pinokia本身是个继承了 terminal和浏览器功能的开源软件安装器,它会自动配置环境、安装依赖,并将每个项目隔离。所以使用pinokia安装好后的应用,可以在pinokio中使用,也可以复制连接到局域网中的浏览器上使用。
-
这里更深入地探讨Draw things的模型格式 .tensordata 与Comfyui模型格式 .safetensors 的区别,本质上是在讨论 “跨平台通用标准” 与 “苹果硬件深度定制” 之间的架构博弈。以下是基于我目前能找到的技术文档与底层逻辑的深度对比:
1. 存储结构:静态张量 vs. 动态加载
.safetensors (ComfyUI/通用):
这是目前 AI 界的标准格式。它主要采用 FlatBuffers 技术,特点是“零拷贝”加载,且不包含可执行代码(比旧的 .ckpt 安全)。它存储的是原始的、未经针对特定显卡优化的浮点数权重。.tensordata (D…[查看更多]
-
Draw Things for Mac 深度设置指南:榨干 Apple Silicon 的 AI 绘图潜力Draw Things 是目前 macOS 平台上最强大的本地 Stable Diffusion 客户端之一。它充分利用了 Apple Silicon (M1/M2/M3 系列) 的 Metal 图形架构、统一内存架构 (Unified Memory) 以及神经网络引擎 (Neural Engine)。
设置选项,结合软件机制与硬件特性,以下是对关键参数的深度解析与优化建议。
一、 计算资源分配 (Server Offload) 本地/云端进行计算
核心逻辑: 决定“谁来干活”。
This Device (xb…[查看更多]
-
这是一份针对 Apple 生态顶级 AI 绘画应用 Draw Things 的入门指南,Draw things深度集成了 Qwen (通义万相)、Flux.2 Klein 以及 Z-Image 等前沿本地化模型的高级用法。内置本地模型下载/云端计算切换,一秒即可切换本地到云端,同时满足本地私有化部署与云端高性能计算。
-
免费的语音转SRT字幕 智能模型
-
好的,抠图它这个没有透明通道,只能弄成白色底子或者直接更换背景。
-
基于 Draw Things 与 Klein 9B 的 Try-Off(脱衣提取/产品图生成) 精确操作流程,按执行顺序编号,可直接对照复现:
1. 准备原始素材
选择一张人物穿着目标服装的高清图片,要求:服装主体完整、无明显遮挡,光线均匀、褶皱细节清晰,人物姿态自然(避免大幅度…[查看更多] -
基于 Draw Things 与 Klein 9B 的 Try-On(穿衣/换衣) 精确操作流程,按执行顺序编号,可直接对照复现:
1. 准备素材
准备两张高清图片:
Image 1:目标人物图(全身或半身,姿态清晰)Image 2:目标服装图(平铺或上身图,背景尽量干净、主体完整)
2. 加载模型与环境
打开 Draw Things,在模型加载区选择 Klein 9B。若需更高贴合稳定性,可额外加载 Try-On LoRA(非必需,原生提示词方案已足够)。3. 导入人物主图
在画布导入(通常标记为 Image 1 或 Base Image)中拖入或选择人物图。…[查看更多] -
随着多模态视觉模型的快速迭代,AI虚拟试穿已从实验室演示走向日常创作。在跨平台工具Draw Things中,搭载FLUX架构的Klein 9B/Qwen image Edit模型凭借出色的语义解析与局部编辑能力,为个人创作者与小型团队提供了一套低门槛、高精度的Try-On/Try-Off解决方案。本文将系统梳理该工作流的核心逻辑、参数策略与实战技…[查看更多]
-
Qwen image Edit 2511
Qwen Image Edit 2511 是专业级智能图像编辑模型,聚焦”精准理解、可控修改、高效迭代”三大核心能力。模型基于多模态对齐的扩散-Transformer 混合架构,支持自然语言指令驱动的局部重绘、对象替换、风格迁移、背景移除与光影重构,可精准识别用户意图中的空间关系与语义层级,实现像素级编辑精度。
https://www.newvfx.co…[查看更多] -
Flux2-klein-9B
FLUX.2 [klein] 9B 是由 Black Forest Labs 推出的旗舰级轻量化文生图模型,专为实时图像生成与编辑场景打造。模型基于 90 亿参数的整流流(Rectified Flow)Transformer 架构,集成 8B Qwen3 文本编码器实现精准语义理解,并通过步骤蒸馏技术将推理压缩至仅需 4 步,达成亚秒级端到端生成速度 。
在核心能力上,FLUX.2 [klein] 9B 统一了文生图、单图编辑与多图参考融合三大任务,支持复杂提示词解析、多主体空间关系控制及高保真细节还原。相比前代及同尺寸模型,其在光影渲染、文字生成准确性与提示词遵循度方面表现更优,同时保持对消费级硬件的友好性(约 29GB 显存,RTX…[查看更多]
-
Z Image Turbo
一款面向高效视觉创作场景的新一代 AI 图像生成模型。正如其名,“Turbo”代表了其在推理速度与响应…[查看更多]
- 查看更多








