Hermes Agent系统配置、运维与lm Studio与omlx共同作为后端
› 社区话题 › 📺 VFX Pipeline | 数字创意工作流 › Hermes Agent系统配置、运维与lm Studio与omlx共同作为后端
- 作者帖子
- 2026-05-20 - 18:31 #132130

追光参与者为了实现本地大模型后端的高可用性以及无缝功能切换,避免在更换推理后端(LM Studio 与 omlx/llama.cpp)时频繁手动修改环境配置,决定引入 Hermes Agent 架构中的 fallback_providers (自动故障转移)与多后端共存路由机制。
拓扑双通道设计:
主通道 (Primary): 监听 55888 端口,挂载 LM Studio(接管具备极高推理速度与多模态视觉能力的 Qwen3.5-9B-MLX-4bit 模型)。备通道 (Fallback): 监听 55889 端口,挂载 omlx / llama.cpp(接管刷榜跑分专用、但在硬核数字与长文本场景易智商下降的纯文本/低精度版 Qwen3.5-9B-mlx-lm-mxfp4 模型)。
双后端完美共存配置方法
在本地实现双后端平滑切换的核心在于两点:物理端口解耦 与 符合 2026 最新规范的 YAML 语法结构。通过将
两套推理引擎映射到独立的本地端口,配合规整的 Fallback 级联参数,可真正达到“免修改配置、按需单开、自
动无缝路由”的极致体验。第一步:推理后端软件的端口与模型命名规范
在启动推理后端时,必须确保两套服务的端口互相隔离,且模型名称能够与配置文件精确匹配:
LM Studio 端设置: 将服务端监听端口修改为 55888 。在模型加载面板中,将当前加载的多模态模型别名
(Identifier)自定义重命名为 Qwen3.5-9B-MLX-4bit 。
omlx / llama.cpp 端设置: 将服务端监听端口修改为 55889 。若使用命令行启动,请附加参数锁定上下文
及端口。第二步:编辑 Hermes 生产环境配置文件
请使用命令 hermes config edit 打开或直接编辑 ~/.hermes/config.yaml 配置文件。经官方规范核对,
已修正早期语法中 default 字段与自定义 provider 命名导致的阻断性异常。请精确修改为以下标准格式:# ===================================================================== # Hermes Agent 核心模型配置文件 # 支持 LM Studio (主通道) 与 omlx/llama.cpp (备用通道) 自动故障转移 # ===================================================================== model: provider: lmstudio default: Qwen3.5-9B-MLX-4bit base_url: [http://127.0.0.1:55888/v1](http://127.0.0.1:55888/v1) api_key: sk-lm-upexmPi8:J03AmWpMiFEC1PSXGk46 fallback_providers: * provider: custom # 👈 必须用 custom,不可写自定义的 omlx model: Qwen3.5-9B-mlx-lm-mxfp4 # 👈 备用项中定义模型名字的键名必须为 model,绝不能写 default base_url: [http://127.0.0.1:55889/v1]() api_key: sk-lm-upexmPi8:J03AmWpMiFEC1PSXGk46场景路由与最佳调用策略
基于上述 Benchmark 评测结果,强烈建议在日常使用中遵循以下 “根据任务选开关” 的物理隔离原则:
视觉与硬核财务分析优先任务: 当需要 Agent 执行多模态看图、像素级推理或处理硬核复杂的 Markdown 财务明细账单时,仅启动 LM Studio(保持 55888 存活)。此时能彻底激活模型的“完整理工科学霸智商”,保障数字精度与逻辑闭环。
极致超短文本跑分或日常轻量交互: 仅用于极其简单的短文本对话、测试极限硬件带宽或进行不需要逻辑深度的流水线自动化时,通过 Cmd + Q 彻底退出 LM Studio,仅启动 omlx 端的 mxfp4 跑分模型。此时 Hermes 探测到主通道不可用,将在 1ms 内自动路由至 55889 备用通道,以极限轻量化的姿态刷榜运行。
- 2026-05-21 - 12:47 #132150

追光参与者测试本地部署的模型api是否支持视觉能力的方法
本方法利用 macOS 终端的 curl 工具,直接向本地运行的 API 接口发送一个符合 OpenAI 规范的标准多模态请求。
命令的核心亮点在于使用 Bash 动态管道符 $(base64 -i ‘图片路径’ | tr -d ‘\n’)。它会在发送请求的瞬间,自动将你 Mac 本地的物理图片转换成标准的 Base64 编码字符串 嵌入到 JSON 数据中,免去了手动格式化转换的繁琐步骤。
结果判定与排查指南
运行该命令后,通过返回的 JSON 响应可瞬间判定后端的真实能力:测试通过(支持视觉): 接口成功返回 200 OK,并在 content 中输出了对该图片的结构化文本描述。
测试失败(不支持视觉):
若返回 400 BadRequest 或包含 Invalid type: image_url、Vision model is required 等错误切片,证明该后端(如某些低精度的 mxfp4 跑分版)没有挂载多模态视觉对齐层,仅能处理纯文本。
若提示 Invalid API key,则需检查 -H “Authorization: Bearer 666888” 中的密钥是否与后端面板配置一致。
cat << EOF | curl http://127.0.0.1:55889/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer 666888" \ -d @- { "model": "Qwen3.5-9B-MLX-4bit", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "请分析这张图片里的人像特征。" }, { "type": "image_url", "image_url": { "url": "data:image/png;base64,$(base64 -i '/Users/xbaby/Sites/AIwork/images/Screenshot 2026-05-04 at 13.16.19_Closeup.png' | tr -d '\n')" } } ] } ] } EOF密钥不对的报错,当然测试前也可以关闭大模型后端的api密钥,LM studio和Omlx均支持关闭。
{"error":{"message":"Invalid API key","type":"authentication_error","param":null,"code":null}}% - 2026-05-21 - 14:28 #132157

追光参与者1. oMLX 后端:追求极限带宽与原生调度的“短跑怪兽”
oMLX 强依赖于 Apple 团队开源的 MLX 框架。它绕过了传统跨平台框架的转换损耗,直接在系统底层实现统一内存架构(UMA)的高效并行。选型 A:Qwen3.5-9B-mlx-lm-mxfp4(微缩块浮点 4位量化版)
体积: 约 4.45 GB。
特点: 官方测试与跑分的“御用模特”。它采用了最前沿的 mxfp4 压缩技术,将模型分成共享缩放因子的微块,能瞬间将 M 芯片的物理带宽和硬件吞吐量塞满。
选型 B:Qwen3.5-9B-MLX-4bit(多模态/标准 4位量化版)
体积: 约 5.93 GB。
特点: 保留了完整的长文本处理逻辑与多模态视觉对齐层。
2. LM Studio 后端:兼容性无敌的“全能六边形战士”
LM Studio 底层基于大名鼎鼎的 llama.cpp,虽然在 Apple Silicon 上的原生极致压榨上略逊于 MLX,但其对模型生态的兼容性和内存回收控制极其稳健。选型:Qwen3.5-9B(标准 GGUF 格式)
特点: 业界最成熟的量化格式。对长文本的注意力机制(Attention)支持非常规范,且对多模态视觉(Vision)任务的图文对齐层有极其稳健的底层驱动支持。
这里推荐的模型都是在M1 pro笔记本,16GB内存的设备上测试,不管是直接对话,还是作为Hermes Agent后端,都有不俗的表现,在文档、资料整理、电脑Terminal操作、图像识别、代码写作上均可胜任。
- 作者帖子
- 在下方一键注册,登录后就可以回复啦。
