Hermes Agent系统配置、运维与lm Studio与omlx共同作为后端

标签： AI, Ai创作

该话题包含 2 个回复、1 个参与人，并且最后由追光于 2周， 6 天前更新。

正在查看 2 条回复

作者
帖子
- 2026-05-20 - 18:31 #132130
  追光
  参与者
  为了实现本地大模型后端的高可用性以及无缝功能切换,避免在更换推理后端(LM Studio 与 omlx/llama.cpp)时频繁手动修改环境配置,决定引入 Hermes Agent 架构中的 fallback_providers (自动故障转移)与多后端共存路由机制。
  拓扑双通道设计:
  主通道 (Primary): 监听 55888 端口,挂载 LM Studio(接管具备极高推理速度与多模态视觉能力的 Qwen3.5-9B-MLX-4bit 模型)。
  备通道 (Fallback): 监听 55889 端口,挂载 omlx / llama.cpp(接管刷榜跑分专用、但在硬核数字与长文本场景易智商下降的纯文本/低精度版 Qwen3.5-9B-mlx-lm-mxfp4 模型)。
  使用Ollama和LM Studio部署Qwendeepseek等开源大模型的流程
  双后端完美共存配置方法
  在本地实现双后端平滑切换的核心在于两点:物理端口解耦与符合 2026 最新规范的 YAML 语法结构。通过将
  两套推理引擎映射到独立的本地端口,配合规整的 Fallback 级联参数,可真正达到“免修改配置、按需单开、自
  动无缝路由”的极致体验。
  第一步:推理后端软件的端口与模型命名规范
  在启动推理后端时,必须确保两套服务的端口互相隔离,且模型名称能够与配置文件精确匹配:
  LM Studio 端设置: 将服务端监听端口修改为 55888 。在模型加载面板中,将当前加载的多模态模型别名
  (Identifier)自定义重命名为 Qwen3.5-9B-MLX-4bit 。
  omlx / llama.cpp 端设置: 将服务端监听端口修改为 55889 。若使用命令行启动,请附加参数锁定上下文
  及端口。
  第二步:编辑 Hermes 生产环境配置文件
  请使用命令 hermes config edit 打开或直接编辑 ~/.hermes/config.yaml 配置文件。经官方规范核对,
  已修正早期语法中 default 字段与自定义 provider 命名导致的阻断性异常。请精确修改为以下标准格式:
```
# =====================================================================

# Hermes Agent 核心模型配置文件

# 支持 LM Studio (主通道) 与 omlx/llama.cpp (备用通道) 自动故障转移

# =====================================================================

model:
provider: lmstudio
default: Qwen3.5-9B-MLX-4bit
base_url: [http://127.0.0.1:55888/v1](http://127.0.0.1:55888/v1)
api_key: sk-lm-upexmPi8:J03AmWpMiFEC1PSXGk46

fallback_providers:

* provider: custom # 👈 必须用 custom，不可写自定义的 omlx
model: Qwen3.5-9B-mlx-lm-mxfp4 # 👈 备用项中定义模型名字的键名必须为 model，绝不能写 default
base_url: [http://127.0.0.1:55889/v1]()
api_key: sk-lm-upexmPi8:J03AmWpMiFEC1PSXGk46
```
  场景路由与最佳调用策略
  基于上述 Benchmark 评测结果，强烈建议在日常使用中遵循以下 “根据任务选开关” 的物理隔离原则：
  视觉与硬核财务分析优先任务：当需要 Agent 执行多模态看图、像素级推理或处理硬核复杂的 Markdown 财务明细账单时，仅启动 LM Studio（保持 55888 存活）。此时能彻底激活模型的“完整理工科学霸智商”，保障数字精度与逻辑闭环。
  极致超短文本跑分或日常轻量交互：仅用于极其简单的短文本对话、测试极限硬件带宽或进行不需要逻辑深度的流水线自动化时，通过 Cmd + Q 彻底退出 LM Studio，仅启动 omlx 端的 mxfp4 跑分模型。此时 Hermes 探测到主通道不可用，将在 1ms 内自动路由至 55889 备用通道，以极限轻量化的姿态刷榜运行。
- 2026-05-21 - 12:47 #132150
  追光
  参与者
  测试本地部署的模型api是否支持视觉能力的方法
  本方法利用 macOS 终端的 curl 工具，直接向本地运行的 API 接口发送一个符合 OpenAI 规范的标准多模态请求。
  命令的核心亮点在于使用 Bash 动态管道符 $(base64 -i ‘图片路径’ | tr -d ‘\n’)。它会在发送请求的瞬间，自动将你 Mac 本地的物理图片转换成标准的 Base64 编码字符串嵌入到 JSON 数据中，免去了手动格式化转换的繁琐步骤。
  结果判定与排查指南
  运行该命令后，通过返回的 JSON 响应可瞬间判定后端的真实能力：
  测试通过（支持视觉）：接口成功返回 200 OK，并在 content 中输出了对该图片的结构化文本描述。
  测试失败（不支持视觉）：
  若返回 400 BadRequest 或包含 Invalid type: image_url、Vision model is required 等错误切片，证明该后端（如某些低精度的 mxfp4 跑分版）没有挂载多模态视觉对齐层，仅能处理纯文本。
  若提示 Invalid API key，则需检查 -H “Authorization: Bearer 666888” 中的密钥是否与后端面板配置一致。
```
cat << EOF | curl http://127.0.0.1:55889/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer 666888" \
  -d @-
{
  "model": "Qwen3.5-9B-MLX-4bit",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "请分析这张图片里的人像特征。"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "data:image/png;base64,$(base64 -i '/Users/xbaby/Sites/AIwork/images/Screenshot 2026-05-04 at 13.16.19_Closeup.png' | tr -d '\n')"
          }
        }
      ]
    }
  ]
}
EOF
```
  密钥不对的报错，当然测试前也可以关闭大模型后端的api密钥，LM studio和Omlx均支持关闭。
```
{"error":{"message":"Invalid API key","type":"authentication_error","param":null,"code":null}}%  
```
- 2026-05-21 - 14:28 #132157
  
  追光
  参与者
  1. oMLX 后端：追求极限带宽与原生调度的“短跑怪兽”
  oMLX 强依赖于 Apple 团队开源的 MLX 框架。它绕过了传统跨平台框架的转换损耗，直接在系统底层实现统一内存架构（UMA）的高效并行。
  选型 A：Qwen3.5-9B-mlx-lm-mxfp4（微缩块浮点 4位量化版）
  体积：约 4.45 GB。
  特点：官方测试与跑分的“御用模特”。它采用了最前沿的 mxfp4 压缩技术，将模型分成共享缩放因子的微块，能瞬间将 M 芯片的物理带宽和硬件吞吐量塞满。
  选型 B：Qwen3.5-9B-MLX-4bit（多模态/标准 4位量化版）
  体积：约 5.93 GB。
  特点：保留了完整的长文本处理逻辑与多模态视觉对齐层。
  LLM深入大模型本地推理：参数全解析与底层显存运作原理
  2. LM Studio 后端：兼容性无敌的“全能六边形战士”
  LM Studio 底层基于大名鼎鼎的 llama.cpp，虽然在 Apple Silicon 上的原生极致压榨上略逊于 MLX，但其对模型生态的兼容性和内存回收控制极其稳健。
  选型：Qwen3.5-9B（标准 GGUF 格式）
  特点：业界最成熟的量化格式。对长文本的注意力机制（Attention）支持非常规范，且对多模态视觉（Vision）任务的图文对齐层有极其稳健的底层驱动支持。
  这里推荐的模型都是在M1 pro笔记本，16GB内存的设备上测试，不管是直接对话，还是作为Hermes Agent后端，都有不俗的表现，在文档、资料整理、电脑Terminal操作、图像识别、代码写作上均可胜任。
作者
帖子

正在查看 2 条回复

在下方一键注册，登录后就可以回复啦。

下载清单	我的账户
发布话题	会员权益