Hermes Agent系统配置、运维与lm Studio与omlx共同作为后端

社区话题 📺 VFX Pipeline | 数字创意工作流 Hermes Agent系统配置、运维与lm Studio与omlx共同作为后端

标签: ,

正在查看 2 条回复
  • 作者
    帖子
    • #132130

      追光
      参与者

      为了实现本地大模型后端的高可用性以及无缝功能切换,避免在更换推理后端(LM Studio 与 omlx/llama.cpp)时频繁手动修改环境配置,决定引入 Hermes Agent 架构中的 fallback_providers (自动故障转移)与多后端共存路由机制。

      拓扑双通道设计:
      主通道 (Primary): 监听 55888 端口,挂载 LM Studio(接管具备极高推理速度与多模态视觉能力的 Qwen3.5-9B-MLX-4bit 模型)。

      备通道 (Fallback): 监听 55889 端口,挂载 omlx / llama.cpp(接管刷榜跑分专用、但在硬核数字与长文本场景易智商下降的纯文本/低精度版 Qwen3.5-9B-mlx-lm-mxfp4 模型)。

      使用Ollama和LM Studio部署Qwendeepseek等开源大模型的流程

      双后端完美共存配置方法

      在本地实现双后端平滑切换的核心在于两点:物理端口解耦 与 符合 2026 最新规范的 YAML 语法结构。通过将
      两套推理引擎映射到独立的本地端口,配合规整的 Fallback 级联参数,可真正达到“免修改配置、按需单开、自
      动无缝路由”的极致体验。

      第一步:推理后端软件的端口与模型命名规范

      在启动推理后端时,必须确保两套服务的端口互相隔离,且模型名称能够与配置文件精确匹配:

      LM Studio 端设置: 将服务端监听端口修改为 55888 。在模型加载面板中,将当前加载的多模态模型别名
      (Identifier)自定义重命名为 Qwen3.5-9B-MLX-4bit 。
      omlx / llama.cpp 端设置: 将服务端监听端口修改为 55889 。若使用命令行启动,请附加参数锁定上下文
      及端口。

      第二步:编辑 Hermes 生产环境配置文件
      请使用命令 hermes config edit 打开或直接编辑 ~/.hermes/config.yaml 配置文件。经官方规范核对,
      已修正早期语法中 default 字段与自定义 provider 命名导致的阻断性异常。请精确修改为以下标准格式:

      # =====================================================================
      
      # Hermes Agent 核心模型配置文件
      
      # 支持 LM Studio (主通道) 与 omlx/llama.cpp (备用通道) 自动故障转移
      
      # =====================================================================
      
      model:
      provider: lmstudio
      default: Qwen3.5-9B-MLX-4bit
      base_url: [http://127.0.0.1:55888/v1](http://127.0.0.1:55888/v1)
      api_key: sk-lm-upexmPi8:J03AmWpMiFEC1PSXGk46
      
      fallback_providers:
      
      * provider: custom # 👈 必须用 custom,不可写自定义的 omlx
      model: Qwen3.5-9B-mlx-lm-mxfp4 # 👈 备用项中定义模型名字的键名必须为 model,绝不能写 default
      base_url: [http://127.0.0.1:55889/v1]()
      api_key: sk-lm-upexmPi8:J03AmWpMiFEC1PSXGk46
      

      场景路由与最佳调用策略

      基于上述 Benchmark 评测结果,强烈建议在日常使用中遵循以下 “根据任务选开关” 的物理隔离原则:

      视觉与硬核财务分析优先任务: 当需要 Agent 执行多模态看图、像素级推理或处理硬核复杂的 Markdown 财务明细账单时,仅启动 LM Studio(保持 55888 存活)。此时能彻底激活模型的“完整理工科学霸智商”,保障数字精度与逻辑闭环。

      极致超短文本跑分或日常轻量交互: 仅用于极其简单的短文本对话、测试极限硬件带宽或进行不需要逻辑深度的流水线自动化时,通过 Cmd + Q 彻底退出 LM Studio,仅启动 omlx 端的 mxfp4 跑分模型。此时 Hermes 探测到主通道不可用,将在 1ms 内自动路由至 55889 备用通道,以极限轻量化的姿态刷榜运行。

    • #132150

      追光
      参与者

      测试本地部署的模型api是否支持视觉能力的方法

      本方法利用 macOS 终端的 curl 工具,直接向本地运行的 API 接口发送一个符合 OpenAI 规范的标准多模态请求。

      命令的核心亮点在于使用 Bash 动态管道符 $(base64 -i ‘图片路径’ | tr -d ‘\n’)。它会在发送请求的瞬间,自动将你 Mac 本地的物理图片转换成标准的 Base64 编码字符串 嵌入到 JSON 数据中,免去了手动格式化转换的繁琐步骤。


      结果判定与排查指南
      运行该命令后,通过返回的 JSON 响应可瞬间判定后端的真实能力:

      测试通过(支持视觉): 接口成功返回 200 OK,并在 content 中输出了对该图片的结构化文本描述。

      测试失败(不支持视觉)

      若返回 400 BadRequest 或包含 Invalid type: image_url、Vision model is required 等错误切片,证明该后端(如某些低精度的 mxfp4 跑分版)没有挂载多模态视觉对齐层,仅能处理纯文本。

      若提示 Invalid API key,则需检查 -H “Authorization: Bearer 666888” 中的密钥是否与后端面板配置一致。

      cat << EOF | curl http://127.0.0.1:55889/v1/chat/completions \
        -H "Content-Type: application/json" \
        -H "Authorization: Bearer 666888" \
        -d @-
      {
        "model": "Qwen3.5-9B-MLX-4bit",
        "messages": [
          {
            "role": "user",
            "content": [
              {
                "type": "text",
                "text": "请分析这张图片里的人像特征。"
              },
              {
                "type": "image_url",
                "image_url": {
                  "url": "data:image/png;base64,$(base64 -i '/Users/xbaby/Sites/AIwork/images/Screenshot 2026-05-04 at 13.16.19_Closeup.png' | tr -d '\n')"
                }
              }
            ]
          }
        ]
      }
      EOF

      密钥不对的报错,当然测试前也可以关闭大模型后端的api密钥,LM studio和Omlx均支持关闭。

      {"error":{"message":"Invalid API key","type":"authentication_error","param":null,"code":null}}%  
    • #132157

      追光
      参与者

      1. oMLX 后端:追求极限带宽与原生调度的“短跑怪兽”
      oMLX 强依赖于 Apple 团队开源的 MLX 框架。它绕过了传统跨平台框架的转换损耗,直接在系统底层实现统一内存架构(UMA)的高效并行。

      选型 A:Qwen3.5-9B-mlx-lm-mxfp4(微缩块浮点 4位量化版)

      体积: 约 4.45 GB。

      特点: 官方测试与跑分的“御用模特”。它采用了最前沿的 mxfp4 压缩技术,将模型分成共享缩放因子的微块,能瞬间将 M 芯片的物理带宽和硬件吞吐量塞满。

      选型 B:Qwen3.5-9B-MLX-4bit(多模态/标准 4位量化版)

      体积: 约 5.93 GB。

      特点: 保留了完整的长文本处理逻辑与多模态视觉对齐层。

      LLM深入大模型本地推理:参数全解析与底层显存运作原理


      2. LM Studio 后端:兼容性无敌的“全能六边形战士”
      LM Studio 底层基于大名鼎鼎的 llama.cpp,虽然在 Apple Silicon 上的原生极致压榨上略逊于 MLX,但其对模型生态的兼容性和内存回收控制极其稳健。

      选型:Qwen3.5-9B(标准 GGUF 格式)

      特点: 业界最成熟的量化格式。对长文本的注意力机制(Attention)支持非常规范,且对多模态视觉(Vision)任务的图文对齐层有极其稳健的底层驱动支持。

      这里推荐的模型都是在M1 pro笔记本,16GB内存的设备上测试,不管是直接对话,还是作为Hermes Agent后端,都有不俗的表现,在文档、资料整理、电脑Terminal操作、图像识别、代码写作上均可胜任。

正在查看 2 条回复
  • 在下方一键注册,登录后就可以回复啦。