在M芯片上使用lm studio和ollama的感受记录

2025-03-04 - 15:11 #128139

追光

参与者

在Mac M1pro上使用lm studio和ollama的感受

1、效率与速度
LM Studio使用GGUF模型比Ollama反应速度更快20%，如果在LM Studio中使用苹果M芯片框架的MLX比GGUF还要快30%，在效率和配置效率方面LM Studio更高效。

拿DeepSeek R1:14B执行相同的任务来说
在Ollama上达到，9.34 tokens/s，在LM Studio使用GGUF：13.4 tokens/s，而MLX可以达到18.43 tokens/秒。

此外，LM Studio的内存占用也比Ollama低，尤其是在处理大规模数据时，LM Studio的内存占用会更少，这使得它在处理大规模数据时更加高效。

2、配置与api远程调用扩展方面

Ollama的生态非常成熟，比如通过FRPS内网映射到外网在WordPress等网站、应用中调用，Ollama配套的组件丰富，很容易就可以实现对接。

如果想要将部署好的模型从内网发布到公网，可以参照我以前写过的文章，也都是我自己部署的记录：

Linux上部署Frps与Mac上Frpc的配置方案详细记录

LM Studio的API接口和Open AI的完全一样，也可以直接修改API.openai.com/v1等接口为自己的IP/域名实现远程API对接，需要自己动手。我将LM Studio对接到Ai Engine这个组件上，几乎是重写了整个接口才得以实现。而Ollama有已经开发过的组建，（当然需要付费）。

此外，LM Studio也支持多种API接口的扩展，包括但不限于Open AI、Google Cloud AI Platform等，这使得它可以与更多的第三方服务集成。

3、大小模型混合并行计算输出

LM Studio提供了草稿模型（Speculative Decoding）选择，包括但不限于GGUF、MLX等，这使得用户可以根据自己的需求选择合适的小模型。同时进行并行计算输出，大幅度提高运行效率。

将大模型与小模型配对。草案模型应该比主模型小得多，并且来自同一个家族。例如，您可以使用Llama 3.2 1B作为Llama 3.1 8B的草稿模型。

运行原理：草案模型会首先运行，快速预测接下来的几个tokens是“草稿”。紧接着，草稿模型生成的令牌要么被主模型确认，要么被拒绝，然后和主模型共同解决问题。

大小模型运行监测：还可以打开已处理的草稿生成的Tokens和主模型的显示，这样能显示当前的回复中哪些是从草稿模型生成，哪些是从主模型生成的。绿色越多越好。

大小模型局域网调用支持：还可以通过LM Studio的本地服务器使用Speculative Decoding，可以得到丰富的生成统计数据。

总而言之，LM Studio和Ollama都有其优点和缺点。需要根据自己的需求选择合适的工具，当然如果硬件是M芯片的，首选MLX，要让计算速度快一点，硬件投入是巨大的。