在M芯片上使用lm studio和ollama的感受记录

#128139

追光
参与者

在Mac M1pro上使用lm studio和ollama的感受

1、效率与速度
LM Studio使用GGUF模型比Ollama反应速度更快20%,如果在LM Studio中使用苹果M芯片框架的MLX比GGUF还要快30%,在效率和配置效率方面LM Studio更高效。

拿DeepSeek R1:14B执行相同的任务来说
在Ollama上达到,9.34 tokens/s,在LM Studio使用GGUF:13.4 tokens/s,而MLX可以达到18.43 tokens/秒。

此外,LM Studio的内存占用也比Ollama低,尤其是在处理大规模数据时,LM Studio的内存占用会更少,这使得它在处理大规模数据时更加高效。

2、配置与api远程调用扩展方面

Ollama的生态非常成熟,比如通过FRPS内网映射到外网在WordPress等网站、应用中调用,Ollama配套的组件丰富,很容易就可以实现对接。

如果想要将部署好的模型从内网发布到公网,可以参照我以前写过的文章,也都是我自己部署的记录

Linux上部署Frps与Mac上Frpc的配置方案详细记录

LM Studio的API接口和Open AI的完全一样,也可以直接修改API.openai.com/v1等接口为自己的IP/域名实现远程API对接,需要自己动手。我将LM Studio对接到Ai Engine这个组件上,几乎是重写了整个接口才得以实现。而Ollama有已经开发过的组建,(当然需要付费)。

此外,LM Studio也支持多种API接口的扩展,包括但不限于Open AI、Google Cloud AI Platform等,这使得它可以与更多的第三方服务集成。

3、大小模型混合并行计算输出

LM Studio提供了草稿模型(Speculative Decoding)选择,包括但不限于GGUF、MLX等,这使得用户可以根据自己的需求选择合适的小模型。同时进行并行计算输出,大幅度提高运行效率。

将大模型与小模型配对。草案模型应该比主模型小得多,并且来自同一个家族。例如,您可以使用Llama 3.2 1B作为Llama 3.1 8B的草稿模型。

运行原理:草案模型会首先运行,快速预测接下来的几个tokens是“草稿”。紧接着,草稿模型生成的令牌要么被主模型确认,要么被拒绝,然后和主模型共同解决问题。

大小模型运行监测:还可以打开已处理的草稿生成的Tokens和主模型的显示,这样能显示当前的回复中哪些是从草稿模型生成,哪些是从主模型生成的。绿色越多越好。

大小模型局域网调用支持:还可以通过LM Studio的本地服务器使用Speculative Decoding,可以得到丰富的生成统计数据。


总而言之,LM StudioOllama都有其优点和缺点。需要根据自己的需求选择合适的工具,当然如果硬件是M芯片的,首选MLX,要让计算速度快一点,硬件投入是巨大的。