在M芯片上使用lm studio和ollama的感受记录
› VFX大学 › VFX Pipeline | 数字创意工作流 › 使用Ollama和LM Studio部署Qwen\deepseek等开源大模型的流程 › 在M芯片上使用lm studio和ollama的感受记录

追光
在Mac M1pro上使用lm studio和ollama的感受
1、效率与速度
LM Studio使用GGUF模型比Ollama反应速度更快20%,如果在LM Studio中使用苹果M芯片框架的MLX比GGUF还要快30%,在效率和配置效率方面LM Studio更高效。
拿DeepSeek R1:14B执行相同的任务来说
在Ollama上达到,9.34 tokens/s,在LM Studio使用GGUF:13.4 tokens/s,而MLX可以达到18.43 tokens/秒。
此外,LM Studio的内存占用也比Ollama低,尤其是在处理大规模数据时,LM Studio的内存占用会更少,这使得它在处理大规模数据时更加高效。
2、配置与api远程调用扩展方面
Ollama的生态非常成熟,比如通过FRPS内网映射到外网在WordPress等网站、应用中调用,Ollama配套的组件丰富,很容易就可以实现对接。
如果想要将部署好的模型从内网发布到公网,可以参照我以前写过的文章,也都是我自己部署的记录:
LM Studio的API接口和Open AI的完全一样,也可以直接修改API.openai.com/v1等接口为自己的IP/域名实现远程API对接,需要自己动手。我将LM Studio对接到Ai Engine这个组件上,几乎是重写了整个接口才得以实现。而Ollama有已经开发过的组建,(当然需要付费)。
此外,LM Studio也支持多种API接口的扩展,包括但不限于Open AI、Google Cloud AI Platform等,这使得它可以与更多的第三方服务集成。
3、大小模型混合并行计算输出
LM Studio提供了草稿模型(Speculative Decoding)选择,包括但不限于GGUF、MLX等,这使得用户可以根据自己的需求选择合适的小模型。同时进行并行计算输出,大幅度提高运行效率。
将大模型与小模型配对。草案模型应该比主模型小得多,并且来自同一个家族。例如,您可以使用Llama 3.2 1B作为Llama 3.1 8B的草稿模型。
运行原理:草案模型会首先运行,快速预测接下来的几个tokens是“草稿”。紧接着,草稿模型生成的令牌要么被主模型确认,要么被拒绝,然后和主模型共同解决问题。
大小模型运行监测:还可以打开已处理的草稿生成的Tokens和主模型的显示,这样能显示当前的回复中哪些是从草稿模型生成,哪些是从主模型生成的。绿色越多越好。
大小模型局域网调用支持:还可以通过LM Studio的本地服务器使用Speculative Decoding,可以得到丰富的生成统计数据。
总而言之,LM Studio和Ollama都有其优点和缺点。需要根据自己的需求选择合适的工具,当然如果硬件是M芯片的,首选MLX,要让计算速度快一点,硬件投入是巨大的。