M芯片环境对各产商大模型在生产环境中的实测结果
› VFX大学 › VFX Pipeline | 数字创意工作流 › 使用Ollama和LM Studio部署Qwen\deepseek等开源大模型的流程 › M芯片环境对各产商大模型在生产环境中的实测结果

追光
各产商的大模型部署并在工作中投入生产使用的大模型选择
这里的测试方面的数据为硬件平台直接输出,而感受与总结方面尽可能做到客观,但难免会有主观之处:
1、除了deepseek开源,还有其他开源大模型么
deepseek是公开发布并可以下载的模型,开源对我们来说是非常有益的事情,同时我们也应关注更多的开源产商LLaMA、Qwen、Mistral,google的开源模型群,微软的、ibm等,每个产商的模型都是成千上万技术人员的劳动成果,通过各种算法集合了人类的智慧,也就决定了不同的大模型具备的核心能力也有所区别,作用用户我们要打开视野,多使用不同的模型,从计算成本、计算效率、结果的可靠性三个方面来选择最适合我们工作流的模型。
未完待进一步补充~~
经过若干测试,对工作非常有用且效率非常高的模型,M1 pro 16GB即可流畅运行:
1、claude-3-5-sonnet-20241022-GGUF:Claude 3.5 Sonnet 在自然语言理解(NLU)和生成(NLG)方面表现出色,能够处理复杂问题、生成高质量文本,并支持多语言。当然众所周知,Claude在代码编写方面的巨大潜力,使用它来进行代码写作是非常好的选择。在M芯片上有着出色的性能表现。
16.43 tok/sec•990 tokens•14.87s to first token•Stop reason: User Stopped
2、Qwen2.5-14B-Instruct-4bit:支持苹果的MLX框架,专为 Apple Silicon优化。 是阿里巴巴通义千问系列中的一个优化版本,专为高效推理和低资源消耗设计。它基于 Qwen2.5-14B 模型,经过量化处理(4-bit 量化),在保持高性能的同时显著降低了硬件需求,适合在资源受限的环境中部署。
17.27 tok/sec • 488 tokens•29.33s to first token•Stop reason: EOS Token Found
3、Mistral-Nemo-Instruct-2407-4bit:支持苹果的MLX框架,专为 Apple Silicon优化。是由 Mistral AI 开发的一系列先进语言模型中的一个优化版本,专注于高效推理和低资源消耗。该模型基于 Mistral 的基础架构,并通过量化技术(4-bit 量化)进行了优化,使其能够在资源受限的环境中运行,同时保持高性能。
24.77 tok/sec•231 tokens•1.27s to first token•Stop reason: EOS Token Found
4、Meta-Llama-3.1-8B-Instruct-4bit:支持苹果的MLX框架,专为 Apple Silicon优化。是由 Meta 开发的 Llama 系列语言模型中的一个优化版本,专注于高效推理和低资源消耗。该模型基于 Llama 3.1 架构,经过指令微调(Instruct-tuning)优化,并通过 4-bit 量化技术进一步压缩,使其能够在资源受限的环境中运行,同时保持较高的性能。
36.08 tok/sec•949 tokens•0.51s to first token•Stop reason: User Stopped
5、Llama-3.2-11B-Vision-Instruct-4bit:支持苹果的MLX框架,专为 Apple Silicon优化。是由 Meta 开发的多模态语言模型,基于 Llama 系列的最新版本(Llama 3.2),专注于高效推理和低资源消耗。该模型结合了文本理解和视觉处理能力,能够处理图像和文本的多模态任务。通过 4-bit 量化技术优化,它能够在资源受限的环境中运行,同时保持较高的性能。在M1pro芯片上运行效率很慢,但是对图片的理解能力很强,适合分析图片,虽然速度慢,但也能满足一般需求。
6、Phi-4:是由 Microsoft Research 开发的一系列小型语言模型(Small Language Models, SLMs)中的最新版本。Phi 系列模型专注于在较小的参数规模下实现高性能,特别适合资源受限的环境和特定任务优化。Phi-4 在继承前代模型优势的基础上,进一步提升了性能、效率和适用性。
7、Gemma-2-9B-IT-4bit:支持苹果的MLX框架,专为 Apple Silicon优化。是由 Google 开发的一系列紧凑型语言模型中的优化版本,专注于高效推理和低资源消耗。该模型基于 Gemma 2 架构,经过指令微调(Instruction Tuning, IT)优化,并通过 4-bit 量化技术进一步压缩,使其能够在资源受限的环境中运行,同时保持较高的性能。
28.55 tok/sec•88 tokens•1.09s to first token•Stop reason: EOS Token Found