AI 基础 | | 约 17 分钟 | 6,552 字

开源大模型指南:Llama、Mistral、Qwen

主流开源模型的对比、部署方式和适用场景

为什么开源模型重要

闭源 API 很方便,但有几个绕不开的问题:

  1. 数据隐私:你的数据必须发送到第三方服务器
  2. 成本不可控:用量增长时成本线性增长
  3. 供应商锁定:API 变更、涨价、停服都不在你的控制范围
  4. 定制受限:无法微调模型以适应特定领域

开源模型解决了这些问题——你可以在自己的服务器上运行,完全控制数据流向,还可以根据需要微调。

闭源模型:租房子 → 方便但受限
开源模型:买房子 → 前期投入大但自由度高

主流开源模型一览

Llama 系列(Meta)

Meta 的 Llama 是目前最有影响力的开源模型系列。

版本参数量上下文特点
Llama 27B/13B/70B4K开源先驱
Llama 38B/70B8K性能大幅提升
Llama 3.18B/70B/405B128K长上下文,405B 接近 GPT-4
Llama 3.21B/3B/11B/90B128K多模态,小模型
Llama 3.370B128K性能优化
Llama 4Scout/Maverick10M (Scout)MoE 架构,超长上下文

Llama 的优势:

  • 社区生态最完善,工具链最成熟
  • 许可证相对宽松(Llama 3 Community License)
  • 各种微调版本丰富(CodeLlama、Llama-Guard 等)
# 使用 Ollama 快速体验 Llama
ollama pull llama3.1
ollama run llama3.1 "用 Python 写一个快速排序"

Mistral / Mixtral(Mistral AI)

法国公司 Mistral AI 以小而精的模型著称。

模型参数量架构特点
Mistral 7B7BDense7B 级别的标杆
Mixtral 8x7B46.7B (活跃 12.9B)MoE性价比极高
Mixtral 8x22B176B (活跃 39B)MoE接近 GPT-4 水平
Mistral Large123BDense旗舰模型
Mistral Small22BDense平衡之选
Codestral22BDense代码专精

MoE(Mixture of Experts)架构的优势:

传统 Dense 模型:每次推理激活所有参数
  70B 参数 → 每次都用 70B → 慢且贵

MoE 模型:每次只激活部分专家
  Mixtral 8x7B → 总参数 46.7B,每次只激活 12.9B → 快且省
  效果接近 70B Dense 模型,推理成本接近 13B 模型

Qwen 系列(阿里巴巴)

Qwen(通义千问)是目前中文能力最强的开源模型之一。

模型参数量特点
Qwen2.50.5B/1.5B/3B/7B/14B/32B/72B全尺寸覆盖
Qwen2.5-Coder1.5B/7B/14B/32B代码专精
Qwen2.5-Math1.5B/7B/72B数学推理
QwQ32B推理模型(类似 o1)

Qwen 的优势:

  • 中文能力出色,中英双语表现均衡
  • 模型尺寸覆盖全面,从 0.5B 到 72B
  • 专业领域模型丰富(代码、数学)
  • 许可证友好(Apache 2.0)

DeepSeek 系列

DeepSeek 以极高的性价比和创新架构引起关注。

模型参数量特点
DeepSeek-V3671B (活跃 37B)MoE,性能接近 GPT-4o
DeepSeek-R1671B (活跃 37B)推理模型,对标 o1
DeepSeek-Coder-V2236B (活跃 21B)代码专精

DeepSeek 的创新点:

  • Multi-head Latent Attention(MLA):降低推理时的 KV Cache 开销
  • DeepSeekMoE:更细粒度的专家路由
  • 训练成本极低(V3 仅用约 $5.5M 训练)

模型对比

综合能力对比

能力Llama 3.1 70BMixtral 8x22BQwen2.5 72BDeepSeek-V3
英文理解优秀优秀优秀优秀
中文理解良好良好优秀优秀
代码生成优秀良好优秀优秀
数学推理良好良好优秀优秀
长上下文128K64K128K128K
推理速度中等中等快(MoE)

许可证对比

模型许可证商用限制
Llama 3Llama 3 Community月活超 7 亿需申请
MistralApache 2.0
Qwen2.5Apache 2.0
DeepSeekMIT

部署方式

1. Ollama:最简单的本地部署

Ollama 是本地运行开源模型最简单的方式,一行命令即可启动。

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 下载并运行模型
ollama pull qwen2.5:7b
ollama run qwen2.5:7b

# 也可以通过 API 调用
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "用 Python 实现二分查找",
  "stream": false
}'

Ollama 支持的模型:

# 查看可用模型
ollama list

# 常用模型
ollama pull llama3.1        # Llama 3.1 8B
ollama pull llama3.1:70b    # Llama 3.1 70B
ollama pull mistral         # Mistral 7B
ollama pull mixtral         # Mixtral 8x7B
ollama pull qwen2.5:14b    # Qwen 2.5 14B
ollama pull deepseek-r1:7b  # DeepSeek R1 7B 蒸馏版
ollama pull codestral       # Codestral 22B

2. vLLM:高性能推理服务

vLLM 是目前最流行的高性能 LLM 推理引擎,适合生产环境。

# 安装 vLLM
pip install vllm

# 启动 API 服务(兼容 OpenAI API 格式)
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-7B-Instruct \
    --port 8000 \
    --tensor-parallel-size 1
# 使用 OpenAI SDK 调用 vLLM 服务
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-needed"  # 本地服务不需要 API key
)

response = client.chat.completions.create(
    model="Qwen/Qwen2.5-7B-Instruct",
    messages=[{"role": "user", "content": "解释什么是 Docker"}],
)
print(response.choices[0].message.content)

vLLM 的核心优势:

  • PagedAttention:高效的 KV Cache 管理
  • Continuous Batching:动态批处理,提高吞吐量
  • 兼容 OpenAI API 格式:无缝切换

3. HuggingFace Transformers:最灵活的方式

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "Qwen/Qwen2.5-7B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",  # 自动分配到可用 GPU
)

messages = [
    {"role": "system", "content": "你是一个有帮助的助手。"},
    {"role": "user", "content": "什么是 Transformer 架构?"}
]

text = tokenizer.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
inputs = tokenizer([text], return_tensors="pt").to(model.device)

outputs = model.generate(**inputs, max_new_tokens=512)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

4. llama.cpp:CPU 推理

对于没有 GPU 的环境,llama.cpp 提供了高效的 CPU 推理:

# 使用 GGUF 量化模型
# 量化可以大幅减少模型大小和内存需求

# Q4_K_M 量化:模型大小约为原始的 25%,质量损失很小
# Q8_0 量化:模型大小约为原始的 50%,几乎无质量损失

硬件需求

GPU 显存需求估算

模型参数量 × 每参数字节数 = 显存需求

FP16 (2 bytes/param):
  7B  → ~14 GB
  13B → ~26 GB
  70B → ~140 GB

INT8 量化 (1 byte/param):
  7B  → ~7 GB
  13B → ~13 GB
  70B → ~70 GB

INT4 量化 (0.5 bytes/param):
  7B  → ~3.5 GB
  13B → ~6.5 GB
  70B → ~35 GB

推荐硬件配置

模型大小最低配置推荐配置适合场景
1-3B8GB RAM (CPU)任意 GPU边缘设备、手机
7BRTX 3060 12GBRTX 4070 12GB个人开发、测试
13-14BRTX 3090 24GBRTX 4090 24GB小团队生产
32-34B2x RTX 4090A100 40GB中等规模生产
70B2x A100 80GB4x A100 80GB大规模生产
405B+8x A100 80GB8x H100 80GB企业级部署

量化的权衡

量化方式大小质量速度适用场景
FP16100%最佳基准有充足 GPU
INT850%接近原始更快GPU 显存有限
INT4 (GPTQ)25%轻微下降最快消费级 GPU
GGUF Q4_K_M~25%轻微下降CPU 友好无 GPU 环境

如何选择开源模型

决策框架

你的主要语言是什么?
├── 中文为主 → Qwen2.5 或 DeepSeek
├── 英文为主 → Llama 3.1 或 Mistral
└── 多语言 → Qwen2.5 或 Llama 3.1

你的硬件条件?
├── 消费级 GPU (12-24GB) → 7B-14B 模型
├── 专业 GPU (40-80GB) → 32B-70B 模型
└── 只有 CPU → 量化后的 7B 模型

你的任务类型?
├── 代码生成 → Qwen2.5-Coder / Codestral / DeepSeek-Coder
├── 数学推理 → Qwen2.5-Math / DeepSeek-R1
├── 通用对话 → Llama 3.1 / Qwen2.5
└── 高性能推理 → DeepSeek-R1 / QwQ

总结

开源模型生态在 2025-2026 年已经非常成熟:

  • Llama 系列拥有最完善的社区生态
  • Mistral/Mixtral 的 MoE 架构提供了出色的性价比
  • Qwen 系列在中文场景表现最佳
  • DeepSeek 以创新架构和极低训练成本引领潮流
  • 部署工具(Ollama、vLLM)让本地运行变得简单

开源不只是免费,更是自由。当你掌握了自己的模型,你就掌握了自己的 AI 未来。

评论

加载中...

相关文章

分享:

评论

加载中...