AI 基础 | | 约 20 分钟 | 7,810 字

OpenAI 模型全景:GPT-4o、o1 到 o3

梳理 OpenAI 模型线的演进,理解推理模型 vs 通用模型的区别

OpenAI 模型演进史

OpenAI 的模型发展可以分为几个关键阶段,每个阶段都带来了质的飞跃:

GPT-1 (2018) → 1.17 亿参数,证明了预训练的可行性

GPT-2 (2019) → 15 亿参数,"太危险不敢发布"

GPT-3 (2020) → 1750 亿参数,Few-shot Learning 的突破

GPT-3.5 (2022) → ChatGPT 的基础,引爆 AI 热潮

GPT-4 (2023) → 多模态,推理能力大幅提升

GPT-4o (2024) → 原生多模态,速度更快

o1 (2024) → 推理模型的开端

o3 (2025) → 推理能力的新高度

GPT-4.1 (2025) → 编码和指令遵循优化

当前模型线:两条路线

OpenAI 目前维护两条并行的模型线,面向不同的需求:

GPT 系列:通用模型

GPT 系列是传统的”生成式预训练”模型,擅长广泛的语言任务。

模型输入价格 ($/1M)输出价格 ($/1M)上下文特点
GPT-4o$2.50$10.00128K旗舰通用模型
GPT-4o mini$0.15$0.60128K性价比之王
GPT-4.1$2.00$8.001M编码优化,超长上下文
GPT-4.1 mini$0.40$1.601M4.1 的轻量版
GPT-4.1 nano$0.10$0.401M最快最便宜

o 系列:推理模型

o 系列是 OpenAI 的”推理模型”,通过 Chain-of-Thought 在回答前进行深度思考。

模型输入价格 ($/1M)输出价格 ($/1M)上下文特点
o3$10.00$40.00200K最强推理能力
o3-mini$1.10$4.40200K推理模型的性价比选择
o1$15.00$60.00200K初代推理模型
o1-mini$1.10$4.40128Ko1 的轻量版

通用模型 vs 推理模型:核心区别

这是理解 OpenAI 模型线最重要的概念。

通用模型(GPT-4o)的工作方式

用户提问 → 模型直接生成回答(快速,一步到位)

适合:
- 日常对话
- 内容创作
- 简单的代码生成
- 信息提取和总结

推理模型(o3)的工作方式

用户提问 → 模型先"思考"(生成内部推理链)→ 然后给出回答

思考过程(用户不可见):
"让我分析这个问题..."
"首先考虑条件 A..."
"如果 A 成立,那么..."
"等等,这里有个矛盾..."
"重新考虑..."
"最终结论是..."

适合:
- 数学证明
- 复杂编程
- 逻辑推理
- 科学分析

直观对比

# 同一个问题,两种模型的表现差异

question = "一个水池有两个进水管和一个出水管。进水管 A 单独注满需要 6 小时,进水管 B 单独注满需要 8 小时,出水管单独排空需要 12 小时。三管同时打开,多久注满?"

# GPT-4o:直接回答,可能出错
# "大约 4.8 小时"(可能计算有误)

# o3:先推理,再回答
# 思考过程:
# A 的速率 = 1/6 池/小时
# B 的速率 = 1/8 池/小时
# 出水速率 = 1/12 池/小时
# 净速率 = 1/6 + 1/8 - 1/12 = 4/24 + 3/24 - 2/24 = 5/24
# 时间 = 1 / (5/24) = 24/5 = 4.8 小时
# 回答:"4.8 小时(4 小时 48 分钟)"

什么时候用推理模型

场景推荐理由
数学计算o3需要精确推理
算法设计o3需要多步思考
代码 Debugo3 / o3-mini需要追踪逻辑
日常聊天GPT-4o不需要深度推理
内容写作GPT-4o创造性 > 推理
数据提取GPT-4o mini简单任务
科学分析o3需要严谨推理

GPT-4o 深入解析

GPT-4o 中的 “o” 代表 “omni”(全能),是 OpenAI 的原生多模态模型。

多模态能力

from openai import OpenAI

client = OpenAI()

# 图像理解
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "这张图片里有什么?"},
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://example.com/photo.jpg"
                }
            }
        ]
    }]
)

结构化输出

GPT-4o 支持 JSON Schema 约束的结构化输出:

from pydantic import BaseModel

class MovieReview(BaseModel):
    title: str
    rating: float
    sentiment: str
    key_points: list[str]

response = client.beta.chat.completions.parse(
    model="gpt-4o",
    messages=[{
        "role": "user",
        "content": "分析这条电影评论:'《星际穿越》是诺兰最好的作品,视觉效果震撼,剧情感人。唯一的缺点是有些地方节奏偏慢。'"
    }],
    response_format=MovieReview,
)

review = response.choices[0].message.parsed
print(review.title)      # 星际穿越
print(review.rating)     # 8.5
print(review.sentiment)  # 正面

GPT-4o mini:性价比之王

GPT-4o mini 是目前市场上性价比最高的模型之一:

GPT-4o mini vs GPT-4o:
- 价格:便宜约 94%
- 速度:快约 2-3 倍
- 质量:简单任务差距很小,复杂任务有明显差距

适合大规模部署的场景:

# 批量处理 - GPT-4o mini 的最佳场景
async def batch_classify(texts: list[str]) -> list[str]:
    results = []
    for text in texts:
        response = client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[{
                "role": "system",
                "content": "将文本分类为:正面/负面/中性。只输出分类结果。"
            }, {
                "role": "user",
                "content": text
            }],
            max_tokens=10,
        )
        results.append(response.choices[0].message.content)
    return results

o3 系列深入解析

推理 Token

o3 的一个重要概念是”推理 Token”——模型在思考过程中消耗的 Token,用户看不到但需要付费。

用户输入: 100 tokens
推理过程: 2000 tokens(不可见,但计费)
最终输出: 300 tokens

总消耗: 100 (输入) + 2000 (推理) + 300 (输出) = 2400 tokens

这意味着 o3 的实际成本可能比表面价格高很多:

# o3 的成本估算
def estimate_o3_cost(
    input_tokens: int,
    reasoning_tokens: int,  # 推理 token,通常是输出的 3-10 倍
    output_tokens: int
) -> float:
    input_cost = (input_tokens / 1_000_000) * 10.00
    # 推理 token 按输出价格计费
    reasoning_cost = (reasoning_tokens / 1_000_000) * 40.00
    output_cost = (output_tokens / 1_000_000) * 40.00
    return input_cost + reasoning_cost + output_cost

# 一个复杂数学问题
cost = estimate_o3_cost(
    input_tokens=200,
    reasoning_tokens=5000,  # 推理过程很长
    output_tokens=500
)
print(f"单次调用成本: ${cost:.4f}")
# 约 $0.22 — 比 GPT-4o 贵很多

推理努力(Reasoning Effort)

o3 支持调整推理努力程度:

# 低推理努力 - 快速但可能不够深入
response = client.chat.completions.create(
    model="o3-mini",
    reasoning_effort="low",
    messages=[{"role": "user", "content": "1+1=?"}]
)

# 高推理努力 - 慢但更准确
response = client.chat.completions.create(
    model="o3-mini",
    reasoning_effort="high",
    messages=[{"role": "user", "content": "证明哥德巴赫猜想的弱形式"}]
)
推理努力速度成本适用场景
low简单推理
medium一般推理
high复杂推理

GPT-4.1:编码专精

GPT-4.1 是 OpenAI 在 2025 年推出的编码优化模型,最大的亮点是 1M token 的上下文窗口。

核心优势

1. 超长上下文(1M tokens)
   - 可以一次性读取整个代码库
   - 适合大规模代码分析和重构

2. 编码能力提升
   - 在 SWE-bench 上表现优异
   - 更好的指令遵循能力

3. 三个层级
   - GPT-4.1: 全能版
   - GPT-4.1 mini: 平衡版
   - GPT-4.1 nano: 极速版

API 使用对比

OpenAI API 基本用法

from openai import OpenAI

client = OpenAI()

# 基本对话
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "你是一个有帮助的助手。"},
        {"role": "user", "content": "解释什么是 REST API"}
    ],
    temperature=0.7,
    max_tokens=1024,
)

print(response.choices[0].message.content)
print(f"Token 使用: {response.usage}")

流式响应

stream = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "写一首关于编程的诗"}],
    stream=True,
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

Function Calling

tools = [{
    "type": "function",
    "function": {
        "name": "search_products",
        "description": "搜索产品目录",
        "parameters": {
            "type": "object",
            "properties": {
                "query": {"type": "string", "description": "搜索关键词"},
                "category": {"type": "string", "enum": ["电子", "服装", "食品"]},
                "max_price": {"type": "number", "description": "最高价格"}
            },
            "required": ["query"]
        }
    }
}]

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "帮我找一款 500 元以下的蓝牙耳机"}],
    tools=tools,
)

# 检查是否需要调用工具
if response.choices[0].message.tool_calls:
    tool_call = response.choices[0].message.tool_calls[0]
    print(f"调用工具: {tool_call.function.name}")
    print(f"参数: {tool_call.function.arguments}")

模型选择决策树

你的任务需要深度推理吗?
├── 是 → 预算充足吗?
│   ├── 是 → o3
│   └── 否 → o3-mini
└── 否 → 需要处理超长文本吗?
    ├── 是 → GPT-4.1 系列
    └── 否 → 质量要求高吗?
        ├── 是 → GPT-4o
        └── 否 → GPT-4o mini

实际场景推荐

场景推荐模型月成本估算(1万次/天)
客服机器人GPT-4o mini~$90
代码助手GPT-4o / GPT-4.1~$750
数学辅导o3-mini~$500
内容审核GPT-4o mini~$45
研究分析o3~$3,000
文档问答GPT-4.1 mini~$200

总结

OpenAI 的模型线已经从单一的 GPT 系列发展为两条并行路线:

  • GPT 系列(4o、4.1)面向通用任务,速度快、成本低
  • o 系列(o3)面向推理密集型任务,准确但成本高
  • GPT-4o mini 和 o3-mini 分别是各自路线的性价比选择
  • GPT-4.1 带来了 1M 上下文窗口,适合代码和长文档场景

模型选择的核心不是”哪个最强”,而是”哪个最适合”。理解通用模型和推理模型的区别,是做出正确选择的第一步。

评论

加载中...

相关文章

分享:

评论

加载中...