GPT 系列概览
| 版本 | 发布时间 | 参数量 | 特点 |
|---|---|---|---|
| GPT-1 | 2018 | 1.17 亿 | 开创性 |
| GPT-2 | 2019 | 15 亿 | 零样本学习 |
| GPT-3 | 2020 | 1750 亿 | 提示工程 |
| GPT-3.5 | 2022 | 1750 亿 | RLHF + ChatGPT |
| GPT-4 | 2023 | 约 1.7 万亿 | 多模态 + 推理 |
GPT-1 (2018)
论文: “Improving Language Understanding by Generative Pre-Training”
核心贡献
- 首次提出”预训练 + 微调”范式
- 使用无监督预训练 + 有监督微调
- 在多项 NLP 任务上取得 SOTA
架构
- 12 层 Transformer 解码器
- 1.17 亿参数
- 训练数据:BooksCorpus(5000 MB)
意义
证明了大规模无监督预训练的有效性。
GPT-2 (2019)
论文: “Language Models are Unsupervised Multitask Learners”
核心贡献
- 展示零样本学习能力
- 模型足够大时,能在未见过任务上直接推理
- 引发关于 AI 安全的讨论(最初不敢发布完整模型)
架构
- 48 层 Transformer
- 15 亿参数
- 训练数据:WebText(800 万文档,约 40GB)
关键洞察
- 参数量跨过某个阈值后,突然涌现能力
- 语言模型可以成为通用任务求解器
GPT-3 (2020)
论文: “Language Models are Few-Shot Learners”
核心贡献
- 少样本学习(Few-Shot)能力
- 不需要微调,给几个示例就能完成任务
- 上下文学习能力
架构
- 96 层 Transformer
- 1750 亿参数
- 训练数据:Common Crawl + WebText2 + Books + Wikipedia(约 570GB)
API 能力
- 零样本: 仅给任务描述
- 少样本: 给 1-10 个示例
- 一样本: 给 1 个示例
成本
- 训练费用:约 1200 万美元
- 推理成本仍然很高
GPT-3.5 + ChatGPT (2022)
训练方式:RLHF
- SFT (有监督微调): 用人类标注的对话数据微调
- 奖励模型: 训练一个奖励模型评估回答质量
- PPO 算法: 用强化学习优化模型输出
ChatGPT 特性
- 对话友好
- 承认不知道
- 拒绝不当请求
- 支持多轮对话
开放 API
- 2022 年 11 月 ChatGPT 发布
- 2023 年 3 月开放 API
GPT-4 (2023)
主要升级
- 多模态:支持图像输入
- 推理能力:显著提升复杂推理
- 更长上下文:32K / 128K token
- 指令遵循:更可靠地执行复杂指令
- 安全性:更少的幻觉和有害输出
技术细节(推测)
- 专家混合架构 (MoE)
- 约 1.7 万亿参数
- 16 位专家,每层约 2 位专家激活
能力涌现
- 思维链推理
- 复杂任务规划
- 代码调试
- 多语言能力
发展趋势
1. 多模态
- GPT-4V → 图像理解
- Sora → 视频生成
- GPT-4o → 实时语音/视频
2. 长上下文
- 128K → 1M+ token
- 书籍级理解
3. 工具使用
- 调用函数
- 浏览器/代码执行
- 自主规划
4. Agent 能力
- 多步任务规划
- 自我反思修正
- 长期记忆
对开发者的意义
- 提示工程变得更重要:同样模型,好提示 vs 差提示差距巨大
- 组合使用:根据任务选择合适的模型
- 工程能力:RAG、Agent、工具调用
- 成本意识:选择合适的模型和优化调用方式
总结
GPT 系列展示了 AI 发展的加速趋势:
- 从 1 亿 → 1.7 万亿参数
- 从微调到零样本/少样本
- 从纯文本到多模态
- 从问答到 Agent
理解这段历史,有助于把握 AI 发展的脉络和未来方向。
相关文章
评论
加载中...
评论
加载中...