AI发展简史¶
从图灵测试到ChatGPT,回顾人工智能发展的关键里程碑。
起源:1950年代¶
图灵测试(1950)¶
艾伦·图灵在论文《计算机器与智能》中提出著名的"图灵测试",探讨机器是否能思考。
"如果一台机器能够与人类展开对话而不能被辨别出其机器身份,那么这台机器就具有智能。"
意义:为AI研究奠定了哲学基础。
达特茅斯会议(1956)¶
约翰·麦卡锡、马文·明斯基等科学家在达特茅斯学院召开研讨会,首次提出"人工智能"(Artificial Intelligence)这一术语。
意义:AI作为独立学科正式诞生。
第一次浪潮:1956-1974¶
符号主义AI¶
早期AI研究主要基于**符号主义**(Symbolism),认为智能可以通过符号操作实现。
代表成果: - 通用问题求解器(GPS):模拟人类解决问题的思维过程 - ELIZA:第一个聊天机器人(1966) - 专家系统:将专家知识编码为规则
第一次寒冬(1974-1980)¶
AI发展遭遇瓶颈: - 计算能力有限 - 知识获取困难 - 实际应用效果不佳 - 政府和企业大幅削减 funding
第二次浪潮:1980-1987¶
专家系统的黄金时代¶
MYCIN:医疗诊断专家系统,能诊断血液感染疾病。
特点: - 基于规则推理 - 在特定领域表现良好 - 知识需要人工编码
第二次寒冬(1987-1993)¶
- 专家系统维护成本高
- 难以扩展到新领域
- 个人计算机兴起,专用LISP机器市场萎缩
第三次浪潮:1993-2012¶
机器学习兴起¶
AI研究从"硬编码规则"转向"从数据中学习"。
关键进展:
| 年份 | 事件 | 意义 |
|---|---|---|
| 1997 | IBM深蓝击败国际象棋冠军卡斯帕罗夫 | 暴力搜索+评估函数的成功 |
| 1998 | LeNet-5卷积神经网络 | 深度学习在图像识别的早期应用 |
| 2006 | Geoffrey Hinton提出深度信念网络 | "深度学习"概念正式提出 |
| 2011 | IBM Watson赢得智力问答节目 | 自然语言理解的突破 |
统计机器学习¶
支持向量机(SVM)、**随机森林**等方法成为主流。
特点: - 需要特征工程 - 数据驱动 - 在结构化数据上表现优异
深度学习革命:2012-2017¶
ImageNet时刻(2012)¶
Alex Krizhevsky等人设计的**AlexNet**在ImageNet图像识别竞赛中以巨大优势获胜。
关键创新: - 深层卷积神经网络 - ReLU激活函数 - GPU加速训练 - Dropout正则化
意义:深度学习时代正式开启。
深度学习爆发¶
2012 AlexNet 图像识别突破
2014 VGGNet 网络深度增加
2014 GAN 生成对抗网络
2015 ResNet 残差网络,突破深度限制
2016 AlphaGo 击败围棋世界冠军
2017 Transformer 注意力机制革命
AlphaGo(2016)¶
DeepMind的AlphaGo击败围棋世界冠军李世石。
技术组合: - 深度神经网络 - 蒙特卡洛树搜索 - 强化学习 - 自我对弈
意义:AI在复杂策略游戏中超越人类。
大模型时代:2017-至今¶
Transformer架构(2017)¶
Google发表论文《Attention Is All You Need》,提出**Transformer**架构。
核心创新: - 自注意力机制(Self-Attention) - 并行计算效率 - 长距离依赖建模
影响:成为现代NLP和CV的基础架构。
预训练+微调范式¶
BERT(2018):Google发布双向编码器,开启预训练大模型时代。
GPT系列:
| 模型 | 年份 | 参数量 | 特点 |
|---|---|---|---|
| GPT-1 | 2018 | 1.17亿 | 生成式预训练 |
| GPT-2 | 2019 | 15亿 | 多任务学习 |
| GPT-3 | 2020 | 1750亿 | 涌现能力 |
| GPT-4 | 2023 | 未公开 | 多模态 |
| GPT-4o | 2024 | 未公开 | 原生多模态,实时对话 |
| o1/o3 | 2024-2025 | 未公开 | 推理优化模型 |
| GPT-5 | 2025 | 未公开 | 下一代基础模型 |
ChatGPT时刻(2022)¶
OpenAI发布**ChatGPT**,基于GPT-3.5进行对话优化。
现象级影响: - 2个月用户破亿 - 引发全球AI应用热潮 - 改变人们对AI的认知
关键技术: - RLHF(人类反馈强化学习) - 指令微调 - 对话能力优化
2024-2026:多模态与推理时代¶
2024:多模态AI爆发¶
GPT-4o(2024年5月): - 原生多模态架构 - 实时语音对话能力 - 图像理解与生成功能 - 响应速度大幅提升
国内大模型快速发展:
| 模型 | 公司 | 时间 | 特点 |
|---|---|---|---|
| 通义千问2.5 | 阿里 | 2024 | 中文能力突出,代码能力强 |
| 文心一言4.0 | 百度 | 2024 | 知识增强,多模态能力 |
| 豆包 | 字节跳动 | 2024 | 抖音生态整合,年轻化 |
| 智谱GLM-4 | 智谱AI | 2024 | 开源可商用,技术领先 |
| Kimi | 月之暗面 | 2024 | 200万上下文,长文档处理 |
| 深度求索V3 | DeepSeek | 2024 | 开源,推理能力强,成本低 |
Sora视频生成(2024年2月): - OpenAI发布文本生成视频模型 - 可生成长达60秒的高质量视频 - 引发视频生成热潮
2025:推理能力突破¶
OpenAI o系列模型: - o1(2024年9月):推理能力大幅提升 - o3(2025年):更强的数学和编程能力 - 核心技术:思维链(Chain of Thought)强化
Claude 3.5/4(2024-2025): - Claude 3.5 Sonnet:2024年最强性价比模型 - Claude 4:2025年发布,推理和安全性大幅提升 - Artifacts功能:实时预览代码生成结果
国内追赶加速: - 百度文心一言日活突破5000万 - 阿里通义千问开源家族壮大 - 字节豆包用户快速增长 - 月之暗面Kimi长文本能力领先 - DeepSeek以低成本高性能引发关注
2026:Agent与具身智能元年¶
AI Agent爆发: - OpenAI Operator(2026年):能自主执行任务的AI代理 - Claude Computer Use:控制计算机完成复杂任务 - 国内Agent产品:智谱AutoGLM、阿里AgentScope等
具身智能进展: - 人形机器人与大模型结合 - 特斯拉Optimus迭代加速 - 国内企业(优必选、宇树)快速发展 - Figure 01:OpenAI投资的机器人公司发布产品
国产大模型突破: - DeepSeek-R1(2026年):开源推理模型,性能媲美o1 - DeepSeek-V4(2026年):下一代MoE架构,性能大幅提升 - DeepSeek-Flash/Pro(2026年):极速版和专业版,满足不同场景 - 通义千问3:中文理解能力国际领先 - 华为盘古:企业级AI落地加速
关键发展节点时间线¶
1950 图灵测试
1956 AI学科诞生
1966 ELIZA聊天机器人
1980 专家系统兴起
1997 深蓝击败国际象棋冠军
2006 深度学习概念提出
2012 AlexNet图像识别突破
2014 GAN生成对抗网络
2016 AlphaGo击败围棋冠军
2017 Transformer架构
2018 BERT预训练模型
2020 GPT-3发布
2022 ChatGPT现象级爆发
2023 GPT-4、Claude、Llama等百花齐放
2024 GPT-4o、Sora、国产大模型爆发
2025 推理模型o系列、Claude 4、DeepSeek崛起
2026 AI Agent、具身智能元年,国产模型国际领先
发展规律总结¶
技术演进趋势¶
- 从规则到数据:从人工编码规则到从数据自动学习
- 从浅层到深层:网络深度不断增加,表达能力增强
- 从单任务到多任务:一个模型处理多种任务
- 从专用到通用:向通用人工智能(AGI)迈进
三次AI寒冬的启示¶
| 寒冬 | 原因 | 教训 |
|---|---|---|
| 第一次 | 过度承诺,技术不成熟 | 技术需要积累 |
| 第二次 | 专家系统局限性 | 需要可扩展的方案 |
| 第三次? | 待观察 | 需要实际应用价值 |
当前阶段特点¶
当前判断(2026年5月)
2024-2026年AI进入快速发展期: - 多模态成为标配:文本、图像、语音、视频统一处理 - 推理能力突破:o系列、DeepSeek-R1实现复杂推理 - 国产大模型崛起:通义千问3.5、文心一言5.5、DeepSeek-V4/R1国际领先 - AI Agent落地:从概念到实际产品,规模化应用 - 具身智能兴起:人形机器人与大模型结合 - 成本持续下降:API价格较2024年下降90%以上 - 开源生态繁荣:Llama、DeepSeek等推动行业发展
技术正在从实验室走向大规模应用,国产大模型已具备国际竞争力。