Skip to content

AI基础概念

理解AI不是要成为数学家,而是要建立正确的认知框架

什么是人工智能?

人工智能(Artificial Intelligence,AI)是指让机器模拟人类智能行为的技术。但这个定义太过宽泛,让我们用更直观的方式理解:

人类智能                          人工智能
    ↓                                ↓
[感知] → [理解] → [推理] → [决策]    [传感器] → [算法] → [计算] → [输出]
    ↓                                ↓
基于生物神经网络                    基于人工神经网络
    ↓                                ↓
数万年进化而来                      数十年研究发展

AI发展的三个层次

层次名称能力状态
弱人工智能 (ANI)专用AI完成特定任务✅ 已实现
强人工智能 (AGI)通用AI像人类一样思考🔬 研究中
超人工智能 (ASI)超级AI超越人类智慧💭 理论阶段

我们处于哪个阶段?

当前所有AI应用都属于弱人工智能,包括ChatGPT、Claude等大模型。它们在特定领域表现出色,但并不具备真正的"理解"能力。


核心概念解析

1. 机器学习 (Machine Learning)

机器学习是AI的核心实现方式,让机器从数据中"学习"规律,而非显式编程。

传统编程                          机器学习
    ↓                                ↓
[规则] + [数据] → [程序] → [结果]    [数据] + [结果] → [算法] → [规则]
    ↓                                ↓
人类编写规则                        机器发现规则

机器学习的三种范式

类型说明典型应用示例
监督学习有标签数据学习分类、预测垃圾邮件识别
无监督学习无标签数据学习聚类、降维用户分群
强化学习奖惩机制学习决策优化游戏AI、机器人

2. 深度学习 (Deep Learning)

深度学习是机器学习的子集,使用多层神经网络处理复杂模式。

神经网络结构:

输入层          隐藏层(多层)           输出层
  ○                                    ○
  ○  ──→  ○  ──→  ○  ──→  ○  ──→      ○
  ○       ○       ○       ○           ○
  ○                                    ○
  
浅层特征 → 中层特征 → 高层特征 → 最终判断
(边缘)     (形状)     (物体)     (分类)

为什么叫"深度"?

  • 传统神经网络:1-2个隐藏层
  • 深度神经网络:数十甚至数百个隐藏层
  • 层次越深,能学习的特征越抽象

3. 大语言模型 (LLM)

大语言模型是深度学习的重要突破,专门处理自然语言。

大模型的发展历程:

2017: Transformer架构诞生

2018: GPT-1 (1.17亿参数)

2019: GPT-2 (15亿参数)

2020: GPT-3 (1750亿参数) ← 涌现能力出现

2022: ChatGPT发布 ← AI应用爆发

2023-2024: GPT-4、Claude、Gemini等百花齐放

2025: DeepSeek等开源模型崛起

大模型的核心能力

涌现能力 (Emergent Abilities)

当模型规模达到一定程度后,突然出现小模型不具备的能力:

能力描述示例
上下文学习从示例中学习新任务给几个例子就能模仿
思维链推理逐步推理解决复杂问题数学题分步骤解答
指令遵循理解并执行复杂指令多步骤任务执行

大模型能做什么?

yaml
核心能力:
  文本生成:
    - 文章写作
    - 代码生成
    - 创意内容
  
  文本理解:
    - 摘要提取
    - 情感分析
    - 信息抽取
  
  知识问答:
    - 事实查询
    - 概念解释
    - 建议提供
  
  推理能力:
    - 逻辑推理
    - 数学计算
    - 常识判断
  
  多模态(部分模型):
    - 图像理解
    - 语音处理
    - 视频分析

大模型不能做什么?

重要认知

大模型存在固有限制,了解这些限制对正确使用AI至关重要:

限制说明应对策略
知识截止训练数据有时间边界结合搜索工具
幻觉问题可能编造不存在的信息事实核查
无真正理解基于概率生成,非真正理解人工审核关键内容
无实时信息无法获取最新数据接入外部数据源
上下文限制处理文本长度有限分块处理、RAG技术

关键术语速查

模型相关

术语英文解释
参数Parameters模型的"知识容量",通常以B(十亿)为单位
TokenToken文本的最小处理单位,约等于1.5个汉字或0.75个英文单词
上下文窗口Context Window模型一次能处理的最大Token数
温度Temperature控制输出的随机性,0-2之间,越高越随机
提示词Prompt输入给模型的指令或问题

训练相关

术语英文解释
预训练Pre-training在大规模数据上学习通用知识
微调Fine-tuning在特定数据上调整模型行为
RLHFReinforcement Learning from Human Feedback人类反馈强化学习,让模型更符合人类偏好
对齐Alignment让模型行为符合人类价值观

架构相关

术语英文解释
TransformerTransformer大模型的核心架构,基于注意力机制
注意力机制Attention让模型关注输入的重要部分
EmbeddingEmbedding将文本转换为向量表示

AI应用开发者的知识图谱

作为AI应用开发者,你需要掌握的核心知识:

                    AI应用开发者知识图谱

           ┌───────────────┼───────────────┐
           │               │               │
       基础认知层       技术实现层       应用实践层
           │               │               │
     ┌─────┴─────┐   ┌─────┴─────┐   ┌─────┴─────┐
     │           │   │           │   │           │
  AI概念     大模型原理  API集成    Agent开发  行业应用   项目实战
     │           │   │           │   │           │
  - 什么是AI   - 架构   - OpenAI   - 架构设计  - 内容创作  - 案例分析
  - 发展历程   - 训练   - Claude   - 工具调用  - 数据分析  - 最佳实践
  - 能力边界   - 推理   - 国内模型  - 多Agent   - 办公效率  - 避坑指南

学习检验

完成以下问题,检验你对AI基础概念的理解:

概念理解

  1. 机器学习和深度学习是什么关系?
  2. 为什么大模型会出现"涌现能力"?
  3. Token是什么?为什么它很重要?

实践思考

  1. 你目前的工作中,哪些任务适合用AI辅助?
  2. 考虑到AI的局限性,如何设计一个可靠的AI应用?

下一步学习

现在你已经建立了AI的基础认知框架,建议继续学习:


💡 记住:理解AI的本质比记住术语更重要。AI是工具,关键在于如何用好它。