在学习时,我习惯先对所学内容构建一个整体框架,以便清楚自己掌握的知识在整个生态或结构中的位置。
在网上搜索了许多 AI 架构图后,我没找到满意的图示,于是结合 AI 工具和自身理解,绘制了一张人工智能架构图,并整理了相关知识点。
架构图涵盖 56 个行业术语,分为核心技术、支撑技术生态、系统与架构、AI 应用技术、未来发展方向、伦理与安全 6 大模块。
人工智能是一个广阔的知识领域,这 56 个术语无法完全覆盖,但能为大家提供一个框架性认识。

梳理知识点和术语名词如下:
一、核心技术体系
-
机器学习(ML:Machine Learning)通过数据训练模型实现预测或决策,包含监督学习、无监督学习和半监督学习。
- 监督学习:用标注数据训练分类或回归模型(如邮件过滤、房价预测)。
- 无监督学习:挖掘数据隐含模式,生成监督信号(如聚类、降维、对比学习)。
- 元学习(Meta-Learning):让模型快速适应新任务,学会“如何学习”。
- 联邦学习(Federated Learning):保护隐私的分布式训练方式。
- 在线学习(Online Learning):模型随动态数据实时更新。
-
深度学习(DL:Deep Learning)基于多层神经网络,突破传统机器学习限制。
- Transformer:自注意力机制驱动的长文本处理架构(如GPT、BERT)。
- 扩散模型(Diffusion Model):逐步去噪生成高质量内容(如Stable Diffusion)。
- MoE(Mixture of Experts):整合子模型提升性能(如Switch Transformer)。
- SNN(脉冲神经网络):模拟生物神经脉冲时序。
- 胶囊网络(Capsule Network):捕捉空间层次关系。
深度学习需大量数据和 GPU/TPU 算力支持。
-
自然语言处理(NLP)让机器理解和生成人类语言的技术。
- 大语言模型(LLM):超大规模预训练模型(如GPT-4、PaLM)。
- 思维链(Chain-of-Thought):分步推理提升逻辑能力。
- 检索增强生成(RAG):结合知识库提高答案准确性(如腾讯ima)。
- 指令微调(Instruction Tuning):通过指令优化模型行为。
- 多模态对齐(Multimodal Alignment):统一文本、图像等语义。
-
计算机视觉(CV)从图像或视频提取信息的技术。
- ViT(Vision Transformer):Transformer 用于图像分类。
- NeRF(神经辐射场):3D 场景重建与渲染。
- 目标跟踪(Object Tracking):视频中持续锁定目标(如SiamFC)。
- 光流估计(Optical Flow):计算像素运动轨迹。
- 事件相机(Event Camera):动态视觉低延迟感知。核心任务:
- 目标检测:YOLO 实现实时物体定位。
- 图像分割:U-Net 划分医学影像病灶。
- 人脸识别:FaceNet 通过特征向量验证身份。
-
强化学习(RL)
- PPO(近端策略优化):稳定策略梯度算法。
- 模仿学习(Imitation Learning):从专家行为学习策略。
- 多智能体强化学习(MARL):多智能体协作或竞争(如星际争霸AI)。
- 逆强化学习(Inverse RL):从行为推导奖励函数。
-
模型优化技术
- 知识蒸馏(Knowledge Distillation):压缩大模型(如DistilBERT)。
- 量化感知训练(QAT):模拟低精度计算。
- 动态网络(Dynamic Networks):动态调整模型结构(如SkipNet)。
- 稀疏训练(Sparse Training):剪除冗余连接。
二、支撑技术生态
-
算力基础设施
- 芯片技术:
- GPU:NVIDIA A100/H100 加速深度学习。
- TPU:谷歌优化 TensorFlow 的 AI 芯片。
- 类脑芯片:清华大学天机芯模拟神经计算。
- 云计算:AWS、阿里云提供弹性算力。
-
数据工程聚焦数据存储、清洗、标注和结构化。
- 数据标注:人工标注为主,涉及属性、框选、描点。
- 数据增强:通过旋转、裁剪、加噪增强泛化能力。
- 关键技术:
- 数据版本控制(DVC):类似 Git 管理数据集和模型。
- 自动化特征工程(FeatureTools):自动提取时间、聚合、关系特征。
-
知识图谱
- 图结构存储:以实体、关系、属性存储复杂数据。
- 高效查询:支持图遍历查询(如最短路径、社区发现)。
- 语义推理:挖掘隐含关系(如“A与B同事,B是C上司 → A与C可能相关”)。
- 工具:Neo4j、Amazon Neptune。
三、系统与架构
-
模型协作与协议
- MCP(模型上下文协议):标准化模型与工具/数据交互接口,解决碎片化。
- 模型编排(Model Orchestration):动态调度多模型完成任务。
- 服务网格(Service Mesh):管理微服务化模型通信。
-
分布式系统
- 参数服务器(Parameter Server):支持大规模分布式训练。
- All-Reduce 算法:梯度同步协议(如 Ring All-Reduce)。
- 异构计算:CPU/GPU/TPU 协同优化。
四、AI 应用技术
-
行业应用
- 生成式 AI(AIGC):
- 文本生成:ChatGPT、Claude 支持对话和文案。
- 图像生成:Stable Diffusion、Midjourney 生成图像。
- 视频生成:Sora 基于时空建模生成视频。
- 数字孪生(Digital Twin):物理实体实时虚拟映射。
- AI for Science:助力科学发现(如 AlphaFold)。
- AIOps:智能运维(异常检测、根因分析)。
-
智能体与交互系统
- Agent(智能体):具备自主感知-决策-行动能力(如自动驾驶、游戏 NPC)。
- 具身智能(Embodied AI):机器人智能(如波士顿动力)。
- 多模态交互:融合语音、手势、眼动交互。
- 典型应用:自动驾驶(激光雷达+摄像头+地图)。
-
边缘与终端 AI
- 边缘智能:在手机、IoT 设备部署轻量模型。
- TinyML:低功耗微控制器机器学习。
- 模型剪枝(Pruning):优化模型适配边缘设备。
- 神经形态计算(Neuromorphic Computing):类脑芯片高效推理(如 Loihi)。
- 典型应用:安防摄像头行为识别、传感器故障预测。
五、未来发展方向
- AGI(通用人工智能)指具备人类水平通用智能的系统,能跨领域学习、自主解决问题。
- 核心特征:通用学习、抽象推理、目标导向、多模态感知、情感模拟。
- AGI 是技术与哲学的交汇,脑科学、量子计算正推动其发展。
六、伦理与安全
-
技术隐私计算实现数据“可用不可见”。
- 联邦学习:本地保留数据,仅上传参数(如医院、银行联合训练)。
- 同态加密:加密数据直接计算(如医疗风险评分)。
- 差分隐私:添加噪声保护个体隐私(如统计数据)。
-
AI 对齐(Alignment)确保 AI 行为符合人类价值观。
- 价值对齐:将公平、正义转为奖励函数。
- 逆强化学习(IRL):从人类行为推导规则(如安全驾驶)。
- 人类反馈强化学习(RLHF):优化 AI 输出(如 ChatGPT)。
- 可解释性:
- LIME:局部解释模型决策(如医疗影像分析)。
- SHAP:量化特征贡献(如金融风控)。
-
内容安全与过滤
- 规则过滤:关键词、正则表达式匹配。
- 深度学习模型:检测暴力、色情内容(如 Perspective API)。
- 对抗训练:增强模型鲁棒性。