pasu 发表于 2025-8-20 14:19:56

关于 LLM 的一些资料_v2.0

本资料比较有深度 不是那么容易啃下来的哦
[*]训练算法
预训练架构算法
探秘Transformer
科学空间
预训练系统算法
infra入门课程(topic介绍)
infra进阶读物
cuda算子优化
训练并行算法
如何大规模运行模型-从scale出发
如何大规模运行模型-从train出发
infra推理端
Scaling Law
scale law概览
scale law的开端 术语背背
scale law的一种拓展
scale的拓展
优化算法
高屋建瓴介绍优化器
数据算法
如何定义规则过滤器
如何定义模型过滤器
如何综合
后训练算法
高屋建瓴看RLHF
RLVR
如何看待更新的RL-1
如何看待更新的RL-2
[*]训练架构
Megatron
Megatron入门
Megatron架构一览
Verl
Verl入门
Verl架构一览
更新的架构ROLL
[*]实践
训练实践
Olmo
rllm
数据实践
data-juicer
NeMo-Curator
重要访谈 让你知道LLM工业界到底在做什么 怎么做的

huangjunxue 发表于 2025-8-20 19:36:51

谢谢分享

Jon郭玉斌ค 发表于 2025-8-20 19:51:34

谢谢大佬分享

温德琳 发表于 2025-8-21 10:04:11

感谢分享,开始学习

hyc1200 发表于 2025-8-23 18:12:26

去年写了一份比较偏理论导向的资料。

今年做了不少和 LLM 相关的工作。
对这东西有了更具体的认识,那就写一个更具体、更具实操意义的资料合辑吧。

前情提要:我是从算法的角度去看的,本身对基础设施(infra)不是特别懂,
对基础设施(infra)仅仅停留在为了完成工作而进行的浅层次观察上(不过也推荐了一些不错的资料 ) 。

decode7 发表于 2025-8-23 23:54:13

感谢大佬,最近确实也打算学这个!

zcycloud 发表于 2025-8-24 22:03:34

感谢大佬分享

zhufup 发表于 2025-8-25 13:43:54

马克,有空的时候仔细学一学。
页: [1]
查看完整版本: 关于 LLM 的一些资料_v2.0