关于 LLM 的一些资料_v2.0
本资料比较有深度 不是那么容易啃下来的哦[*]训练算法
预训练架构算法
探秘Transformer
科学空间
预训练系统算法
infra入门课程(topic介绍)
infra进阶读物
cuda算子优化
训练并行算法
如何大规模运行模型-从scale出发
如何大规模运行模型-从train出发
infra推理端
Scaling Law
scale law概览
scale law的开端 术语背背
scale law的一种拓展
scale的拓展
优化算法
高屋建瓴介绍优化器
数据算法
如何定义规则过滤器
如何定义模型过滤器
如何综合
后训练算法
高屋建瓴看RLHF
RLVR
如何看待更新的RL-1
如何看待更新的RL-2
[*]训练架构
Megatron
Megatron入门
Megatron架构一览
Verl
Verl入门
Verl架构一览
更新的架构ROLL
[*]实践
训练实践
Olmo
rllm
数据实践
data-juicer
NeMo-Curator
重要访谈 让你知道LLM工业界到底在做什么 怎么做的
谢谢分享 谢谢大佬分享 感谢分享,开始学习 去年写了一份比较偏理论导向的资料。
今年做了不少和 LLM 相关的工作。
对这东西有了更具体的认识,那就写一个更具体、更具实操意义的资料合辑吧。
前情提要:我是从算法的角度去看的,本身对基础设施(infra)不是特别懂,
对基础设施(infra)仅仅停留在为了完成工作而进行的浅层次观察上(不过也推荐了一些不错的资料 ) 。 感谢大佬,最近确实也打算学这个! 感谢大佬分享 马克,有空的时候仔细学一学。
页:
[1]