Zeyuan Zhu ICML 2024 Tutorial: Physics of Language Models

目前看到的最好的 LLM 研究(2h 讲了他们在 Meta 的很多工作)

一些截图


LLM 在输出第一句话之前就在内部完成了拓扑排序(逻辑链构造)


和人类的逻辑推理习惯不同,LLM 在回答问题前预先计算了所有的依赖,人类是遇到问题后只去寻找问题相关的


只看模型参数多少是不对的,推理能力和模型深度有很大关系




GPT 处理语言实际上是在做 2 种动态规划,而这刚好是 IOI 2005 的 R 题,作者刚好打了这场比赛(rk19 Zeyuan Zhu)没有解决

还有很多其他有意思的结论,忘了截图

2 Likes

兄弟,你为什么要匿名?

1 Like

学术交流有匿名审稿环节,为了尽可能避免主观身份的污染

1 Like

注:这里的 GPT2 是作者预训练的,vocabulary 和 dataset 限制在了自己可控的范围,因此是没有教科书上关于 dp 的任何知识,是纯粹从数据学习到的方法

1 Like