
165 浏览
在北京做美元基金投资(我们是个growth-stage&buyout都做的fund)的时候,被dartmouth遗传学phd的老板摁着头读paper,说只有我读了paper我才能真正理解项目。至今为止回忆起来,这确实是我职业生涯经历的最好的训练。 最近因为看了很多AI项目,商业逻辑上的判断对我来说其实相对容易,但总觉得看问题还是不够深刻,所以决定更系统性地深入理解LLM发展至今所有经典论文。 感兴趣的朋友可以一起,我们可以每周半个小时线上交流进展和体会。 我列出来的接下来的10篇: 一、 架构与规模:大模型的“骨架”与“天花板” 这一类论文决定了模型能承载多少信息,以及我们该如何投入算力。 1. 《Attention Is All You Need》 (Transformer) 核心: 放弃了传统的循环网络,发明了 Self-Attention。它是所有现代 LLM 的母体。 2. 《Scaling Laws for Neural Language Models》 核心: 定量分析了模型性能与算力、数据的关系。它告诉业界:只要有足够的钱和数据,模型就能变强,这直接引发了后来的算力军备竞赛。 3. 《FlashAttention: Fast and Memory-Efficient Exact Attention》 核心: 解决了 Transformer 运算慢、占显存的工程难题。没有它,我们今天很难用上 128k 甚至更长上下文的模型。 二、 预训练与微调:从“通才”到“专家” 这一类论文展示了如何训练一个基础模型,以及如何用极低的成本让它适配特定任务。 4. 《Language Models are Unsupervised Multitask Learners》 (GPT-2) 核心: 证明了模型可以通过“读通互联网”来学习各种技能,奠定了 Decoder-only(仅解码器)在生成任务中的统治地位。 5. 《LLaMA: Open and Efficient Foundation Language Models》 核心: 细节优化的大成之作。它展示了如何组合各种最佳实践(如 RoPE 编码)来训练一个最强开源基座。 6. 《LoRA: Low-Rank Adaptation of LLMs》 核心: 提出了一种“四两拨千斤”的方法,只改动不到 1% 的参数就能完成微调。这是目前工程落地、私有化部署最常用的技术。 三、 对齐技术:让 AI 听懂人话、具备价值观 这一类论文解决了 LLM 从“文字预测机器”进化为“人工智能助手”的关键步骤。 7. 《Language Models are Few-Shot Learners》 (GPT-3) 核心: 开启了 Prompt Engineering(提示工程) 时代,证明了不需要改动模型,只需要给几个例子,它就能理解你的指令。 8. 《Training language models to follow instructions with human feedback》 (InstructGPT) 核心: 详解了 RLHF 流程。这是 ChatGPT 能够诞生的“最后一公里”,让 AI 的回答变得有用、诚实、无害。 四、 推理与逻辑:攻克 AI 的“幻觉”与“深度思考” 这是目前最前沿的领域,目标是让 AI 具备像人类一样的逻辑推演能力。 9. 《Chain-of-Thought Prompting Elicits Reasoning in LLMs》 (CoT) 核心: 发现了 思维链。它告诉我们:如果你让 AI “写下思考过程”,它解决复杂数学和逻辑问题的成功率会翻倍。 10. 《DeepSeek-R1: Incentivizing Reasoning Capability via RL》 核心: 证明了即使不靠人类手写教它怎么思考,通过纯强化学习(RL),模型也能自己学会“反思”和“纠错”。
Copyright © 2026 RADHOST PTE. LTD. (UEN: 202450723N). All Rights Reserved.