AI出海全球

179 浏览

我们一起来读AI行业的经典论文吧！

在北京做美元基金投资（我们是个growth-stage&buyout都做的fund）的时候，被dartmouth遗传学phd的老板摁着头读paper，说只有我读了paper我才能真正理解项目。至今为止回忆起来，这确实是我职业生涯经历的最好的训练。

最近因为看了很多AI项目，商业逻辑上的判断对我来说其实相对容易，但总觉得看问题还是不够深刻，所以决定更系统性地深入理解LLM发展至今所有经典论文。

感兴趣的朋友可以一起，我们可以每周半个小时线上交流进展和体会。

我列出来的接下来的10篇：

一、架构与规模：大模型的“骨架”与“天花板”

这一类论文决定了模型能承载多少信息，以及我们该如何投入算力。

1. 《Attention Is All You Need》 (Transformer)

核心：放弃了传统的循环网络，发明了 Self-Attention。它是所有现代 LLM 的母体。

2. 《Scaling Laws for Neural Language Models》

核心：定量分析了模型性能与算力、数据的关系。它告诉业界：只要有足够的钱和数据，模型就能变强，这直接引发了后来的算力军备竞赛。

3. 《FlashAttention: Fast and Memory-Efficient Exact Attention》

5 条发言

Ellen Cheng· 3个月前

78 浏览

没想到这么多朋友萌都感兴趣，先建了个群，可以加入～

Saboteur· 3个月前

54 浏览

举手！

Ke· 3个月前

66 浏览

Eugene· 3个月前

67 浏览

申请加入，我正好也补补经典论文🙌

赵小纯· 3个月前

76 浏览

🙌

核心：解决了 Transformer 运算慢、占显存的工程难题。没有它，我们今天很难用上 128k 甚至更长上下文的模型。

二、预训练与微调：从“通才”到“专家”

这一类论文展示了如何训练一个基础模型，以及如何用极低的成本让它适配特定任务。

4. 《Language Models are Unsupervised Multitask Learners》 (GPT-2)

核心：证明了模型可以通过“读通互联网”来学习各种技能，奠定了 Decoder-only（仅解码器）在生成任务中的统治地位。

5. 《LLaMA: Open and Efficient Foundation Language Models》

核心：细节优化的大成之作。它展示了如何组合各种最佳实践（如 RoPE 编码）来训练一个最强开源基座。

6. 《LoRA: Low-Rank Adaptation of LLMs》

核心：提出了一种“四两拨千斤”的方法，只改动不到 1% 的参数就能完成微调。这是目前工程落地、私有化部署最常用的技术。

三、对齐技术：让 AI 听懂人话、具备价值观

这一类论文解决了 LLM 从“文字预测机器”进化为“人工智能助手”的关键步骤。

7. 《Language Models are Few-Shot Learners》 (GPT-3)

核心：开启了 Prompt Engineering（提示工程）时代，证明了不需要改动模型，只需要给几个例子，它就能理解你的指令。

8. 《Training language models to follow instructions with human feedback》 (InstructGPT)

核心：详解了 RLHF 流程。这是 ChatGPT 能够诞生的“最后一公里”，让 AI 的回答变得有用、诚实、无害。

四、推理与逻辑：攻克 AI 的“幻觉”与“深度思考”

这是目前最前沿的领域，目标是让 AI 具备像人类一样的逻辑推演能力。

9. 《Chain-of-Thought Prompting Elicits Reasoning in LLMs》 (CoT)

核心：发现了思维链。它告诉我们：如果你让 AI “写下思考过程”，它解决复杂数学和逻辑问题的成功率会翻倍。

10. 《DeepSeek-R1: Incentivizing Reasoning Capability via RL》

核心：证明了即使不靠人类手写教它怎么思考，通过纯强化学习（RL），模型也能自己学会“反思”和“纠错”。

关于我们

About USSmallWOD 聚焦全球迁居、工作的开拓者，助力大家共享海外资源与认知，以互助信赖拓宽未来更多可能。

关注我们

获取最新资讯与动态：