我们常以为大模型“啥都会”,可一到真实场景就翻车:新游戏规则看不懂、新 API 文档用不明白、实验数据怎么推公式也不对。问题不在“智商”,而在学习方式——多数模型依赖“过去学到、压进参数里的老记忆”,却不善于从“现在给到的上下文”里实时吸收新知识并正确应用。这正是 CL-bench 要测的核心能力:在任务所需信息都写在上下文里、又不会出现在预训练数据里的前提下,模型能不能真学会、真用对?
CL-bench把现实中的学习分成四类:
● 领域知识推理(像虚构法律、创新金融工具);
● 规则系统应用(新语法、新游戏机制);
● 程序性任务执行(复杂操作手册、流程规范);
● 经验发现与模拟(从实验数据归纳规律,最难)。
结果很扎心:十个前沿模型平均只解决≈17.2%的任务,最强也≈23.7%。最大“死因”不是不会推理,而是忽略或误用context。结论很明确:要让AI走向真实世界,必须把“从当前上下文学习”练成基本功——先读对、再想对、再做对。