思想实验:假如回到2018年,我们能多快造出ChatGPT?
实际路径(2018-2022) 理想捷径 (约1年)
十年
拥有完整“配方”
约1年
“如果拥有完整的‘配方',凭借少数几位天才员工,大约一年时间,就能达到的水平。
JohnSchulman
知识的杠杆效应:正确的“知识和配方”比单纯扩大算力更有效,能够极大提升研发效率。
事后复盘的价值:今天的认知可以极大地缩短过去的探素路径。这揭示了AI竞争力的核心在于方法论的积累,而
非仅仅是资源投入。
组织形态:更像一个
学术研究小组,而非
驱动力:由研究员的个
人品味和兴趣驱动。
等级森严的公司。
早期文化
项目模式:1-3人的
小型探索性项目与少
数大型工程项目并行。
氛围:轻松、非正式
, 充满了“杂牌军(rag
tag)”的探索精神。
宝贵的弯路:那些“失败”项目铺就的成功之路
Universe项目
目标:通用RL智能体结果:时机过早,失
败 工程能力
OpenAl技术主线
后续重大成功
(如Dota项目)
结果:成为公司“死胡同” 人才储备
机器人项目
**核心启示**:在深度科技领域,失败的探索并非资源浪费,而是构建核心能力的必要投资。
里程碑:Dota项目如何确立OpenAI的胜利方程式
+ X 突破性成果大规模算力 复杂系统工程 RL研
究
深远影响:验证了“前沿研究+严肃工程”双轮驱动的模式,为后续GPT系列的 大
规模预训练模型奠定了思想和工程基础。
亲力亲为型(Hands-on)
印
放手赋能型(Hands-off)
**行为**
深入技术细节,编写和审查代码,提供具体技
术反馈。
**行为**
充当"共鸣板(sounding board),提供职业
建议,激发团队自主性。
**适用场景**
目标明确的项目;团队成员经验较浅。
**适用场景**
探索性研究;团队成员经验丰富。
关键结论*:不存在唯一的“最佳”模式。管理风格需要与研究阶段和团队构成相匹配
和平时期(Peace Time)-早期OpenAl 追赶模式(Catch-up Mode)-当下新创公司
策略:鼓励自由探索,允许更多“离经叛道”的想
法。
策略:被迫首先复制现有技术以达到行业基线,然后
才能寻求创新。
①Schulman的警示*:长期处于“追赶模式”的公司,容易丧失“探索性研究的肌肉”。保持
探索能力是避免陷入“跟随者陷阱”并实现长远超越的关键。
AI人才画像变迁:从“怪才”到“卓越工程师”
过去(2015-2017) 现在
主流人才
系统思维“怪才
(weirder)" 风险偏好
高效执行技术栈成热&
规模化需求
探索精神
核心能力:研究品味 核心能力:工程技能
当前的技术前沿:三个待解的挑战
挑战一:价值函数(Value
Functions)
挑战二:持续学习
(Continual Learning)
挑战三:泛化能力
(Generalization)
现状:在当前LLM的RL任务中效果 现状:主要依赖“上下文学习”和参 现状:模型在长远时间尺度上比人类
不佳,应用较少。 数微调。 更“脆弱(brittle)”,更容易“卡住
展望:未来可能在某些场景下“卷 问题:是否需要全新的思想来实现真 (get stuck)"。
土重来(makeacomeback)”。 正的“即时学习”。 原因:人类拥有更强的自我纠错和资
源调动能力。
超越规模定律:下一代AI的自我进化之路
,,方,向一:协同训“练(Co-trainin/g)
(virtuouscycle)”实现自我提升。
方向二:多智能体与博奔论(Multi-agent&Games)
设计精巧的游戏规则,让智能体在竞争或合作中涌现出解
决复杂问题的能力,并提供自动化的课程。
生成器
(Generator)
高质量学习信号
(FeedbackSignal)
生成内容
(Output)
通过博奔设计,涌现复杂智能
验证器
(Verifier)
AGI何时到来?两种力量的博奔
审慎派观点:工程师的预测偏差
类比自动驾驶,工程师倾向于系统性地低
估复杂项目的完成时间。
乐观派观点:AI的自我加速
AI工具加速自身研究,形成正反馈循环,
可能打破传统线性预测模型。
x2-3 AI
Schulman的结论:存在巨大的不确定性,两种力量的抗衡使得精准预测极为困难。
顶级研究员的工作流:AI作为“科研合伙人
文献检索:快速找到相关论文和
开源库,极大提升信息获取效率。
写作反馈:将LLM作为第一轮
反馈的来源,快速打磨草稿。
思想迭代:将一个模糊的想
法交给模型进行扩展和完善,
充当“思想的催化剂”。
对新一代AI研究者的建议:坚守根本, 拥抱变化
LLM 新时代的要求
(The Toolkit)
拥抱LLM工具:必须学
会将LLM高效地融入日常
工作流程。
警惕“黑箱”:理解每一行 代
码的价值依然至关重要,
是做出真正突破的关键。
大量阅读论文:建立广阁的知
识面和深刻的研究品味。
保持实验笔记:记录是思考和
复盘的基础。
不变的经典原则
(TheFoundation)
新篇章:Thinking Machines与专为AI专家打造的Tinker
Tinker是什么?
定制化模型/算法
Tinker
(抽象层)
Tinker
定位:一个低阶(low-level)的微调APl。
核心价值:抽象掉底层的GPU和分布式系
统 复杂性,让开发者专注于算法和模型本
身。
类比:为模型“训练"提供类似推理API的
便利。
硬件/基础设施
(GPU等)
当前的目标用户
·资深的机器学习专家。
·希望对训练过程有精细控制,而不愿
花费时间在基础设施上。
Tinker的未来愿景:从专家工具到全栈赋能平台
工具链
行业
解决方来
构建更高级组件和工具链 工具链 0
行业
解决方来核心API&顶尖专家
行业
解决方案
商业模式演进:从服务核心技术人群,扩展到赋能
更广泛的企业和开发者生态。 开发者与企业生态
核心启示与战略洞察
知识>算力:正确的“配方”能以数量级优势提升效率,是AI竞争的核心。
文化是基石:容忍“正确弯路”的探索性文化是长期创新的土壤。
人才演进:复合型工程人才在AI领域的价值日益凸显。,,
新商业范式:赋能开发者的“卖水者”模式(如Tinker)将成为Al生态中的关
键一环和重要投资机会。
谢谢