智库文档所有分类

OpenAI AGI 战略复盘与投资远见.ppt

下载

来自星星的小胖子

16页 | 2.26MB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

思想实验：假如回到2018年，我们能多快造出ChatGPT? 实际路径(2018-2022) 理想捷径 (约1年) 十年拥有完整“配方” 约1年 “如果拥有完整的‘配方'，凭借少数几位天才员工，大约一年时间，就能达到的水平。 JohnSchulman 知识的杠杆效应：正确的“知识和配方”比单纯扩大算力更有效，能够极大提升研发效率。事后复盘的价值：今天的认知可以极大地缩短过去的探素路径。这揭示了AI竞争力的核心在于方法论的积累，而非仅仅是资源投入。组织形态：更像一个学术研究小组，而非驱动力：由研究员的个人品味和兴趣驱动。等级森严的公司。早期文化项目模式：1-3人的小型探索性项目与少数大型工程项目并行。氛围：轻松、非正式 , 充满了“杂牌军（rag tag)”的探索精神。宝贵的弯路：那些“失败”项目铺就的成功之路 Universe项目目标：通用RL智能体结果：时机过早，失败工程能力 OpenAl技术主线后续重大成功（如Dota项目）结果：成为公司“死胡同” 人才储备机器人项目 **核心启示**：在深度科技领域，失败的探索并非资源浪费，而是构建核心能力的必要投资。里程碑：Dota项目如何确立OpenAI的胜利方程式 + X 突破性成果大规模算力复杂系统工程 RL研究深远影响：验证了“前沿研究+严肃工程”双轮驱动的模式，为后续GPT系列的大规模预训练模型奠定了思想和工程基础。亲力亲为型(Hands-on) 印放手赋能型(Hands-off) **行为** 深入技术细节，编写和审查代码，提供具体技术反馈。 **行为** 充当"共鸣板（sounding board），提供职业建议，激发团队自主性。 **适用场景** 目标明确的项目；团队成员经验较浅。 **适用场景** 探索性研究；团队成员经验丰富。关键结论*：不存在唯一的“最佳”模式。管理风格需要与研究阶段和团队构成相匹配和平时期（Peace Time）-早期OpenAl 追赶模式（Catch-up Mode）-当下新创公司策略：鼓励自由探索，允许更多“离经叛道”的想法。策略：被迫首先复制现有技术以达到行业基线，然后才能寻求创新。 ①Schulman的警示*：长期处于“追赶模式”的公司，容易丧失“探索性研究的肌肉”。保持探索能力是避免陷入“跟随者陷阱”并实现长远超越的关键。 AI人才画像变迁：从“怪才”到“卓越工程师” 过去(2015-2017) 现在主流人才系统思维“怪才 (weirder)" 风险偏好高效执行技术栈成热& 规模化需求探索精神核心能力：研究品味核心能力：工程技能当前的技术前沿：三个待解的挑战挑战一：价值函数（Value Functions) 挑战二：持续学习 (Continual Learning) 挑战三：泛化能力 (Generalization) 现状：在当前LLM的RL任务中效果现状：主要依赖“上下文学习”和参现状：模型在长远时间尺度上比人类不佳，应用较少。数微调。更“脆弱（brittle）”，更容易“卡住展望：未来可能在某些场景下“卷问题：是否需要全新的思想来实现真 (get stuck)"。土重来（makeacomeback）”。正的“即时学习”。原因：人类拥有更强的自我纠错和资源调动能力。超越规模定律：下一代AI的自我进化之路，，方，向一：协同训“练（Co-trainin/g) (virtuouscycle)”实现自我提升。方向二：多智能体与博奔论(Multi-agent&Games) 设计精巧的游戏规则，让智能体在竞争或合作中涌现出解决复杂问题的能力，并提供自动化的课程。生成器 (Generator) 高质量学习信号 (FeedbackSignal) 生成内容 (Output) 通过博奔设计，涌现复杂智能验证器 (Verifier) AGI何时到来？两种力量的博奔审慎派观点：工程师的预测偏差类比自动驾驶，工程师倾向于系统性地低估复杂项目的完成时间。乐观派观点：AI的自我加速 AI工具加速自身研究，形成正反馈循环，可能打破传统线性预测模型。 x2-3 AI Schulman的结论：存在巨大的不确定性，两种力量的抗衡使得精准预测极为困难。顶级研究员的工作流：AI作为“科研合伙人文献检索：快速找到相关论文和开源库，极大提升信息获取效率。写作反馈：将LLM作为第一轮反馈的来源，快速打磨草稿。思想迭代：将一个模糊的想法交给模型进行扩展和完善，充当“思想的催化剂”。对新一代AI研究者的建议：坚守根本, 拥抱变化 LLM 新时代的要求 (The Toolkit) 拥抱LLM工具：必须学会将LLM高效地融入日常工作流程。警惕“黑箱”：理解每一行代码的价值依然至关重要，是做出真正突破的关键。大量阅读论文：建立广阁的知识面和深刻的研究品味。保持实验笔记：记录是思考和复盘的基础。不变的经典原则 (TheFoundation) 新篇章：Thinking Machines与专为AI专家打造的Tinker Tinker是什么? 定制化模型/算法 Tinker (抽象层) Tinker 定位：一个低阶(low-level)的微调APl。核心价值：抽象掉底层的GPU和分布式系统复杂性，让开发者专注于算法和模型本身。类比：为模型“训练"提供类似推理API的便利。硬件/基础设施 (GPU等) 当前的目标用户 ·资深的机器学习专家。 ·希望对训练过程有精细控制，而不愿花费时间在基础设施上。 Tinker的未来愿景：从专家工具到全栈赋能平台工具链行业解决方来构建更高级组件和工具链工具链 0 行业解决方来核心API&顶尖专家行业解决方案商业模式演进：从服务核心技术人群，扩展到赋能更广泛的企业和开发者生态。开发者与企业生态核心启示与战略洞察知识>算力：正确的“配方”能以数量级优势提升效率，是AI竞争的核心。文化是基石：容忍“正确弯路”的探索性文化是长期创新的土壤。人才演进：复合型工程人才在AI领域的价值日益凸显。，，新商业范式：赋能开发者的“卖水者”模式（如Tinker）将成为Al生态中的关键一环和重要投资机会。谢谢