计 算 机 研 究 与 发 展 DOI:
Journal of Computer Research and Development 60(6) :1191−1201,2023
从 ChatGPT 看 AI 未来趋势和挑战
桑基韬
1,2
于 剑
1,2
1 (北京交通大学计算机学院 北京 100044)
2 (交通数据分析与挖掘北京市重点实验室(北京交通大学) 北京 100044)
(jtsang@)
ChatGPT: A Glimpse into AI’s Future
Sang Jitao1,2 and Yu Jian1,2
1 (School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044)
2 (Beijing Key Laboratory of Traffic Data Analysis and Mining (Beijing Jiaotong University), Beijing 100044)
Abstract ChatGPT has been a significant breakthrough and drawn widespread attention. ChatGPT’s role in AI
development and its future impact is examined in this paper. We first introduce ChatGPT’s exceptional dialogue
generation capabilities, enabling it to handle nearly all natural language processing tasks and be applied as a data
generator, knowledge mining tool, model dispatcher, and natural interaction interface. We then analyze ChatGPT’s
limitations in factual errors, toxic content generation, safety, fairness, interpretability, and data privacy, and discuss
the importance of clarifying its capability boundaries. After that, we analyze the concept of truth and explain why
ChatGPT cannot distinguish truth from falsehood from the non-equivalence of three references. In discussing AI's
future, we analyze mid-to-short term technological trends and the long-term development path from the relationship
between perception, cognition, emotion, and behavioral intelligence. Lastly, we explore ChatGPT’s potential impact
on cognitive cost, education, Turing Test understanding, academia’s opportunities and challenges, information
cocoons, energy and environmental issues, and productivity enhancement.
Key words ChatGPT;AI development;dialogue generation;technical challenge;trustworthy AI;social impact
摘 要 在人工智能领域,ChatGPT 作为一种重要的技术突破,引起了广泛的关注 . 本文将探讨 ChatGPT 在人
工智能发展中的地位及其对未来 AI 的影响 . 首先, 介绍了 ChatGPT 所展现出的优秀对话生成能力, 使其几
乎可以胜任所有自然语言处理任务,并将作为数据生成器、知识挖掘工具、模型调度员、自然交互界 面在
各种场景得到应用 . 接着,分析了其在事实错误、毒害内容生成、安全性、公平性、可解释性、数据隐私等方
面的局限,并讨论了作为辅助人类工具的 ChatGPT 明确能力边界和提高能力范围的重要性 . 然后,从概念
经典表示对“真”定义进行了分析,并从概念三指不等价的角度阐释性了 ChatGPT 无法区分真假的原因. 在论
述 AI 未来时,从拓展应用、克服局限、探索理论分析了中短期技术趋势,并从感知、认知、情感、行为智能
四个层面的关系讨论了长期发展路径 . 最后,探讨了 ChatGPT 作为认知智能的代表,对包括认知成本、教
育要求、图灵测试认识、学术界的机遇与挑战、信息茧房、能源环境问题和生产力提升等方面可能产 生的影
响.
关键词 ChatGPT;人工智能发展;对话生成;技术挑战;可信 AI;社会影响
收稿日期: 2023-04-10;修回日期: 2023-04-12
基金项目:北京市杰出青年基金项目 (JQ20023);国家自然科学基金项目 (61832002)
This work was supported by the Beijing Natural Science Foundation for Distinguished Young Scholars (JQ20023), and the National Natural Science
Foundation of China (61832002).
通信作者:于剑(jianyu@)
自然 多轮
对话 交互
? ?
算 指 令
法 学 习
算 大 数 代 码
力 模型 据 训 练
高质量
对话
人类反馈
强化
上下文
学习
中图法分类号 TP391
2022 年 11 月 30 日 , OpenAI 公司发布了一款名为
ChatGPT 的软件 . 该软件在发布后的 5 天内, 用户数量
就超过了 100 万,2 个月内活跃用户数更是突破了 1
亿 , 成 为 了 迄 今 为 止 增 长 速 度 最 快 的 应 用 软 件 . 该
软件几乎可以完成自然语言处理的所有任务 , 因此
在营销、客服、教育、娱乐、咨询、翻译等行业有着
广阔的应用前景 . 这一成功也激励了 OpenAI 首席执
行官 Sam Altman, 他于 2023 年 2 月 24 日发表了一篇名
为 “Planning for AGI and Beyond”的 文章, 认 为 AGI (
artificial general intelligence , 通 用 人 工 智 能 ) 是 AI
systems that are generally smarter than humans, 需要为
AGI 的到来做准备∀. AGI 会是 AI 的未来吗?本文将
对此进行讨论.
1 ChatGPT 的“能”:生成
比尔盖茨将 ChatGPT 誉为自 1980 年现代图形桌
面环境 GUI 问 世 以 来 最 具 革 命 性 的 科 技 进 步 . 如果
说上一次让 AI 火出圈的 AlphaGo 所展现出的是在特
定领域的“专 ”, 这一次 ChatGPT 展现出的则是 AI 在广
泛应用场景的“通”: 这个“通”以正常人都会、都懂、都能
体验的对话形式呈现,让 AI——特别是自然语言处理
技 术 进 入 主 流 用 户 群 , 孕 育 出 了 这 一 现 象 级 产 品 .
具体而言, ChatGPT 在对话过程中展现出了自然对话
、多轮交互、上下文学习、思维链推理、实时反馈在
线 纠 错 、 能适应未训练任务以及 GPT-4 中新出现的
理解弦外之音的能力.
ChatGPT 背后的思想其实很简单:将所有语言任
务归为对话任务, 并将对话任务归为文字接龙的生
成 问 题. 自 然 语 言 处 理 领 域 的 学 者 普 遍 认 为 , ChatGPT
展现出的优秀对话生成能力对传统研究方法产生了
巨大挑战 . 1)从目标上看,自然语言处理旨在让计算
机能够以文字或语音的方式与人类进行有效 交 流 ;
而对话是人类日常生活中最基本的交流方式,如果
实现了人机自然对话,在一定程度上便达到了自然语
言处理的核心目标 . 2)从任务类型上看,自
这种模型在处理语言生成问题方面具有天然的优势. 所
以 ChatGPT 可以处理以前不同赛道的语言处理任务, 比
如翻译、问答、摘要、扩写、写作、润色、代码生成、语句
分析、段落理解等.
当然,ChatGPT 能够实现如今顺畅自然的人机对
话 , 不仅源于其对 GPT 语言 生成 技术 路 线的持续发
展, 还依赖于算法、算力和数据等多方面的支持 . 由
于 ChatGPT 并 未 开 源 , 也 没 有 发 布 论 文 透 露 具 体 细
节,我们只能基于 OpenAI 已公开的 GPT 系列技术发
展路线来推测这些能力背后的潜在原因 . 图 1 展示了
部分 ChatGPT 已展现出的能力及其背后主要技术原
因的对应关系 . 值得关注的是 , ChatGPT 许多能力背
后的原因仍在探索过程中 . 关于上下文学习的能力,
有学者认为模型从提示词 (prompt)提供的示例中确
定了待解决任务的自然语言指令(instruct) ,从而在无
需微调模型的情况下提升了问题回答的质量 [2]. 关于任 务
涌 现 和 多 任 务 迁 移 能 力 , 一 方 面 , 有学者认为指令 学 习 、 大 规 模 预 训 练 和 数 据 集
多 样 性 共 同 促 进 了 模 型 在 新 任 务 的 泛 化 能 力 [3]. 例 如 ,通 过 在 大 量 不 同 类 型 和
指 令 任 务 上 进 行 微 调 ,模 型 学 习 到 了 一 定 程 度 的 通 用 能 力 ,从 而 能 够 泛 化 到 未
见 过 的 指 令 和 场 景 . 另 一 方 面 ,不 同 任 务 的 划 分 具 有 一 定 的 主 观 性 , 其 本 质 上
都 可 以 建 模 为 统 一 的 自 然 语 言 生 成 任 务 . 大 型 预 训 练 语 言 模 型 通 过 学 习 大 量
训 练 数 据 ,掌握了 丰 富 的 语 言 知 识 和 多 种 任 务 之 间 的 共 性 ,进而利用 这 些 共 性
来提高不同任务的性能 . 然而 , 一些问题仍 然 没 有 明 确 答 案 , 例 如 : 何种模型规模
和训练数据量阈值可以产生任务涌现能力?涌现能力与模型规模和训练数据量之
间的量化关系如何? 同时,其他
能力
思维链
推理
在线
纠错
任务
涌现
弦外
之音
技术原因
然语言处理可分为自然语言理解和自然语言生成两 主要原因 可能原因 ? 原因未知
大类. 在谷歌的 T5 模型 [1] 推出之后,两类任务统一为单项语言生成的
文 字 接 龙 形 式 . 自 GPT-1 起 ,OpenAI 就一直坚持采用基于解码器结构的自回归语言
模型,
Fig. 1 Illustration of capabilities and the corresponding
technical reasons
图 1 能力与对应技术原因示意
∀
一些能力, 如在线纠错、理解弦外之音等, 其背后的原因
仍然有待发现.
OpenAI 首席科学家 llya Sutskeve 最 近 在 与 英 伟
达首席执行官黄仁勋的访谈中对 ChatGPT 能力学习
进行了解释:“ChatGPT 通过学习文本中的统计相关性
,获得了这个世界的一个压缩、抽象、可用的映射表
达”. 这让我们不禁思考:ChatGPT 是否学到了人类文
字 符 号 世 界 的 暗 知 识 ( tacit knowledge ) [4]. Michael
Polanyi 在 他 的 认 识 论 著 作 中 曾 提 到 : “We can know
more than we can say(我们所知者,远多于所能说者) ”.
可以确定的是: 机器学习模型通过统计海量符号语
料中的规律,能够学习到词汇、语法、乃至一定程度的
上下文和常识知识. 问题是:随着语料规模的不断增加
和统计规律的持续积累, 模型所建立的世界表达分辨率
越来越高、维度越来越丰富时,是否真的有可能学习到
人类情感、道德观念等支撑整个世界运行的更复杂的暗
知识?
在学术界积极探索 ChatGPT 能力背后的技术原
因的同时,工业界已在欢迎这项新技术,并将其优秀
的 对 话 生 成 能 力 融 入 各 种 应 用 场 景 . 根据 ChatGPT
对 话 的 对 象 和 本 身 的 定 位 , 我们将这些应用分成 4
个层次,如表 1 所示:
Table 1 Main
表 1
Applications Categories of ChatGPT
ChatGPT 主要应用类型
对话对象 定位 实现思路 应用场景
数据生成器 根据需求直接生成数据 对话、文案、代码生成
数据 知识挖掘工具 对原始数据再加工或分析挖掘 翻译、润色、摘要、文档管理
模型
应用
模型调度员
人机交互界面
调用其他机器学习模型协同
调用各类应用程序解决实际问题
模型拓展、智能中台
插件、智能操作系统接口
1) 数据生成器 . 根据需求直接生成数据 . 此类应
用 仅 输 入 用 户 需 求 , 利用 ChatGPT 的生成能力 返回
特定类型的数据 . 由于思路简洁且实现容易,数据生
成类应用在 ChatGPT 发 布 之 初 就 大 量 出 现 . 主要应
用场景包括对话生成 (客 服 、 虚 拟 数 字 人 )、文案生
成(法律文书、营销策划广告)和代码生成等 . 典型的
成功案例包括写作助手 Notion AI∀、营销文案生成工具 ∀.
2) 知识挖掘工具 . 对数据进行再加工或分析挖
掘.此类应用同时输入用户需求和待处理的原始数据,
利用 ChatGPT 强大的自然语言处理能力返回经过加
工的数据或挖掘出的新信息 . 知识挖掘类应用可以
分 为 离 线 和 在 线 两 种 形 式 . 离 线 应 用 通 过 调 用 类
C h a t G P T API 分析和挖掘私有数据等专业领域语
料构建知识库,为进一步应用提供知识支持. 在线应
用的主要场景包括翻译、润色、摘要生成、文档管理等.
一些典型案例包括搜索引擎摘要插件 WebChatGPT、
文档分析工具 ChatPDF 以及 OpenAI 官方随 GPT-4 发布
的摩根士丹利策略分析师.
3) 模型调度员 . 调用其他机器学习模型共同解
决用户需求 .此类应用同时输入用户需求、待处理数
据 以 及 多 个 可 调 用 的 机 器 学 习 模 型 , 通过 ChatGPT
作为人类与其他模型间的连接,设计解决方案、调用并管
理其他机器学习模型, 共同完成用户需求并输出结果.
这方面的典型案例是微软近期发布的系列多模态解决方
案 Visual ChatGPTPT[5]、 MM-ReAct[6] 和HuggingGPT[7],其通
过调度其他视觉基础模型来协同完成视觉和语音任务.
此外,AI 赋能一直以来的一个痛点问题是:智能中台需
要整合不同模型和技术,并根据业务需求扩展新的模型.
ChatGPT 有望实现智能中台的升级, 如提供友好的开发/
业务人员界面、实现模块化模型管理、简化技术集成和部
署, 从而提高 AI 赋能效率. 随着 ChatGPT 应用探索的
深入,相信模型调度员类型的应用将越来越受到关注.
4) 人机交互界面 . 调用更广泛的应用程序帮助
人 类 解 决 实 际 问 题 . 第一种形式是将 ChatGPT 嵌入
到特定应用中,从而极大地提升自然交互体验,如微
软的 365 Copilot 和 Copilot X 分 别 将 ChatGPT 融 入
Off ice 和 Github. 第二种形式是在 ChatGPT 搭建的自
然语言交互框架上开发各类信息服务应用 , 去年 10
月推出的开源库 LangChain 和 OpenAI 最近发布的插
件集 Plugins 都是大型语言模型应用开发框架的典型
尝试 . 正如 Windows 和 Android 分别是桌面和移动时
代的操作系统,ChatGPT 有望成为智能时代的操作系
∀
∀
统接口. 进一步畅想,如果把语言分为人类之间沟通的自
然语言和人与计算机之间沟通的计算机语言, ChatGPT
在一定程度上统一了二者:用自然语言实现了人和计算
机之间的沟通,不得不说“自然语言编程
(natural language programming) ”这 一 新 词 非 常 贴 切 .
从这个角度看,我们甚至可以大胆预测:人机交互界
面 将 从 磁 带 、 键 盘 字 符 、 鼠 标 图 形 全 面 进 化 到 自 然
语言时代.
以上围绕对话生成讨论了 ChatGPT 的具体能力、
背后的技术原因以及在不同定位下的应用形式 . 尽
管“对话生成”提供了无限的想象,但 OpenAI 的野心显
然并不止于此. 从名称和发布时间点来看,ChatGPT 似
乎只是一种过渡性技术的产品形式 . 在以对话这种
产品形式向主流用户群展示了强大的技术实力之后
,OpenAI 新发布的 GPT-4 并未继续在对话生成功能
上炫技,而是悄然接入了各类官方应用.
从生物学角度 , 语言和智能的演化过程相互促
进 . 人类智能在很大程度上依赖于 高度 复杂的 语言
系统 . 语言作为思维的载体和智慧的外在表现,其运
用能力很大程度上反映了认知能力和智能水平 . 语
言习得是认知发展的重要组成部分, 儿童在成长过
程中通过习得语言来理解世界, 并逐渐掌握其他认
知技能 . ChatGPT 等技术在语言生成能力的持续提升
能将人工智能带到什么高度,让人非常期待.
2 ChatGPT 的“不能”:负责
能力越大, 责任越大 . ChatGPT 展现出的强大能
力让主流用户群欣喜、学术界惊讶、工业界狂热 . 这
些能力让我们在使用它时感受到了与以往技术不同
的体验. 回顾人类历史上的几次技术革命,从早期的
石器、金属器具、机械设备、电气设备到近几十年的
计算机、互联网和智能手机,每一个阶段所发明的工
具都对人类生活产生了深远影响 . 在使用这些工具
时,我们可以清楚地意识到它们作为工具的定位,即
辅 助 人 类 来 完 成 任 务 . 然 而 , 在使用 ChatGPT 的过
程中, 我们经常会产生一种与另一个人对话的错觉,
尤其是当类似 Plugins 这类功能使其能够像人类一
样利用其他工具进行自我增强的时候 . 埃隆• 马斯克
在使用 ChatGPT 后的感受是“好到吓人”. 这种独特的
体验无疑将加速技术融入人类社会的进程 . 正如
OpenAI 自己对 ChatGPT 的 评 价 : “尽管 ChatGPT 还没
有实现真正的智能, 但它让人体验到了真正的智能
实现后, 每个人都能用它做各种他们想做的事情
的滋味”.
整个 2023 年 3 月都被各种生成式 AI 技术和产品
的 发 布 充 斥 ,如 Meta Alpaca、 GPT-4、 PaLM-E、文心
一言、Office Copilot、 Midjourney V5、英伟达新显卡
、 Github CopilotX 、 ChatGPT 插 件 、 Security Copilot
等 . 我们可以预见相关技术的应用领域将迅速拓展
、应用程度将大幅度加深. 人们在享受技术带来的便
捷和生产力提升的过程中, 对技术的态度将从习惯
逐渐转变为依赖 . 而当人们开始依赖这些技术代替自
己学习、思考、甚至决策时,有 2 个问题摆在我们面
前: 技术是否已经做好准备承担责任? 人类对技术的
信赖是否超出了它的能力?
实际上,ChatGPT 在使用过程中已被发现存在诸多
问题,如数学计算、未来预测、时空物理现实推理等方面
能力的局限,以及事实错误(幻觉)、生成毒害内容等方
面的不可控[8]. 下面从可信 AI 的 4 个维度对 ChatGPT 存在的问题展开讨论.
1) 安全性 . OpenAI 在官网上将“安全”列为五个目
录 之 一 , 在随 GPT-4 发 布 的 报 告 中 批 露 了 其 在 技 术
和评估两方面都设立了专门的安全小组 , 足见其对
安 全 性 的 重 视 . 然 而 , 和 所 有 机 器 学 习 模 型 一 样 ,
ChatGPT 仍存在着被对抗攻击的风险 . 一种典型方式
是提示语注入攻击(prompt injection attack) :在提示语
中混入恶意指令,可能绕过 ChatGPT 的安全机制,迫
使其执行意外动作,如泄露敏感信息、输出有害内容
等 . 例如 , ChatGPT 驱动的新 Bing 在受到攻击后泄露
了其内部代号“Sydney”;ChatGPT 被诱导规划抢劫方案
,甚至提供了购买抢劫道具的链接等.
2) 公 平 性 . 在 ChatGPT 之 前 , OpenAI 的 文 生 图
DALL-E 系 列 曾 被 发 现 存 在 输 出 性 别 和 种 族 歧 视
内容的问题 . 类似地, GPT-2、Bert、RoBERTa 等语言
模型在一个测试项目中也被发现具有严重的性别偏
见倾向 [9]. 尽管目前尚无系统性地研究分析 ChatGPT 在性 别 和 种 族 偏 见 方 面
的 表 现 ,但 已 有 研 究 发 现 它 存 在明显的语言敏感性 . 例 如 , 当用日语和俄语分别
询问一个日俄争议岛屿的归属问题时,ChatGPT 给出了截然不同的答案 [10].
3) 可 解 释 性 . ChatGPT 的 思 维 链 能 力可 以 在答
案中同时呈现推理过程 , 这在部分程度上解决了实
验室环境下模型可解释性的问题 . 然而,需要注意的
是 , 这种推理过程的解释是面向用户的 , 并不一定与
模型的实际运行机制准确对应 . 此外, ChatGPT 仍存
在很多尚未解释的行为 , 包括自我在线纠错、理解弦
外之音等能力, 以及出现事实错误(幻觉)等问题 . 由
于大模型本身的复杂性以及仅通过 API 提供服务的现实
限制,ChatGPT 对于用户和开发者都是完全的黑箱. 随
着应用场景的拓宽和加深,现有的解释性水平可能难以
满足透明度和回溯性等的要求.
4) 数据隐私 . 涉及训练阶段的数据侵权和推理
阶 段 的 隐 私 泄 露 两 个 方 面 . 大模型训练需要的海量
数 据 多 来 自 网 络 , 其中难免包括未经授权的版权保
护内容 . ChatGPT 虽然可能避免语句层面的抄袭 , 但
难以避免语义上的深度抄袭 . 2023 年,大模型领域发
生 了 多 起 版 权 侵 权 案 .例 如 , 3 名艺术家指控 Stable
Diffusion 使 用 其 版 权 作 品 作 为 训 练 数 据 , 而微软和
OpenAI 因其开发被指控其开发的编程助手 Copilot
涉嫌复制 Github 上 的 开 源 代 码 而 受 到 指 控 . 在推理
阶段 , 攻击者有可能通过逆向攻击等手段 , 利用模型
输 出 的 结 果 来 反 向 推 导 出 训 练 数 据 中 的 隐 私 信 息 .
GPT-2、 BERT、 RoBERTa 等 语 言 模 型 均 被 发 现 存 在
数据隐私泄露的风险 [11]. 随着模型规模和功能多样性的 增 加 , 这 种 风
险 可 能 进 一 步 加 大 : 模 型 规 模 越 大 , 其 记 忆 能 力 越 强 ; 功 能 越 多 样 化 , 可 被 利 用
的信息和攻击方式也越丰富 . ChatGPT 自身代号的泄露便证实了这一点 .
从生成式 AI 模型选择的技术路线和当前发展水
平 看 , 这些问题既可以归结为大型语言模型固有的
结 构 局 限 , 也可以归结为将符号任务统一建模为对
话问题的过度简化 . 关于这条技术路线的未来发展,
同时存在着乐观和悲观两种观点 . 乐观派认为,人脑
神 经 元 突触 连 接 总 数 约为 一 百 万 亿 , 随着语言模型
参 数 量 的 不 断 增 加 , 模型可能在某个时刻实现量变
到质变的跃迁 , 这些问题也会自然消失 . 然而 , 包括
乔姆斯基、Stuart Russell 等大佬在内的悲观派则持相
反 观 点 , 他们认为端到端的深度学习与人类进行推
理 和 使 用语 言 的 方 式 有着 巨 大 差 异 , 依靠更多数据
和算力无法消除这些缺陷或实现真正的智能.
不 讨 论 技 术 路 线 的 选 择 或 者 观 点 的 对 错 , 不管
生成式 AI 模型的能力演进到何种程度 , 其定位始终
是帮助人类更好地完成任务的工具 . 作为工具,首先
应该明确能力边界,即“做自己能做的事”. 在认知心理
学中,约瑟利窗口(Johari Window)将人际关系划分为
公开区、盲区、隐藏区、未知区四个象限 [12]. 参照这 种 方
法 , 如 图 2 所示,我们可以沿“自知”和“能力”
2 个维度绘制一个坐标系,智能工具处理的任务将落
在其中一个象限内 . 当任务 落在 “自知 ”负半轴的 2 个
象限时,可能会出现不可预知的问题:在隐藏区时, 模
型“不知道自己能”, 可能在收到用户反馈后将原
本正确的答案改为错误, 或接受用户错误反馈的引导;
在未知区时, 模型“不知道自己不能”, 可能会产生事实错
误幻觉,一本正经地胡说八道.
能力
自
知
Fig. 2 Awareness-capabilities coordinate system
图 2 “自知”–“能力”坐标系
根据“自知”–“能力”坐标系,首先需要明确能力边界
,即扩大“自知”正半轴 2 个象限的覆盖范围,使更多任
务落入公开区和盲区. 在公开区时,模型可以自信地
回答用户的问题;而在盲区时,模型应该承认能力缺陷
,避免回答不知道的问题,或者虚心接受用户的反馈
引导 . PAL[13] 是 开 发 隐 藏 区 的 一 个 例 子 ,通过 在 提 示 词 中 注 入 包 含 推 理 过
程 的 程 序 示 例 ,成功挖掘了模型在原本容易回答错误的数学推理类任务的解决
能力 . 在明确能力边界后 , 需要进一步提升模型 的 能 力 ,即 扩 大 “能 力 ”正 半 轴 、
尤 其 是 第 一 象 限 的面积 , 使更多的任务从盲区转移到公开区 . 缩小盲区 的 一 个 例
子 是 ReAct[14],它将推理和行动结合 ,通过调用搜索等插
件从网络等外部资源中逐步、有选择性地收集和处
理新信息, 从而提高了模型在各种复杂场景下的解
决能力. 另一个最新提出的框架 Refl- exion[15],它在
ReAct 基础上加入了自省(Reflect)功能,通过试错的方
式,在寻找自身能力边界的同时,探索新任务的解决
方案 . 这是一个在同时确定能力边界和提高能力范
围方面很有意思的尝试.
当然,“自知”–“能力”坐标系只是一个理想和简化的
框架. 人类在执行任务时,通常会考虑诸如道德、伦理
、公平等价值观. 而 ChatGPT 并不具备人类的价值观
和判断力, 可能会生成与事实相悖的错误信息和误
导性的建议 . 比如, 当用户询问“林黛玉是如何倒拔垂
杨柳的”, ChatGPT 会一本正经地介绍相关具体细节.
事实上,《林黛玉倒拔垂杨柳》是一部网络小说, 中文
论坛上也有许多对这一虚构情节的讨论 . 模型在学习
这些语料时无法区分虚构和现实, 因此产生了这个
尴尬的回答 . 随着 GPT-4 的发布, 可以预见ChatGPT
将有能力在符号世界中实现自动化生成. 然而,它依
然不能确保所生成内容的真实性,自然更无 法对生成
结果承担责任.
隐藏区
“不知道自己能”
公开区
“知道自己能”
∀确定能力边界
未知区
“不知道自己不能”
∀提高能力范围
盲区
“知道自己不能”
内涵: 指心
符号: 指名
3 什么是“真”?
应,这些实体遵循物理世界的规律,可以独立于人的主观
感受.
为了解释为何 ChatGPT 无 法 保 证 结 果 为 真 , 首
先需要探讨什么是“真”. “真”的定义有很多,本文采用
亚里士多德的经典定义 [16]:说是者为非,非者为是,即
为假; 而说是者为是, 非者为非, 即为真 . 基于此,
世界层次 概念经典表示 人工智能分类
Tarski 提出一个更形式化的“真”的定义[17]:
X 是真语句当且仅当 p,
其中 p 代表任意语句,X 是语句 p 的名称.
即,一个语句是真的,当且仅当它描述的情况确实发
生了. 比如:“树在长芽”是真语句当且仅当树在长芽, 即“
树在长芽”是真语句当且仅当树在长芽确实发生了.
但是, 这个看似合理的“真”的定义却隐含矛盾.
Tarski 转述了乌卡谢维茨的加强版说谎者悖论:
令 C 是“C 不是一个真语句”的名称,因此,有如下 2
个假设:
1) α 假设:C=“C 不是真语句”;
2) β 假 设 : “C 不 是 真 语 句 ”是 真 语 句 当 且 仅 当 “C
不是真语句”.
综合 α 假设与 β 假 设 , 即 可 以 得 到 : C 是真语句
当且仅当“C 不是真语句”,悖论.
Tarski 关 于 “真 ”的 定 义 和 上 面 的 推 理 似 乎 都 没有
问题, 那问题出在哪里呢? 我们认为问题出在概念的
定义上,因此需要仔细考察概念的定义.
众所周知, 概念的经典表示由 3 部分组成: 符号
表示、内涵表示和外延表示 . 其中, 概念的符号表示
由概念名称表示 , 概念的内涵表示由描述概念特性
的命题表示 , 概念的外延表示由概念所包含的实例
的经典集合表示 . 比如,“偶数”这个概念, 其中文符号
表示是“偶数 ”这个词; 内涵表示是 “能被 2 整除的整数
”这个命题; 外延表示是“包含所有偶数的集合”:{…,
−6, −4, −2, 0, 2, 4, 6, …}.
如图 3 所示, 根据经典表示, 每个概念具备 3 种
功 能 : 指 名 、 指 心 和 指 物 , 同时对应着波普尔的 3 个
世界 : 符号世界 、心理世界和物理世界 [18]. 概念的指名 功
能 ,是 指 每 个 概 念 都 指 向 认 知 世 界 或 符 号 世 界 中 的 一 个 实 体 ,用 所 指 对 象 的 特
定 符 号 名 称 来 表 示 . 这 些 符 号 名 称 可 以 组 成 各 种 不 同 的 语 言 . 概 念 的 指 心 功 能
,是 指 每 个 概 念 也 指 向 人 类 心 理 世 界 中 的 实 体 , 代表这个概念在心理世界里的
对象表示 . 概念的指 物 功 能 ,强 调 概 念 与 物 理 世 界 中 的 实 体 之 间 的 对
对 应 功 能 实 现
Fig. 3 Classical representation of concepts
图 3 概念的经典表示
如果从概念的表示来实现人工智能,指名、指物、指
心对应了 3 条路径:符号主义、连接主义和行为主义. 如
果从概念的功能角度来对人工智能分类,可以分为认知
智能、情感智能和行为智能. 认知智能实现了概念的指名
功能, 即处理和理解符号世界的问题. 情感智能则实现了
概念的指心功能, 主要关注心理世界中的问题. 而行为智
能则体现了概念的指物功能, 主要解决物理世界中的问
题. 然而, 如果要实现概念的三指功能, 必须首先解决机
器的感知问题. 解决机器感知问题是最基本的人工智能,
通常被称为感知智能. 感知智能主要关注机器的输入输出
处理, 是实现认知智能、情感智能和行为智能的基础.
在概念的经典表示下,概念的指名、指心与指物功
能是等价的,其符号表示、内涵表示和外延表示在功能
上也是可以互换的. 这是因为概念的经典表示存在 6 条
预设:
1) 概念的外延表示可以由集合{x1, x2, …,}表示;
2) 概念的内涵表示存在且用命题∀xP(x)表示;
3) 概念的名称存在,且用符号表示 A;
4) 概念的外延表示与内涵表示同名 : A={x1, x2,
…,}=“∀xP(x)”;
5) 概念的表示唯一, 即同一个概念的表示与个体无
关:∀α(Aα=A),α 代表一个人;
6) 概念的指称等价 , 即其内涵表示与外延表示
在指称对象的时候功能等价∀x(x∀A↔P(x) ) , 其中 ,
A={x1, x2, …,}.
根据上述概念的经典表示 , 可以知道概念的指
名、指心与指物功能是等价的 . 在日常生活中, 这种
情况非常普遍,因此说真话是通常的情形 . 罗素曾给
出一个清晰的论证 [19]: “除非假定说真话是一种通常
的情况,否则没有人能够学会说话:假设当你的孩子
看 到 一 条 狗 时 , 你 随 意 地 说 出 ‘ 猫 ’ 、 ‘ 马 ’或 者 ‘ 鳄
鱼’,那么当他看到的不是一条狗时,你无法通过能
物理世界
心理世界
符号世界
外延: 指物 行为
智能
情感智能
认知智能
感知智能
通过说‘狗’来欺骗他. 因此,说谎是一种派生的行为, 它
预设了说真话是通常的规则. ”在上述罗素的论证里,可
以清楚地看到,其预设了概念的指名与指物等价,即假
设概念的三指等价是真的必要条件.
如果概念的指名、指心与指物功能等价,则可以
认为: 认知智能、情感智能与行为智能等价 . 这意味
着一旦实现了认知智能, 也就同时实现了情感智能
和行为智能 . 同时, 人工智能的 3 条实现路径——符
号 主 义 、 连 接 主 义 和 行 为 主 义 ——也 是 等 价 的 .
ChatGPT 和 GPT4 的出现, 表明认知智能已经取得了
巨大的进步. 如果概念的三指等价,那么认知智能的
巨大进步预示着情感智能和行为智能将取得同样的
巨大进步. 从这个角度看,实现 AGI 似乎也有可能性.
然而, 乌卡谢维茨悖论告诉我们概念三指等价
在逻辑上并不永远成立: 它内蕴矛盾 . Tarski 的真定
义实际上等价于如下命题: 概念的指名功能为真当
且仅当概念的指物功能为真. 显然,概念的经典表示
也预设了 Tarski 的真定义. 仔细分析乌卡谢维茨悖论
的逻辑推理, 可以发现 α 假设与 β 假设都预设了“概念
的指名功能为真”与“概念的指物功能为真”等价, 这必
然导致悖论. 实际上,在概念的三指等价条件下, 针对
包含算术系统的逻辑系统, 哥德尔证明了不完全性
定理,而 Tarski 得到了著名的真之不可定义定理. 这
些都说明在复杂一点的符号系统内部,不可能解 决
何 为 真 、 何 为 假 的 问 题 . 因 此 , 从 理 论 上 讲 ,
ChatGPT 和 GPT4 同样无法解决真假问题 . 因此 , 有
时必须放弃概念的三指等价假设 . 一旦放弃了这个
假设,就会发现认知智能、情感智能与行为智能是不
可能等价的 . 实际上, 现实生活中, 这三种智能从未
等价过.
4 AI 的未来
很多人认为 ChatGPT 已经开启了第四次技术革
命. 面对这种尺度的变革,我们很难在早期准确预测
未来的发展 . 在这里,我们仅从中短期技术趋势和长
期发展路径 2 个 方 面 , 来 探 讨 在 当 前 阶 段 我 们 对 这
一技术的理解.
中短期技术趋势
OpenAI 发明 ChatGPT 对于人工智能领域的影响,
可以类比哥伦布发现了美洲大陆. 在哥伦布发现美洲之前
,探险家们一直渴望着探索新大陆,并尝试使用各种方法
去寻找它. 然而,即使是经验非常丰富的探险家,也并不
确定新大陆是否真实存在,以及哪种
航海方法更为有效. 哥伦布的成功不仅坚定了后来探险
家们的信心, 更在一定阶段内统一了寻找新大陆的方法
:在新的突破性技术出现以前,看似简陋的帆船和罗盘已
经足以带领人们到达目的地.
同样地,ChatGPT 的诞生为人工智能领域注入了
信心并指明了发展方向 , 展示了“大力出奇迹”的可能
: 通过不断扩大神经网络的模型规模和增加数据量
, 可以在 AI 的 道 路 上 取 得 实 质 性 的 进 展 . 在这一目
标和技术路线的共识下,我们从拓展应用、克服局限
和探索理论 3 个方面探讨人工智能领域中短期的可
能技术趋势.
拓展应用
1) 垂直化 . ChatGPT 发布初期, 人们尝试在提示
词 中 注 入 角 色 信 息 以 增 强 垂 直 领 域 对 话 质 量 . 为克
服提示词 token 数量限制以融合领域语料,有工作提
出基于 LangChain 框架,将领域文档切片后分布式输
入,但这种做法存在私域数据泄露风险,解决思路之
一是利用 ChatGPT 控制和调用其他领域模型来提高
垂直化能力 . 此外,麻省理工学院最近提出保护隐私
的迁移学习框架 Offsite-Tuning[20], 可在不访问完整模型 的 前 提
下 ,在 下 游 领 域 数 据 上 微 调 数 十 亿 级 参 数 的 基 础 模 型 . 对 于 需 要 构 建 领 域 模 型
的 场 景 , 在不泄露 基 础 模 型 和 领 域 数 据 的 情 况 下 ,实 现 对 通 用 基 础 模型的领域
微调非常重要 .
2) 个性化. 个性化可视为垂直化的极致,针对个
人需求和偏好的个性化微调模型能够提供更精确的
服务. 典型的应用场景包括个性化推荐系统、个性化
教育辅导、个人 AI 助理等 . 微软于 2023 年 4 月 4 日开
源了大模型协作项目 JARVIS, 旨在在大型语言模型
与 机 器 学 习 社 区 的 其 他 模 型 之 间 建 立 连 接 .
JARVIS 这个名字让我们对钢铁侠中同名的 AI 助理
产生更多联想 . 如果未来个性化模型可以通过多模
的人机交互来增强, 实现与人类对世界的同步感知、
学习和成长, 这样的 AI 助手能够更好地理解个性化需
求、情感和行为,协助我们实现更高效的工作、学习和
生活方式. 在这个过程中,我们需要解决诸如中心平
台式 AI 如何保护个人数据以及在个体层面部署模
型等问题.
3) 工程化 . ChatGPT 的诞生在某种程度上是工程
化的胜利 , 而它的成功无疑将进一步加速 AI 技术从
实验室研究走向工程化和产业化 . 从必要性上看,随
着 数 据 量 和 计 算 资 源 需求 的 增 加 , 工业界拥有更好
的 条 件 主 导 大 模 型 研 发 , 相关实验室研究也需调整
研究范式和目标以适应工程化需求 . 从可行性上看,
ChatGPT 的成功让工业界看到了 AI 技术在各行业落地
和价值实现的可能, 众多开源项目和成熟技术框架的出
现则为 AI 技术工程化提供了支持. 从重要性上看,工程
化是一个学科发展和成熟的标志,AI 技术的工程化有助
于进一步优化和完善相关技术, 激发学术创新活力,推
动 AI 领域的整体发展.
克服局限
1) 多模态增强 . 多模态大模型的发展逐渐以语
言模型为主,将视觉、语音等多模态信息映射到语义
符号空间进行处理 . 近年来的多模态解决方案更是
提出直接以大型语言模型为基座来拓展多模态能力,
如 Visual ChatGPT 和 MM-ReAct 以 ChatGPT 为 中 心 调
度其他视觉模型、PaLM-E 固定语言模型训练额外的
视觉编码器等. 然而,人类在进行多模态学习时并不
完全依赖于符号空间, 大脑神经网络在不同感官区
域间传递、整合信息,同时结合视觉形象、空间关系
等非符号性表示 . 由于多模态世界建模更为复杂,
以语言模型为主或是现有条件下的一种技术折衷 .
随着多模态数据量与模型参数继续增加, 有望在视
觉、语音等空间实现真正的多模态生成能力. 如被细
线系着的气球照片,无需映射至语义空间,模型即可
预测线剪断后的情景.
2) 人 机 交 互 增 强 . 有人将现在的 ChatGPT 比作
一个博览群书的神童, 却从未亲身体验过这个世界 .
经典的认知实验发现,与被动旁观的猫相比,具有自
由活动能力的猫可以通过主动与环境互动并获得反
馈, 从而更好地学习行为能力 [21]. 在 一项 微 软 的 最 近研究中,
ChatGPT 已经能够根据人类的要求自动编写代码并指挥无人机协助完成任务 [22].
通过进一步考虑生物学特性、身体感知和行动的影响,有望实现与真实 物 理 世 界 的
双 向 交 互 ,在 自 主 行 为 反 馈 中 不 断 提 升自身智能水平 .
3) 可 信 增 强 . 之 前 的 讨 论 已 概 括 了 ChatGPT 当
前的局限和进行可信研究的必要性 . 可以预见,每个
大模型公司都将需要一个专注于可信的安全和伦理
团队 . 这就不难理解 OpenAI 的系列举措:GPT-4 在训
练完成后经过半年的评估和修正才发布、用 30 余页
技术报告介绍安全补丁 System Card, 以及对模型评估
框架 Evals 的开源 . 即便如此,ChatGPT 还是因隐私问
题 在 意 大 利 遭 禁 , 并遭到包括马斯克和沃兹尼亚克
等上千名知名人士的联名叫停 . 值得注意的是,除了
安全、公平、可解释、数据隐私等经典可信问题外 ,
ChatGPT 还会带来模型回音壁等新问题 . 目前 , 使用
ChatGPT 生成的对话数据进行训练已经成为公开的
秘 密 , 甚至出现了专门收集 ChatGPT 对 话 的 网 站
S h a r e G P T . 其实,在人类反馈强化 RLHF 后,就有学
者提出了基于智能模型反馈强的 RLAIF 框架 [23] . 随着
模 型 规 模 继 续 增 加 , 可 供 训 练 的 自 然 数 据 面 临 枯 竭 , 模型生成标注和反馈数据在
模型间的回音壁效应将加 剧 可 信 问 题 . 此 外 ,垂 直 化 、 个 性 化 、 多 模 态 等 技 术 趋
势 也 会 带 来 新 的 可 信 挑 战 . 关 于 可 信 增 强 的 方 案,考虑到传统 AI 测试基准已不足
以评估模型能力, 我 们 需 要 尽 快 构 建 新 的 可 信 测 试 基 准 :包 括 可 信
b e n c h m a r k 数 据 集 和 可 信 测 试 框 架 . 此 外 ,为 了 准 确 评 估 模 型 的 应 用 成 熟 度 ,
我 们 应 该 研 制 面 向 大 型 语 言 模 型 的 可 信 标 准 ,以 规 范 不 同 可 信 等 级 的 模 型 在 相
应的应用场景中使用 . 同时 , 结合工程化的发展趋势,我们可以参考软件开发周期
中的测试–调试闭环, 在基础模型和下游模型 2 个 层 面 进 行 迭 代 优 化 ,以确保模
型在大规模应用场景中的可信性 .
探索理论
1) 预训练模型机理研究 . 近年来, 计算机视觉和
自 然 语 言 处 理 领 域 的 技 术 框 架 逐 渐 趋 同 . 学习范式
从特征工程、深度监督学习转向自监督预训练,模型
结构从 CNN、 RNN 发展为 Transformer. 针 对 自 监 督
预训练和 Transformer 结 构 , 仍 有 很 多 基 础 性 问 题 需
要研究,如自监督学习泛化理论、预训练与微调的动
态平衡分析、Transformer 结构的定性和鲁棒性分析
等 . 对于 ChatGPT, 除了探究其在线纠错、理解弦外
之音等原因未知的能力外, 还需进一步研究任务涌
现能力与模型规模以及训练数据量等的关系, 为未
来模型设计和实际应用提供指导.
2) 学 科 交 叉 融 合 研 究 . ChatGPT 作 为 催 化 剂 , 不
仅将推动人工智能学科内部计算机视觉和自然语言
处 理 领 域 的 进 一 步 整 合 , 而且将激发学术界和工业
界更加深入地探讨和实践人工智能和其他学科交叉
融合以及跨学科应用的可能性 . 以脑科学为例,结合
脑 结 构 和 人 工 神 经 网 络 研 究 , 我们将更有可能揭示
智 能 产 生 的 本 质 原 因 . 实 际 上 , OpenAI 的 首 席 执 行
官 Sam Altman 早就投资了可控核聚变公司 Helion 和
生物科技公司 Retro Biosciences. 科 技 部 近 期 启 动 的
“AI for Science”专项部署工作更是明确指出了将人工
智能与数学、物理、化学、天文等基础学科紧密结 合,
重点攻关药物研发、基因研究、生物育种研发、新材
料研发等领域的关键问题.
长期发展路径
我们沿着概念经典表示和人工智能分类的讨论来看
AI 未来可能的发展路径. 《左传》里有句名言,
难
“太上有立德,其次有立功,其次有立言”. 显然,立德属于心
理世界,是情感智能的范畴;立功属于物理世界, 是行为
智能的范畴; 立言属于符号世界, 是认知智能的范畴. 应
该指出, 这 3 个世界既互相独立又相互依存. 比如,符
号世界也必须通过心理世界表示才能为人所感知, 同样
符号世界也必须通过物理世界显现展现才能传播. 对于
人而言,认知的物理世界本身也属于符号世界的示例,
没有成为符号示例的物理对象难以被符号世界记录,同样
,物理世界也是通过心理世界被人感知.
这 3 个世界各自都足够复杂. 在符号世界中, 有自
然符号、模拟符号和象征符号. 其中自然符号直接用物
理世界中的对象作为符号, 比如图书馆里学生用书包或
其它个人物品占座. 此时的书包或个人物品就有了符号
意义, 属于典型的自然符号. 图像、视
的物理个体, 即情感必须在认知层面具备具身特性 .
理论上,西施难以与青蛙共情,夏虫不能与秋雁同语 .
对 于 机 器 来 说 , 情 感 智 能 是 基 于 认 知 智 能 的 , 情感智
能 也 是 依 赖 于 机 器 内 部 的 符 号 操 作 . 仅有认知智能
并不能实现情感智能 , 情感智能的实现难度髙于认
知智能, 情感智能预设心理世界内的概念三指等价 .
行为智能主要解决物理世界的智能问题 , 不但受限
于作为行为主体的自身物理条件 , 也受限于其所处
的物理环境 , 约束最多 , 因此实现难度最大 . 莫拉维
克悖论实际上是对行为智能实现难度最大的一个简
单说明 . 对于行为智能来说,任一概念的三指等价都
需要检验 , 任一概念的三指等价都不能先验预设成
立 , 这正是莫拉维克悖论背后隐藏的挑战 . 图 4 比较
清楚地说明了概念的三指等价性从默认成立到必须
检验所对应的不同智能阶段.
频等是典型的模拟符号. 文字是最常见的象征符号. 至于
心理世界、物理世界的复杂性,更是众所周知.
三指等价适用性 人工智能分类
为了计算方便,通常假定概念的三指等价,即符号世
界、心理世界、物理世界三界同构. 比如, 符号主义的物
理符号系统假设认定物理符号系统具有产
三界异构&局部适用 行为
智能
实
三界异构&单界适用 情感智能
现
认知智能 度
生智能行为的充要条件, 这暗示了符号世界与物理世界
等价. 连接主义认为只要能模拟大脑的思考功
三界同构&全局适用 感知智能
能 就 足 够 了 , 实际上它假设了心理世界 (或 其 子 集 )
与物理世界等价 . 行为主义则认为只要能在物理世
界实现智能 , 不需要知识、表示和推理 , 只需要感知
和行动,这意味着符号世界、心理世界是物理世界或
其子集 . 但是, 3 个世界并不同构 . 比如, 乔姆斯基曾
经 写 过 一 个 著 名 的 句 子 : “Colorless green ideas sleep
furiously. ”这个句子在符号世界可行 , 但在心理世界
和物理世界就失去了可行性 . 因此, 3 个世界同构假
设仅是一种有用的简化,并不总是成立.
由于 3 个世界并不同构,它们之间的关系相当复
杂 . 这导致在 3 个 世 界 中 实 现 智 能 的 难 度 也 大 为 不
同 . 从共性上讲 , 无论在哪个世界实现智能 , 首先必
须解决最基础的感知问题,即输入输出问题 . 从难度
上看, 感知智能、认知智能、情感智能、行为智能依
次增加 . 原因很简单: 感知智能保持了 3 个世界同构
假设 . 从认知智能开始, 我们必须放弃 3 个世界同构
的假设, 只能假设 3 个世界的某些受限子集同构 . 认
知智能旨在解决符号世界的智能问题 , 其实现主要
受 制 于 符 号 世 界 的 规 律 , 这 些 规 律 可 能 是 显 知 识 , 也
可能是暗知识 , 但认知智能依然在符号世界内预设
概念的三指等价 . 情感 智能主要解决心 理世界的 智
能问题,除了受制于心理世界外,也受制于情感所在
Fig. 4 Equivalence of three-way concept reference
intelligence levels
图 4 三指等价在不同层次智能的适用性
根 据 以 上 分 析 , 人工智能的发展路径可以预测
为: 首先成熟的是感知智能, 次之为认知智能, 再次为
情感智能,最后是行为智能 . 这与人工智能目前的现
状相符 . 当前, 感知智能的问题已经大部分解决, 已
经融入人们的日常生活 . 得益于 ChatGPT 等技术, 认
知智能的问题已经初步解决, 即将走入人们的生活 .
情 感 智 能 的 问 题 部 分 解 决 , 受 限 可 用 , 比如在三界
同构假设成立时 , 可以使用类 ChatGPT 技术 . 行为智
能 的 问 题 尚 极 具 挑 战 性 , 在目前的情况下可用性受
到严重限制,如在工厂等封闭场景下部分可用,人们
日 常生活 的特定 需求 如果 能保证 场景封 闭 , 即对应
的 相 关 概 念 可 以 保 证 三 指 等 价 成 立 , 则行为智能可
以 实 现 , 如自动售货机、自动烤肠机、电饭锅、懒人
锅等。保证概念的三指等价是行为智能成功的必要
条件.
粗略地说 , 感知智能是人工智能中的基础智能 ,
可视为人工智能的 阶段 . 认知智能是人工智能的
阶段 . 情感智能则为人工智能的 阶段 . 行为智
能可以看作是人工智能的 阶段 . 目前的人工智能
发展已经进入了 AI 时代, 未来的 AI 和 AI
还有待努力.
5 ChatGPT 的影响
人 工 智 能 发 展 至 今 已 迈 入 认 知 智 能 时 代 , 确实
取 得 了 重 大 进 步 . 虽然离 AI 和 AI 距 离 尚 远 ,
但其依然将对我们的生活产生重要影响:
1) 生成式人工智能的成功提醒我们, 符号世界、
心理世界、物理世界三界同构假设不是恒真 . 今后,
各种符号的证据力量需要检测, 不能预设概念的三
指等价为真 . 比如, 不能再简单地认为, 有图有视频
就有真相了. 这不仅大幅增加认知成本,还考验认知
能力. 目前,国内外已有用生成式人工智能诈骗的案
例。如何防范这类诈骗是未来要面对的挑战.
2) 每 次 技 术 进 步 都 对 教 育 提 出 了 更 高 的 要 求 ,
这次也不例外 . ChatGPT 展现出的认知水平要求人们
更 注 重 提 出 问 题 和 独 立 判 断 的 能 力 . 鉴于符号世界
的人类普适性,教育尤其是高等教育需要提前布局.
3) ChatGPT 表明认知智能已可用,但依然不能通
过原始的图灵测试 . 这表明图灵测试是有启发性的
思想实验,但不是衡量智能的实践标准.
4) ChatGPT 的 成 功 为 国 内 人 工 智 能 学 术 界 带 来
机遇与挑战 . 机遇包括提高学界对相关问题的理解,
例 如 任 务 的 主 观 性 , 以往的多任务可能在新视角下
视 为 单 任 务 ; 同 时 , 全社会也提升了对人工智能潜在
能力的认识 , 这将极大推动相关产业的发展 . 然而 ,
挑战也不容忽视 : 应用研究方面 , 社会对技术的期待
提高, 更加注重实效性和实用性; 理论研究方面, 该技
术已领先于理论,亟需加强理论研究.
5) 类 ChatGPT 技术的大规模应用可能导致意识
形 态 等 方 面 的 信 息 茧 房 效 应 . 特别是类 ChatGPT 是
中心化的人工智能平台, 容易使人们在获取信息时
只接触到特定内容和片面观点, 这一方面会加剧社
会分化,另一方面会降低观点多样性,阻碍创新思维
的产生, 为社会带来潜在危害.
6) 大模型对计算量的巨大需求可能会加剧全球
能 源 消 耗 , 并对环境产生不良影响 . 我们期望 AI for
science 通 过 加 速 科 学 发 现 , 更迅速地找到可持续能
源解决方案和新的节能技术, 从而尽量降低这些负
面影响.
7) ChatGPT 在提高生产力方面潜力巨大 . 通过自
动化处理一些繁琐的、重复性的任务,它可以解放人
们的时间和精力,让人们关注于更有价值、更具创造
力的工作,进一步推动社会创新和发展.
8) ChatGPT 的出现 , 预示人工智能进入 AI 时
代 , 但距离 AI 与 AI 尚远 . AI 与 AI 均要
求 具 身 . 一 旦 具 身 , 如何通用? 从概念的表示理论
来看,AGI 似乎只可能是 AI 的 理 想 , 难以成为 AI 的
现实.
作 者 贡 献 声 明 :桑基韬负责撰写第 1、2 、 节 ;
于剑负责确立论文框架、撰写第 3、、5节.
参 考 文 献
[1] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer
learning with a unified text-to-text transformer[J]. The Journal of
Machine Learning Research, 2020, 21(1): 5485−5551
[2] Zhou Y, Muresanu AI, Han Z, et al. Large language models are human-
level prompt engineers[J]. arXiv preprint, arXiv: , 2022
[ 3 ] Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large
language models[J]. arXiv preprint, arXiv: , 2022
[4] Polanyi M, Sen A. The Tacit Dimension[M]. Chicago, IL: University
of Chicago Press, 2009
[ 5 ] Wu Chenfei, Yin Shengming, Qi Weizhen, et al. Visual ChatGPT:
Talking, drawing and editing with visual foundation models[J]. arXiv
preprint, arXiv: , 2023
[ 6 ] Yang Zhengyuan, Li Linjie, Wang Jianfeng, et al. MM-REACT:
Prompting ChatGPT for multimodal reasoning and action[J]. arXiv
preprint, arXiv: , 2023
[7] Shen Yongliang, Song Kaitao, Tan Xu, et al. HuggingGPT: Solving AI
tasks with ChatGPT and its friends in HuggingFace[J]. arXiv preprint,
arXiv: , 2023
[8] Borji A. A categorical archive of chatgpt failures[J]. arXiv preprint,
arXiv: , 2023
[9] Liu Yiran, Liu Xiao, Chen Haotian, et al. Does debiasing inevitably
degrade the model performance[J]. arXiv preprint, arXiv:
, 2022
[10] Zhuo TY, Huang Yujin, Chen Chunyang, et al. Exploring AI ethics of
ChatGTP: A diagnostic analysis[J]. arXiv preprint, arXiv:
, 2023
[11] Carlini N, Tramer F, Wallace E, et al. Extracting training data from
large language models[C] //Proc of USENIX Security Symp.
Berkeley, CA : USENIX Association, 2021: 2633−2650
[ 12 ] Luft J, Ingham H. The Johari window, a graphic model of
interpersonal awareness[C] //Proc of the Western Training Laboratory
in Group Development. Los Angeles: University of California, Los
Angeles, 1955, 246
[ 13 ] Gao Luyu, Madaan A, Zhou Shuyan, et al. PAL: Program-aided
language models[J]. arXiv preprint, arXiv: , 2022
[14] Yao Shunyu, Zhao J, Yu Dian, et al. ReAct: Synergizing reasoning
and acting in language models [C]//Proc of the Int Conf on Learning
Representations (ICLR). 2023[2023-04-10].
03629
[ 15 ] Shinn N, Labash B, Gopinath A. Reflexion: An autonomous agent
with dynamic memory and self-reflection[J]. arXiv preprint, arXiv:
, 2023
[16] Ross W D. Aristotle on His Predecessors, Being the First Book of His
Metaphysics [M] S. l. : s. n. ,1908: 110−113
[17] Tarski A. The semantic conception of truth: And the foundations of
semantics[J]. Philosophy and Phenomenological Research, 1944, 4(3
): 341−76
[18] Yu Jian. Brilliance and darkness: Turing test[J]. Journal of Computer
Research and Development, 2020, 57(5): 906−911(in Chinese)
(于剑 . 图灵测试的明与暗[J],计算机研究与发展,2020,57(5):
906−911)
[19] Russell B. An Inquiry into Meaning and Truth [M]. Beijing: China
Commerce and Trade Press, 2012
(罗素. 意义与真理的探究[M]. 贾可春译. 北京:商务出版社,2012)
[20] Xiao Guangxuan, Lin Ji, Han Song. Offsite-Tuning: Transfer Learning
without Full Model[J]. arXiv preprint, arXiv: , 2023
[21] Held R, Hein A. Movement-produced stimulation in the development
of visually guided behavior [J]. Journal of Comparative and
Physiological Psychology. 1963, 56(5): 872
[22] Vemprala S, Bonatti R, Bucker A, et al. ChatGPT for robotics: Design
principles and model abilities[EB/OL]. 2023[2023-03-01].http://
robotics/articles/chatgpt-for-robotics
[23] Bai Y, Kadavath S, Kundu S, et al. Constitutional AI: Harmlessness
from AI feedback[J]. arXiv preprint, arXiv: , 2022
Sang Jitao, born in 1985. PhD, Professor. His
main research interests include multimedia
analysis, Web mining, and trustworthy machine
learning.
桑基韬, 1985 年生.博士, 教授. 主要研究方向为
多媒体分析、 网络数据挖掘和可信机器学习.
Yu Jian, born in 1969. PhD, Professor. CCF
Fellow and CAAI main research
interests include machine learning and artificial
intelligence.
于 剑, 1969 年生.博士, 教授. 中国计算机学会
会士, 中国人工智能学会会士. 主要研究方向为
机器学习和人工智能.