从 AlphaGo 到 GPT,注定坎坷的通用人工智能之路 天天讯息
文丨龙志勇 程曼祺编辑丨程曼祺
(相关资料图)
75 岁的图灵奖获得者杰弗里·辛顿(Geoffrey Hinton) 大半辈子都在研究 AI, 推动深度学习成为了 AI 研究的主流,长出了如今的大模型和 ChatGPT。现在,他怕了,也后悔了,担心自己的毕生工作,也许会把人类推向未知风险。
“我用一个常用借口安慰自己:如果我没做,其他人也会做。” 5 月初宣布从 Google 离职后,辛顿告诉媒体,“在搞清楚是否能控制 AI 前,我不认为应该再扩大它的规模。”
深度学习奠基人的深切担忧,是 GPT 强大力量的一个注释。
去年 11 月底上线后不到 2 个月,ChatGPT 就获取 1 亿用户,成长速度超过此前任何一个互联网产品。今年 4 月,光网站上用 ChatGPT 的用户就超过了微软必应搜索,相当于百度的 60%,创纪录的发展速度引爆了全球产业和资本热情。
每一周,都有大小公司在推出自己的大模型,AI 颠覆世界不再被当成遥远的想象。可以在各个领域代替人工的通用人工智能(AGI,artificial general intelligence)似乎随时就会诞生。
相似的 AI 狂热,历史上有过几次。最近一次是 2016 年春天,Google 旗下 DeepMind 开发的 AlphaGo 大胜围棋大师李世石。人们期待 AI 会快速跨行业复制、应用,颠覆已有的许多生意,甚至带来更大的社会变化。
2016 年 4 月,《医疗未来学家》:AlphaGo 能重塑医疗行业的未来
但过去 7 年里,那些想收获巨大商业价值的投资人和创业者,和担心 AI 会引发大规模失业的批评者,都 “想多了”。
原因之一是,在不同行业、场景和客户之间,复制 AI 能力的难度与成本远超想象——AI 通用性被大大高估了。
当人们想在医疗、金融、工业质检、营销决策等多种行业、场景使用 AI 时,别说跨行业,跨客户也很难。一批以 “AI 赋能千行百业” 为愿景的创业公司在 2016 年后成长为超级独角兽。但因人员成本高昂、产品难以标准化和规模复制,它们中的多数沦为不断做定制项目的软件外包公司。
原因之二是,以深度学习为基础的 AI 有 “黑箱” 特性。在 2017 年底举行的 AI 顶级学术会议 NIPS 上,来自 Google 的阿里·拉希米把深度学习比作炼金术:“我不懂飞机原理,但不怕坐飞机,因为我知道有一大批专家掌握原理。深度学习界最让人担心的是,我自己都不知道原理,而且我知道你们也不知道。”
开发 AI 模型和算法的人也无法完全解释它如何运转,在商业实践中,也就无法明确知道一些改动可能带来何种效果变化,这极大提高了模型调优的难度,增加了项目交付成本;同时也很难完全杜绝模型的某些特定问题。这会影响 AI 落地一些不能出错的场景,比如追求极致安全的无人驾驶。
这一轮大模型热潮解决了 AlphaGo 时期,AI 商业化的部分阻碍,但另一些当时暴露的问题仍存在,甚至还在进一步放大。
上一次,通用 AI 的威力如何被错判
AlphaGo 时期,AI 公司做不同的客户项目时,基本要从头训练不同模型。2019 年、2020 年和 2021 年上半年,人工智能公司商汤科技分别生产了 1152、9673 和 8377 个 AI 模型,但并未产出相应商业收益,有些模型做出来后,可能只有三五个客户可复用。从 2019 年到 2020 年,商汤模型数量增长了 740%,营收增速只有近 14%。
中国的 AI 四小龙,商汤、旷视、云从和依图在递交招股书前,总融资额约 75 亿美元,跟同期成立的字节跳动 2020 年前的融资总额相当。但字节 2020 年的收入超过 2360 亿元人民币,是这四家公司同期总收入的 30 多倍。
字节成功的关键也是用好了 AI 技术,它打磨出了一套高效推荐算法,再配合新闻资讯和短视频 App 实现广告变现,是典型的互联网商业模式。商汤等公司原本的期待则更宏大,却更难落地——用 AI 赋能千行百业。
这是一个足以吸引大把抱负、智慧、野心和资本的远大愿景。在 2016 年前后,一批科技巨头、顶尖学者、投资机构和创业公司对这一方向投入原因和现在一样——AlphaGo 也让人们看到了更通用的 AI 的可能,只是这种 “更通用” 的短期商业价值被高估了。
AlphaGo 之前,当时的大多数深度学习模型需要用大量预先标注好的数据来训练,这被称为 “监督学习”。这些数据通常是机器搜集的一个信息对应人工标注的一个结果,例如医院诊断场景的标注数据是 “病人症状描述” 和对应的 “医生诊断和医疗措施”。
监督学习碰到的数据问题,直接影响 AI 商业落地时的效果和成本。
因为在监督学习中,模型的表现会因数据环境变化而有较大波动。且商业化所需的数据,尤其是客户现场的真实数据难以获得。当时多数模型在开发阶段,只能先使用小规模行业数据做训练,这些数据不一定能反映最新行业情况和客户特点。所以一个模型虽然在研发阶段能取得不错的效果,但真到了客户那儿,数据和环境一变,效果就没准了。AI 公司必须重新收集客户环境下的数据,重新训练模型,无法做到 “一次开发,多次售卖”,模型交付的边际成本居高不下。
IBM AI 医疗系统 Watson,就曾因为训练模型时使用的数据跟不上最新医疗护理标准而误诊。另一个常见的例子是,在工厂部署 AI 检测工具时,真实车间的光线、粉尘条件的变化都会影响模型效果,从而影响同一套方案在不同工厂、流水线或工位上的表现。
AlphaGo,尤其是其后续版本 AlphaGo Zero 则带来转机,它并未学习人类的下棋数据,而是自己生成数据,在自己与自己的对弈中不断提升下棋水平,不需要人类专家提前标注大量数据。这能大幅降低数据获取难度,提升训练的数据量,取得惊人效果。
但当人们想把这种模式复制到围棋、德扑、星际争霸等有限规则游戏之外的场景时,它的适用范围却十分有限。
AlphaGo 可以在计算机模拟环境中自我对弈,无限试错,直至找到神之一手。但大多数场景,尤其是涉及线下物理世界的场景没有这样的试错空间,AI 医生不能拿病人试错,AI 司机不能拿行人试错。
在虚拟环境中建立自动驾驶仿真器、机器人仿真器来获取数据是解决手段之一,但又会遇到新困难:想要做到对物理世界 100% 的仿真,开发成本无限高;如果跟物理世界差距太大,训练又没效果。
开发出 AlphaGo 的 DeepMind 自己也没能做到拓展行业。2016 年-2017 年,它启动了一批与医疗、能源行业的合作,试图让 AI 走出虚拟游戏世界,这些项目要么惨淡收场,要么就一直停在宣传状态。
那些被 AlphaGo 刺激,投入上一轮 AI 商业化热潮的公司,往后几年里不得不用新故事包装一个实际变化不大的技术方案,活成了无法用标准产品服务多个客户的 “项目公司”。
为了让一项 AI 产品落地,调参、优化模型,做工程配套,把 AI 嵌入客户已有业务系统或流程,这些工作一个都不能少。其中模型调参、优化等工作一般需要 AI 公司派薪资不菲的算法工程师去客户处驻场,这是一个辛苦活。高工资成本之外,这也使 AI 公司留不住人。
最后一公里,成了最远、最累的一公里。
大模型让 AI 更通用了,但可能还不够
与 AlphaGo 相似,方兴未艾的大模型热潮,也许诺一个更通用的 AI。上个月,OpenAI 与沃顿商学院一起发表了一篇论文,标题就是《GPT 是通用技术》(GPTs are GPTs,第二个 GPTs 指 General-Purpose Technologies)。
GPT 的确表现出了超出以往的通用性:它可以在不需要特殊新数据和训练的情况下,学习一些新技能;在不同场景、客户那里复制自己已学会的技能时,它也能以更低成本适应新的数据环境。
其中,学习新技能的能力来自大模型不断扩大训练数据量和模型参数时产生的 “涌现” 现象。如 OpenAI 在 2019 年发现,GPT-2 出乎意料地自学了文本摘要和翻译等几种技能。此前 OpenAI 并没有用不同语种间的对应语料,专门为翻译任务进行训练,这是过去让 AI 学会翻译的常规方法。
GPT 之外,其他生成式预训练大模型也表现出了 “随模型规模增长,学会更多新技能” 的规律。这种前所未有的无师自通是大模型更强通用性的主要来源。
随着参数从 80 亿增长到 5400 亿, Google PaLM 大模型学到了多个新技能。
对数据更好的适应,则是指基于基础大模型做微调(fine-tuning),获得定制化模型和产品的过程。
大模型的预训练使用无需标注的数据,而微调仍需使用成本更高、更难获取的标注数据。但因为已经有了强大的通用模型,微调理论上比过去遇到新任务、新环境就得重新收集、标注数据,重新训练模型的做法更便宜、简单。
上述特性都指向业务复制和行业迁移时的更低边际成本。提供 GPT 大模型的公司,有可能用统一的通用模型服务多种行业和场景,完成 AlphaGo 之后很多公司一度追求却越行越远的目标。
然而,一些迹象也显示,从通用模型到真正的可用产品,今天的 “最后一公里” 仍成本不菲。
在 GPT-3.5 基础上打造 ChatGPT 时,为提高对话效果和减少虚假、歧视信息,OpenAI 雇用了大量标注员给机器的回答打分,标记仇恨、色情和暴力言论。综合媒体报道,OpenAI 给美国本土的数据标注人员付 15 美元时薪,给非洲的合同工的时薪只有十分之一,但这些工人正在争取更高的工资,肯尼亚的一些数据标注员上周已投票成立工会。OpenAI 在东欧、拉丁美洲也雇有约 1000 名从事类似工作的合同工。
结合 GPT 大模型技术特点和各行业需求,GPT 类大模型商用时的局限首先在于,通用性的范围有边界。
目前 GPT 主要是通过文本数据预训练获得各种与自然语言相关的认知智能能力。大模型的多模态能力范围仍未验证,GPT-4 能看懂梗图里的梗,但未必能识别 X 光胸片里的异常。因此,在以数值回归、行为预测为代表的决策智能,和以图像、视频识别为代表的感知智能领域,大模型的适用性会打个问号。
正常情况下,这一局限本不是问题,因为没有任何技术能适用一切情况。但狂热会冲散常识。一些本来和大模型关系甚远的行业,现在也在讲 “快速颠覆”,一些公司向客户许诺新技术有神奇威力,但对适用性描述不足。
对认真想用大模型做事的人来说,更值得考虑的问题是,即便是在大模型最擅长的语言认知智能领域,其固有能力缺陷,也会限制某些场景的商业化。
这些缺陷包括规划能力不足、无法持续学习、缺乏长期记忆、推理成本高和时延高等。其中对商业化威胁最大的问题是大模型的不可控、不可预测和不可靠。典型表现是大模型有幻觉(hallucination)倾向,它会产生 “完全没有出处的非真实内容”。
辛顿的学生,OpenAI 首席科学家伊利亚·莎士科尔(Ilya Sutskever)多次表示,幻觉是大模型应用到更重要场景中的最大问题,但当前无法从根本上控制幻觉的产生。因为 OpenAI 给 GPT 设立的训练目标就是更准确地 “预测下一个词”。为不断给出符合人类语言习惯和预期的内容,大模型并不关心信息真假,有时编故事编得越像、越投入,就越容易获得人类好评。可以说幻觉是一种内生于 GPT 模型目标和架构中的缺陷,随着用户更加信任模型,幻觉的危害会越来越大。
同时,给大模型带来更强通用性的 “涌现” 过程,本身也不可控、不可预测,因而难以围绕涌现做商业和业务规划。
Google、斯坦福和 DeepMind 联合发表的《大语言模型的涌现能力》(Emergent Abilities of Large Language Models)论文发现,大模型的新能力涌现不是随着模型参数的线性增长而逐渐发生的,而是在模型参数超过某个临界点后爆发,如超过 620 亿参数后,会获得思维链(CoT)多步推理能力,超过 1750 亿参数后,会获得识别讽刺内容的能力。
LaMDA、GPT-3 等模型随参数规模扩展的新技能学习曲线。
人们现在很难预测,参数规模的下几个临界点在哪儿,以及突破这些临界点后,可能涌现出什么能力,这些能力对特定商业目标是有益还是有害。这就很难在应用落地时提升特定新技能涌现的效率与确定性。
这些大模型落地时的局限,可能使一些理论上可行、聊起来很嗨的应用场景,在商业化过程中经历长期碰壁。
例如,一对一的大模型私人医生服务要真正落地,依赖于医疗场景下,多模态图像能力的突破,还需要模型能长时间记住病人情况、治疗历史和沟通过程,而且这个系统必须准确,否则一个小错误就可能带来致命结果。这都是目前大模型的短板。在无法 100% 解决模型缺陷时,做大模型医疗服务的公司,还要与监管机构在试错空间、法律规范和监管方式上达成一致。
在预估大模型的通用化落地时间时,OpenAI 首席科学家伊利亚曾用自动驾驶来类比:“看看特斯拉的自动驾驶,看起来什么都能做,但在可靠性上还有很长的路要走。大模型也一样,虽然看起来什么都能做,但同时还需要做更多工作,直到我们真正解决所有问题。”
市场狂热,OpenAI 谨慎
基于对跨行业落地难度和风险的认知,OpenAI 从去年下半年就开始和法律、教育、医疗等不同行业伙伴,对 GPT-4 行业应用的效果和问题进行了专业、严谨的实验。
例如在法律行业,OpenAI 支持 Casetext 公司基于 GPT-4 开发 AI 法律助手 CoCounsel,尝试应对幻觉问题。
首先,由 AI 工程师和律师团队花费近 4000 小时,基于 3 万多个法律问题进行模型训练和微调。然后,组织了 400 多名律师作为 Beta 测试小组,要求他们在日常工作中使用 CoCounsel 至少 50000 次,并提供详细的问题反馈。通过这样的项目,可以在大模型投入应用之前,更早暴露潜在问题,评估风险级别以及风险解决方案的有效性。
这不是一个轻松、便宜的工作,需要一批专业人士与技术人员一起完成行业定制。与 AlphaGo 后的上一轮 AI 热潮相似,如果目标市场太小、未来复用机会不多,或复用起来边际成本太高时,如此高投入的前期开发就没什么商业前景。
在 OpenAI 谨慎、扎实推进某些行业应用的时刻,被它刺激的市场却要狂热和激进得多。
春节以来,A 股 “ChatGPT” 板块多支股票大涨,发大模型,成为不少上市公司拉升股价的利器。美股也类似。如今年 1 月底,美国一家企业级应用提供商 C3 AI 宣布,将基于 OpenAI 最新的 GPT 大模型能力提供一款生成式 AI 企业搜索产品,企业用户可以直接用自然语言询问这款产品,“这个销售计划完成的可能性有多大?” 或 “这辆卡车什么时候需要维修?”
尽管没有解释自己如何使用企业数据来做出分析预测,消息一发布,C3 AI 的股价依然飙升超 20%。市场尽可以发挥想象力,但企业客户在考虑类似 C3 这类应用承诺时,应当了解,大模型目前并不具备与数值相关的预测能力,未来能否涌现也未知。
一家新能源工业软件公司董事长在近期一次媒体访谈中说,他认为 ChatGPT 在工业领域真正要产生业务价值还需很长时间,但产业需要这样的概念,“没有概念,你就没有投资,没有投资这事就没有任何机会”。
他委婉地指向一种现象:无论 GPT 短期能不能产生价值、是不是自家产品的核心,为了拿到钱或资源,很多公司选择先把羊头挂起来。这进一步放大了虚假繁荣和乐观。只是有人是在表演乐观,有人是真被带得乐观过了头。
在失控中追求可控
1994 年的《失控:机器、社会与经济的新生物学》一书中描述了复杂系统的进化、涌现和失控。凯文·凯利总结,人类大脑的神经网络、蚁群、蜂群这类系统的动作是从一大堆乱哄哄却又彼此关联的事件中产生的,像是成千上万根发条在并行驱动一个系统,任何一根发条的动作都会传递到整个系统。从群体中涌现出来的不是一系列个体行为,而是众多个体协同完成的整体动作,例如从相互连接的无数神经元中涌现的人类思维,成千上万的蚂蚁无意识协作下建筑的蚁巢。这就是群集模型系统。
AI 大模型也符合群集系统的特点。由于缺乏中心控制,群集系统效率相对低,如大模型就存在信息冗余,且不可预测、不可知、不可控。但缺乏中心控制也带来了可适应、可进化、无限性和新颖性的优势,因此大模型能通过涌现自学新技能。
OpenAI 推测,涌现也许是一种类似进化的机制。OpenAI 首席科学家伊利亚为作者之一的论文《学习生成评论并发现情感》中提到,当给了足够的模型容量、训练数据和计算时间后,GPT 大模型内部自行产生了一个情感分析功能单元,能准确辨别文字是在表达喜悦、悲伤还是愤怒。
论文认为,这有可能是因为能辨别情感色彩,对 GPT 更好完成其目标,即预测下一个词有很大帮助。就像人类为了生存繁衍这个单一目标,进化出了复杂的生理特征和文化习俗,那些更适宜生存、让种群扩大的特点会被保留,涌现可能就是这样一个类似自然选择的进化过程。
而进化的另一面是失控,能进化的东西,本身不会是完全可控和可以提前设计的。进化不光创造新技能,也可能创造出幻觉。学会使用一个正在快速进化的黑箱工具,是人类以前没遇到过的课题。我们需要在接受、理解和适应失控的前提下,寻找可控的部分,避免商业风险和更大的风险。
一方面,AI 学界仍在做更多研究,尽可能多了解大模型涌现的规律。阿里·拉希米 2017 年把 AI 比作炼金术时,曾建议借鉴物理学简化问题的方法,打开 AI 黑箱。
6 年后,《通用人工智能的火花:GPT-4 早期实验》论文一作、微软研究院的塞巴斯蒂安·布贝克(Sébastien Bubeck)又一次提出了 AI Physics 的研究方向,即借鉴物理学思想,用简化模型和受控实验的方法拆解大模型,希望找到影响涌现的元素。
就在昨天,OpenAI 也发表论文《用语言模型解释语言模型里的神经元》,用 GPT-4 解释 GPT-2 中某些神经元的一些工作情况。这种方法目前仍存在局限,如仅解释了行为而没有解释相关机制和对任务表现的影响,但 OpenAI 希望完善这种方法来推进大模型的可解释性,并且是能完全自动化地做解释。
另一方面,产业界也正在尝试各种方法,让 AI 大模型整体的结果更可控。
选好做什么,不做什么。
有些场景中,大模型的一些现有缺陷对商用的影响没那么大,甚至可能是助益。如强调个性化和趣味性的聊天应用 character.ai 创始人说:“我并不认为幻觉是需要解决的问题,我甚至很喜欢它,这是模型有趣的特点。” 在 character.ai 做的 “角色扮演” 聊天场景中,幻觉是想象力的源泉。
但对另一些容错很低的行业,如医疗诊断、自动驾驶、工业自动化,幻觉却危害显著。
通过人工或机器手段来给大模型的缺陷打补丁。
在适合使用 GPT 大模型能力的领域,针对幻觉、规划能力不足、缺乏长期记忆等缺陷,现在都有部分解决方案。
机器手段包括,通过本地数据库查询的方式在对话中带入历史记忆,增加模型的记忆能力;通过两个模型间左右互搏的方式识别幻觉。人工手段包括,通过提示工程指引大模型进行复杂规划,通过人工审核来发现并纠正模型幻觉。
以上手段在不同行业场景、不同数据环境下的效果与成本,需要用实践验证,其综合结果会影响 GPT 大模型在这个行业或场景的商业价值。
针对目标行业做深入地定制化,对快速颠覆有谨慎期待,对额外的成本有预期。
由于比以前更通用但还不够的通用大模型仍无法通吃所有行业,越来越多人意识到,在通用大模型之上,还可以针对垂直领域精细化训练和定制大模型,这类模型仅在指定行业场景下执行有限种类任务,规模可适当缩小。
从轻到重,做定制化的方式有:
基于已有闭源大模型的 API 接口,通过应用级的微调 + 打补丁做定制应用。选择开源的、已经完成预训练工作的基础模型,做更多定制。从头自己训练垂直模型:从预训练数据选择、模型结构设计切入,定制全新大模型,以解决特定行业场景的问题。如彭博推出了 500 亿参数的金融垂直大模型 BloombergGPT,预训练使用的金融数据集和通用数据集各占一半,在金融特有任务,如新闻情感分析上领先于通用大模型。越重的做法,成本越大,壁垒也越高。不同行业,怎么做最有竞争优势,没有标准答案,但可以有一个大致的决策模型:
更稳的选择是先做最轻的打补丁,在掌握问题和数据、验证业务价值后,再决定是否走彻底定制路线。但这可能错过时间窗口,导致追不上行业里更早做出垂直模型的公司,后者可能更快形成数据反馈到模型能力迭代的 “数据飞轮”,与其他人拉开差距。
更大胆的方式是跳进选好的方向,直接从头一边炼大模型一边找业务价值,这需要持续的资源,也是目前一批融资能力最强的创业者的共同选择,如美团联合创始人王慧文和搜狗创始人王小川。
未来大模型可能是这样一种商业生态:市场上将有少数几个通用大模型来自 “OpenAI+ 微软云” 这样的顶尖创业公司和云巨头的组合,或其他自研通用大模型的巨头。他们会自己开发部分产品,直接满足一些大模型最擅长的场景,或更能容忍错误和不可靠性的场景,如个人知识助理、陪伴式聊天、创意内容生成、非专业的问答式检索等;同时提供 MaaS(Models as a Service)服务,为一些想做定制化应用的企业客户提供模型基础,这需要简化微调工作,使第三方集成商或客户也能方便地自己微调,低成本交付产品。OpenAI 已在让微调本身变得更自动化。
而在一些高价值、高要求,需要数据保密或数据不好获取的专业场景,还会存在更多单独训练、服务行业的垂直大模型。
在蒸汽机时代,全社会花了几十年来充分实现新技术的潜力,大模型的跨行业落地也会经历一个比想象中曲折的过程。正如 OpenAI 论文《GPT 是通用技术》中所说,这需要针对其缺陷,结合各行业的特点,与产业合作方共同发明应用解决方案,甚至重新设计企业组织。
这个过程会伴随信心起伏,高估后有贬低,低谷中又酝酿下一个变化。引燃 GPT 热潮的 OpenAI 成立于 2015 年 11 月,它本身是上一轮 AI 信心的产物,只是它对 AI 的信心与众不同。OpenAI 成立之初就在追求 AGI,而大部分从业者过去并不认为这能在他们有生之年实现。多年来 OpenAI 并未急于给上一阶段的 AI 技术进展找实际商业场景,而是在摸索 AGI 的突破口,直到坚硬的岩石终于被凿开一丝裂缝。这还不是可以轻易收获的时刻,只是一个漫长征途的开端。