来自 Google 创始人谢尔盖·布林在参加 Gemini 黑客马拉松时的一段谈话视频:
***
感谢大家的到来,我得承认我今天过了个懒散的周六早晨才过来。Rocky 给我发了短信,我真的没想到半夜一个 AI 黑客马拉松会这么受欢迎,这真是一个令人兴奋的时刻。非常感谢大家的到来,也非常感谢你们给我和 Jeff 这个机会。
我应该说些什么呢?其实,我们这里有真正懂这个东西的人,我想。好了,安静一下。我原本担心我需要说些什么,但我对此并不是很熟悉。我只是想快速地说,这确实是一个非常令人兴奋的时刻。我们正在使用的这个模型,我想应该是 1.5 Pro。我们在内部把它叫作”金鱼”。其实,哦,我知道为什么了。因为金鱼的记忆力很短,这是个带有讽刺意味的名字。但当我们在训练这个模型的时候,我们并没想到它会出乎意料地强大,或者拥有它所具备的所有功能。实际上,这只是我们规模扩展实验的一部分。但当我们看到它的能力时,我们想,嘿,我们不想等待。我们希望全世界都能来试试。我非常感谢你们所有人都在这里试一试。
接下来会有什么发生呢?我想可能还会有很多问题。好的。快提问吧。对于这些问题,我可能需要向技术专家求教,但尽管提问。有问题吗?好的,请问。别担心。那个穿着“蟋蟀”衬衫的男士。
“那么,你对 Gemini Art 事件有什么反思?”
“Gemini Art?是的。这不是我预期的。但是,我们在图像生成上确实出了问题。我认为这主要是因为没有进行彻底的测试。这肯定因为一些很好的原因,让很多人对这些图像感到不安,你可能已经看到了。我想这些图片促使很多人深入测试了基础文本模型。文本模型有两个独立的效应。一方面,坦白说,如果你深入测试任何文本模型,无论是我们的,ChatGPT,rock,还是你手头的,它可能会说出一些相当奇怪、看似极左的言论。任何模型,只要你尝试得足够深入,都可能被诱导进入那种情况。但也要公正地说,那个模型中有一些我们还无法完全理解的部分,比如为什么在很多情况下,它的输出结果会偏向“左”。这并不是我们的初衷。但如果你从上周开始尝试的话,我们已经覆盖的测试案例至少应该有 80% 的提升。所以,我希望你们都去试一试。这应该会产生很大的影响。”
你们正在试用的这个版本,Gemini 1.5 Pro,并没有在公众端的应用中,我们曾经的 Bard,并不应该有太大的影响,除了一个普遍的情况:如果你对任何 AI 模型进行彻底的测试,总会出现一些奇特的边缘情况。但即使这个版本并未进行全面的测试,我们并不期待它会有强烈的特定倾向。我想我们可以尝试一下。尽管今天我们更期待的是试验长上下文和一些技术特性。对吗?
“是的,随着最近多模态的发展,你们有考虑过像是视频聊天 GPT 这样的项目吗?”
“视频聊天 GPT?我们可能不会直接这样称呼它。不过,无论是输入还是输出,多模态,包括视频、音频,都非常令人兴奋,我们已经进行了早期的实验,我想说这是一个很让人兴奋的领域。你们还记得那个小鸭子的视频吗?虽然视频中已经充分声明了它并不是实时的,但它还是让我们陷入了麻烦。但我们确实做过一些工作,比如审核图片,逐帧分析。是的,这非常令人激动。目前,我觉得我们还没有现成的实时展示。”
“你个人在一些项目中编写代码吗?”
“说实话,我并未真正编写过代码。虽然这并不是你会觉得非常厉害的代码,但有时我还是会调试一下,努力理解一个模型的工作方式,或者在不同的区域分析一下性能。尽管这只是些小事情,但让我感觉还在参与其中。再说一次,你可能不会被我的技术深度所震撼,但能参与其中确实挺好的。有时,我会使用 AI 机器人来帮我编写代码,因为我现在的编程技能有些生疏,但它们的工作效果出奇的好。所以,你应该会对此感到满意。”
“在 AI 出现之前,我们所能接触到最接近模拟器的东西就是游戏引擎。你认为这个领域的新进步对我们制作更好的游戏或者一般的游戏引擎意味着什么?你对此有何看法?”
“对于游戏引擎,我能说的是什么呢?显然,在图形上,你可以用游戏引擎做出新的和有趣的东西,但我认为更有趣的可能是与其他虚拟玩家的互动,以及其他类似的事情。就像是各种角色一样。我们现在可以称呼人们或者各种 NPC,但在未来,可能 NPC 会变得非常丰富多彩和有趣。我认为这是一个非常丰富的可能性。我可能不够热衷于游戏,无法完全预想出所有可能的 AI 未来,但它确实打开了所有的可能性。”
“你最期待的应用类型是什么?”
“对于在 Gemini 上开发的人们,我最期待的应用类型是什么?我意思是,我们现在正在尝试的版本 1.5 pro,是我们正在实验的项目,不论你输入大量的代码还是视频。我已经看到有人这么做了,我并不认为模型能做到这一点,但有人输入他们的代码,录制一个应用程序的视频,指出这里有个 bug,模型就能找出代码中 bug 的位置,这种情况令人震惊,但是它竟然可以工作。我真的不明白模型是如何做到的,但我并不是说你应该完全模仿这个做法,而是你应该尝试一些真正需要深入理解上下文的事情。我们有足够的服务器来支持这里所有正在尝试的人吗?我是说我们这里也有一些服务器工程师。好的,因为我的手机一直在震动,大家似乎都很紧张。因为你知道,处理大量上下文的查询确实需要一些计算资源,但你应该尝试看看。”
“是的,你提到了几次你不确定这个模型是如何工作的,或者你不确定它能否做到它所做的事情。你认为我们会达到一个能够真正理解这些模型工作原理的阶段,还是如果我们只是信任模型的开发者不会犯错误,那么这些模型将永远是个黑箱?”
“不,我认为你可以学习理解,你知道,实际上,当我们训练这些模型时,有上千种不同的能力可以尝试。所以一方面,它能做到这一点让人感到惊讶。另一方面,如果你想了解某个特定的能力,你可以回溯,我们可以查看在代码和视频之间,每一层的注意力是如何转移的。不,我们无法深入分析它。我个人并不清楚研究人员已经在进行这种类型的研究到了何种程度,但你也知道,要深入剖析模型为何能做到某些事情需要花费大量的时间和研究。而实际上,我大部分时间看到的剖析都是针对模型为何无法实现某些功能的。所以我想我会说,我认为我们可以理解它,也许已经有人正在理解它,但大部分的精力都在寻找模型的错误之处,而不是揭示它失败的原因。”
“是的,在计算机科学中,存在一个概念叫做反射性编程,也就是程序能够查看甚至修改自己的源代码。然后在通用人工智能文献中,存在递归自我改进这样的概念。那么,你对于极长的上下文窗口以及语言模型能够修改自己的提示有什么看法呢?这些又与自主性和通用人工智能的建设有何关联?”
“是的,我觉得让这些程序实现自我改进非常令人兴奋。我记得我在研究生阶段写过一个游戏,它就像你正在穿越一个迷宫,但你射击的墙壁对应的是内存的位,并会翻转这些位。游戏的目标是尽快让它崩溃,这虽然不能直接回答你的问题,但这是一个自我修改代码的例子,只不过它并没有特别有用的目的。不过,我还是会让人们进行游戏,直到电脑崩溃。总的来说,对于你的积极例子,我看到人们只是谈论它们,我认为开环控制可能会对某些非常有限的领域起作用,如若没有人为干预引导,我相信它实际上可以实现一定程度的连续改进。但我认为我们暂时还无法在一些重要的领域实现这一点,首先,一百万长度的上下文对于大型代码库来说还远远不够。启动整个代码库可能有难度,但你可以先进行检索,然后进行修改编辑。我个人可能没有进行足够的实践,但至少在目前,我还没有看到复杂的代码会自我迭代并进行改进,不过这的确是一件令人振奋的事。正如我所说,借助人类的辅助,我们绝对有能力做到。比如,我现在就会使用 Gemini 去尝试处理一些 Gemini 的代码,但还没有进行过非常开放循环的深度工作。你正在尝试吗?让我找个坐在后面的人回答,你,就是你。好的,你先,然后是你后面的那位女士。”
“我很好奇,你对最终决定或者计划筹集七万亿美元的看法是什么?我只是好奇,你如何从长远的角度看待这个问题?”
“你知道,我看到了这则新闻标题,但我并没有深入研究。我猜这可能是个煽动性的标题或者声明,我不太清楚。他并没有向我索要那么多钱,我想这可能是用于芯片开发或者类似的项目。我并不懂,我不是芯片开发的专家,但我感觉这不是一个你可以用钱,即使是大量的钱,就能解决的问题。我也并不是市场的专家。让我找个坐在最后面的人回答,好,你,对,抱歉,哦,好的。哦,训练的成本非常高。是的,训练的成本的确很高,这是像我们这样的公司必须面对的问题。但我认为,从长远来看,其实用性和效益是无法比较的。如果我们以人的生产力来衡量,如果它能在一周的工作中为某人节省一个小时的时间,那么这个小时的价值是巨大的。而且,使用这些技术的人或者即将使用这些技术的人是非常多的。不过,这确实是对未来的一种冒险投资。它的成本不过七万亿美元。在设备上进行模型训练。哦,我意思是模型在设备上运行。对,模型在设备上运行,对,就是模型在设备上运行。我们已经将它部署到了安卓版的 Chrome,还有就是像 Pixel 手机这样的设备上,我觉得现在连 Chrome 都已经能运行相当不错的模型了。我们刚开源了一个叫做 gemma 的项目,它相当小,大概有几十亿的参数,具体我现在记不清了。是的,我是说,它真的非常实用。你知道,它可以做到低延迟,不依赖网络连接,而且小模型也可以调用云端的大模型,所以我认为在设备上运行模型真的是一个很好的选项。嗯,对。”
“你认为这一代的科技有哪些垂直行业会受到很大影响,创业公司应该考虑去挖掘一下这些行业?”
“我认为哪些行业有巨大的机会呢?这很难预测。我是说,有一些显而易见的行业,比如客户服务,或者分析各种不同长度的文档,进行工作流程自动化,我想这些都是人们能想到的。但我认为还有一些不太明显的行业,我无法预测,特别是看到这些特定的多模态模型以及它们所拥有的惊人能力,我感觉,我是说,这就是为什么我们在这里需要你们所有人,你们是那些富有创造力的人,来找出这些机会。”
“我们每天都要处理数以千计的客服聊天记录,你说过 GPT-4 是唯一真正有价值的,现在看起来 Gemini 也是一种非常有效的方法。非常感谢你的付出。看起来它的成本更低,效果甚至更好,响应非常迅速。所以我想问的是,它会一直保持这个水平吗,还是你们计划在将来提高价格呢?”
“我们不会。实际上,我并没有掌握定价的信息。我预计我们不会提高价格,有两个主要的原因。首先,我们在模型推理方面一直在进行优化,每个月都有新的想法和优化方法累积起来,比如有 10% 的改进,有 20% 的改进,这样积累起来就可以产生显著的效果。其次,我认为我们的 TPUs 在进行模型推理方面表现得非常好,虽然它们不如 GPUs,但对于某些特定的工作负载,TPUs 的配置实际上非常适合。同时,另一个重要的影响因素是我们能够使生成的模型越来越小而且更有效,无论是架构的变化,训练的变化,还是其他的一些因素,都使得模型即使在同样的规模下也越来越强大,所以我不认为价格会上涨。”
“你是如何展示 AI 在医疗保健和生物技术方面的应用的?”
“AI 在医疗保健和生物技术方面有很多应用场景。在生物技术方面,比如研究酒精等物质,理解生命的基本机制,你可以看到 AI 在这方面的应用越来越广泛,无论是研究分子的物理结构,还是阅读和总结外部的科研文章。从患者的角度来看,虽然在这个领域我们还有很长的路要走,因为我们不能仅依赖 AI,AI 也会犯错误。但我认为未来 AI 可以提供更个性化的医疗服务,AI 能够更深入地研究个体,包括他们的病史,扫描结果等,可能在医生的辅助下。实际上,这可能只是更准确的诊断,更优质的建议等等。”
“你们是否在致力于研究非 Transformer 架构,以更好地进行推理和规划?”
“好的,我正在关注非 Transformer 架构。我认为有很多种方式可以进行改进,但我相信大多数人还是认为这些改进仍然基于 Transformer 架构。我相信在你们公司内肯定有人对此有更深的理解。尽管过去六七年间,Transformer 取得了很大的进步,但这并不意味着未来不会出现新的颠覆性的架构。另外,可能只是一些逐步的改变,比如稀疏性等,这些仍然是 Transformer 的一部分,也可能带来革命性的变化。所以,我没有一个确定的答案。但是,对于推理类问题是否存在某种瓶颈呢?使用 Transformer 有瓶颈吗?是的。有许多理论研究揭示了 Transformer 的局限性,你知道,你不能这样做,这么多层次的事情等等。我不知道这些理论局限性如何应用到现代的 Transformer 上,因为现代的 Transformer 通常不满足这些理论工作的假设,所以可能并不适用,但我可能会尝试并且也可能会尝试其它架构,这也是很酷的事情。”
“你还希望我做些什么?”
[笑声]
“谢谢。我想接下来探讨另一个话题。Google 有 Google Glass,但现在 Apple 有 Vision Pro。我觉得 Google Glass 可能出现得过早。你会考虑再给它一次机会吗?”
[笑声]
“我感觉我可能做出了一些错误的决定。是的,无论从哪个意义上讲,那确实是早期的尝试。或许这是在技术演变的早期阶段,而我也认识到,尽管我试图将其作为一个产品进行推广,但它实际上更像是一个原型。我本应对其设定更为合理的期望。我个人对消费类硬件供应链的了解并不深入。然而,有很多事情我希望我能做得更好。尽管如此,我仍然喜欢那种轻便的、简洁的显示器,你可以整天佩戴,而不是我们现在使用的那些笨重的设备。这只是我个人的偏好。不过,不论是苹果的视觉设备还是奥卡卢斯,我都对它们的性能印象深刻,因为我有过实际使用的经验。我对你能在屏幕前看到的内容感到惊讶。这就是我当时的目标。”
“那么,你是否认为 Gemini 在扩展能力方面有可能向 3D 或者空间计算,甚至是模拟世界的方向发展?特别是在超过了谷歌眼镜之后,它已经拥有了一些相关的产品,比如谷歌地图,街景,AR 核心等等。你是否认为这些产品之间存在某种协同效应?”
“这是一个好问题。坦白说,我之前并未考虑过这个问题,我们没有理由不在其中加入更多类似的 3D 元素,就像是另一种 3D 数据模式。所以,可能会有一些有趣的事情发生。我不明白为什么我们不试图将这些元素加入到一个已经具有所有智能超文本模型的模型中。我也可以尝试开启其他功能。顺便说一下,也许有人已经在 Gemini 中尝试这样做了。是的,我之前忘记了这一点。”
“你对我们能否将‘幻觉’能力引入文本生成模型感到乐观吗?同时,你对可能引发的道德问题有何看法?”
“这确实是当前面临的一个重大问题。毫无疑问。随着时间的推移,我们减少了人工智能的误判。我非常期待它们的误判率能够接近零的一种突破。但是,我们不能仅依赖突破。我们将继续做各种我们能做的事情,以期望随着时间的推移,错误率能够持续地降低。我认为这种突破会很好。我认为错误信息是一个复村的问题。显然,你不希望你的 AI 机器人编造事实。但他们也可能被误导,这涉及到许多复杂的政治问题,关于不同的人如何看待真假信息。这引发了一场广泛的社会辩论。另一个可能需要考虑的问题是,AI 是否可能故意代表他者传播假信息。从这个角度来看,制造一个错误频发的 AI 其实是很容易的。你完全可以通过调整任何一个开源文本模型,让其生成各种类型的错误信息。你完全可以通过调整任何一个开源文本模型,让其生成各种类型的错误信息。如果你不关心准确性,这似乎是一件很简单的事。因此,我认为,检测 AI 生成内容是一个重要的领域,我们也在致力于此。所以你至少可以判断出某些内容是否由 AI 生成。”
“Nvidia 的 CEO 曾经说过,编程作为一种职业的未来基本上已经结束。但我们并不清楚 AI 的未来会怎样发展。经过多次研究,我们发现,无论是对于图形艺术家、客户服务、医生或执行官等职业,AI 的帮助都是显著的。我的意思是,我不确定我是否会特别将编程挑出来讨论。编程其实可能是现在最具挑战性的任务之一。但是如果你在为未来几十年做准备,你应该注意的事情等等。其实很难说,AI 可能会在编程方面变得非常出色,但实际上,这种情况适用于任何领域。因此,我可能不会特别强调,比如说,不要专门学习编程。我在思考这个会如何影响安全性,你可以认为,代码可能会变得更差,或者在检查某些问题时可能变得更少,或者你可以认为我们会得到越来越完善的测试套件,可以覆盖所有的情况。你对此有什么看法,是从算法的角度还是从安全性的角度去考虑,因为代码或许已经准备好,但还需要检查。你们都在努力选择未来的职业方向。但我确实认为,现在使用 AI 进行单元测试非常直接。AI 在这方面做得非常出色。因此,我希望 AI 能使代码更加安全,而不是降低其安全性,通常来说,安全性问题在某种程度上是由于人们的懒故所致,而不懒故的一点就是要注意到这个问题。所以,如果我要做预测的话,我会说 AI 可能会对安全性有整体上的提升。但我不会因此劝阻你追求安全性方向的职业。”
“你想去构建通用人工智能吗?”
“对我来说,推理方面真的令我兴奋和感到惊奇。我之所以从退休中回归,只是因为 AI 的发展轨迹如此令人振奋,作为计算机科学家,看到这些大语言模型一年又一年能做的事情真的让人惊叹。所以,是的。在类人机器人这方面我们做过很多努力,因为在 2015 年和 16 年的 Google X 中取得了很大的进步。实际上,我们这些年来做过很多类人机器人的研究,也收购和出售了许多机器人公司。现在有很多公司都在进行类人机器人的研究,我们内部也有一些团队在从事各种形式的机器人研究。那么我对此有什么看法呢?老实说,我不太清楚,因为在这波新的 AI 浪潮之前,我主要是在做应用方面的工作,那时的重点更多在硬件项目上。但我发现,无论是从技术还是商业角度来看,硬件的难度要大得多,所以我并不是在劝阻人们去做这个。我们当然需要人们去做这个。然而,软件和 AI 的发展速度正在以惊人的速度加快。我感觉,这就像是火箭一样的速度。我认为,如果我被制造当下的硬件所分心,那可能不是最好的选择,相比之下,下一级的 AI 可能会在未来为我设计一个更加先进的机器人。那真是太棒了。在 Google,有很多人正在这方面工作。”
“关于广告的问题。”
“是的,我并不太担心商业模式的转变,我觉得这只是稍微有一点儿担忧罢了。我认为我们能够为所有人提供世界一流的信息搜索服务已经有 25 年或更久的时间,这个服务是由广告赞助的,我觉得这很好,对全世界都有益。无论是非洲的孩子还是美国的总统,他们都能获取到同等的基础信息。这是一件好事。同时,我预计商业模式将随着时间的推移进行演变。也许还会是广告,因为广告方式似乎更加奏效。AI 能够更好地定制广告,这是我个人比较赞同的。但即使最终我们需要借鉴其他公司的付费模式,我认为最重要的问题是你能提供大量的价值。用 AI 来取代那些原本需要大量精力的工作,节省你的时间和劳动力,搜索也是这样,所以我个人觉得只要能创造出巨大的价值,我们就能找到相应的商业模式。这就像第三方 cookie 的贬值让 Google ID 取得了优势,和像交易特性模型或个性化模型这样的模式。”
“我觉得 Google 搜索的未来会怎样?”
“搜索的未来非常令人兴奋,因为利用 AI 回答问题的能力更强大了。我认为更大的机会在于那些需要对信息进行深度挖掘的情况,比如你可能会提出一个非常专门的问题,或者这个问题与你自己的个人情况有关,这些都是互联网上还没有人写过的内容。那么,问题是已经有数以百万计的人已经探讨并深思过的。可能这并不是什么大事。但是,你可能关心的是那些你当前特别在意的特定事项。这是一个巨大的机会。你可以想象,在你眼中有各种各样的产品,有不同的方式去实现这个机会。人工智能在这方面确实做得更好。”
“那么,谁将提出最后一个问题?这是个好问题吗?后面谁有一个好问题?”
“死亡率。哦。哦。但我确实看到分子级别的人工智能取得了巨大的进步。我能想象,在流行病学等领域也会有很多我还未看到的进步,这将使我们能够更真实、更有效地控制和理解全球人口的健康状况。最后一个问题,我可以给你一个满意的答案吗?我并没有靠人工智能就能找到不老长生的秘诀。但是,这个领域都肯定会从人工智能中受益,这是第一步。无论你是研究者,还是像我这样希望人工智能能简要总结文章的人,但在未来,你知道,我预期 AI 会给你提供新的假设供你进行测试。它现在已经在执行这样的任务,只是在一些比分子更复杂的系统中可能会更为常见。好的,宝贝。谢谢。是的,我还有一些想要补充的。
文本整理来自X宝玉@dotey
原视频:https://twitter.com/i/status/1764240593528705417