Google正式发布Gemini 1.0，性能全面超越GPT-4

介绍双子座

作者：Google DeepMind首席执行官兼联合创始人Demis Hassabis，代表双子座团队

Google Gemini体验网址：https://bard.google.com/

Gemini论文报告网址：https://blog.google/technology/ai/google-gemini-ai?utm_source=gdm&utm_medium=referral

就像我的许多研究同事一样，人工智能一直是我一生工作的重点。自从十几岁时为电脑游戏编程人工智能以来，在我作为神经科学研究试图了解大脑工作的这些年里，我一直相信，如果我们能制造更智能的机器，我们可以利用它们以令人难以置信的方式造福人类。

这一由人工智能负责任授权的世界的承诺继续推动我们在谷歌DeepMind的工作。长期以来，我们一直希望构建新一代人工智能模型，其灵感来自人们理解世界并与之互动的方式。人工智能感觉不像智能软件，而更像是有用和直观的东西——专家助手或助手。

今天，当我们介绍双子座时，我们离这一愿景又近了一步，这是我们有史以来最有能力和最通用的模型。

Gemini是谷歌团队大规模合作的结果，包括我们在谷歌研究的同事。它从头开始构建为多模式，这意味着它可以概括和无缝理解、跨操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。

介绍双子座：我们最大、能力最强的人工智能模型。

介绍双子座：我们最大、最强大的人工智能模型

Gemini也是我们迄今为止最灵活的模型——能够在从数据中心到移动设备的所有设备上高效运行。其最先进的能力将显著增强开发人员和企业客户使用人工智能构建和扩展的方式。

我们针对三种不同尺寸优化了双子座1.0，这是我们的第一个版本：

Gemini Ultra——我们最大、最有能力完成高度复杂任务的模型。
Gemini Pro——我们扩展各种任务的最佳模型。
Gemini Nano——我们设备上任务的最有效模型。

最先进的性能

我们一直在严格测试我们的双子座模型，并评估它们在各种任务上的表现。从自然图像、音频和视频理解到数学推理，Gemini Ultra的性能超过了大型语言模型（LLM）研发中使用的32个广泛使用的学术基准中的30个，其最新成果。

Gemini Ultra的得分为90.0%，是第一个在MMLU（大规模多任务语言理解）方面优于人类专家的模型，该模型结合了数学、物理、历史、法律、医学和伦理学等57门学科来测试世界知识和解决问题的能力。

我们对MMLU的新基准方法使双子座能够在回答困难问题之前使用其推理能力进行更仔细的思考，从而比仅仅使用第一印象有了重大改进。

与GPT-4（在报告数字缺失时计算的API数字）相比，显示Gemini Ultra在常见文本基准上的表现的图表。

Gemini在包括文本和编码在内的一系列基准上超越了最先进的性能。

Gemini Ultra还在新的MMMU基准上获得了59.4%的最新得分，该基准由跨越不同领域的多模式任务组成，需要深思熟虑。

通过我们测试的图像基准，Gemini Ultra的表现超过了以前最先进的模型，而没有从图像中提取文本以进行进一步处理的对象字符识别（OCR）系统的帮助。这些基准突出了双子座的本土多模式性，并表明了双子座更复杂推理能力的早期迹象。

在我们的双子座技术报告中查看更多详细信息。

一张图表显示了Gemini Ultra与GPT-4V相比在多模态基准上的表现，之前的SOTA型号列在GPT-4V不支持功能的地方。

双子座在一系列多模式基准上超越了最先进的性能。

下一代能力

到目前为止，创建多模态模型的标准方法包括为不同模式训练单独的组件，然后将它们拼接在一起，以大致模仿其中一些功能。这些模型有时可以擅长执行某些任务，例如描述图像，但难以进行更概念化和复杂的推理。

我们设计双子座是原生的多模式，从一开始就预先训练了不同的模式。然后，我们用额外的多式联运数据对其进行微调，以进一步完善其有效性。这有助于双子座从头开始无缝理解和推理各种输入，远远优于现有的多模态模型——其能力在几乎每个领域都是最先进的。

了解有关双子座能力的更多信息，看看它是如何工作的。

复杂的推理

Gemini 1.0复杂的多模态推理功能可以帮助理解复杂的书面和视觉信息。这使得它独特地擅长发现在大量数据中难以识别的知识。

它通过阅读、过滤和理解信息从数十万份文件中获取见解的非凡能力将有助于在从科学到金融的许多领域以数字速度实现新的突破。

双子座解锁了新的科学见解。

2:43

双子座解锁了新的科学见解

了解文本、图像、音频等

Gemini 1.0接受过同时识别和理解文本、图像、音频等的培训，因此它可以更好地理解细微信息，并可以回答与复杂主题有关的问题。这使得它特别擅长解释数学和物理等复杂科目的推理。

双子座解释了数学和物理学的推理。

1:59

双子座解释了数学和物理学的推理

高级编码

我们的第一个版本的双子座可以在世界上最受欢迎的编程语言（如Python、Java、C++和Go）中理解、解释和生成高质量的代码。它能够跨语言工作并对复杂信息进行推理，使其成为世界上领先的编码的基础模型之一。

Gemini Ultra擅长几个编码基准，包括评估编码任务性能的重要行业标准HumanEval，以及我们的内部保留数据集Natural2Code，它使用作者生成的来源而不是基于网络的信息。

双子座也可以用作更高级编码系统的引擎。两年前，我们推出了AlphaCode，这是第一个在编程比赛中达到竞争性能水平的人工智能代码生成系统。

使用Gemini的专业版本，我们创建了一个更先进的代码生成系统AlphaCode 2，它擅长解决超越编码，涉及复杂数学和理论计算机科学的竞争性编程问题。

双子座擅长编码和竞争性编程。

5:01

Gemini擅长编码和竞争性编程

当在与原始AlphaCode相同的平台上进行评估时，AlphaCode 2显示了巨大的改进，解决了近两倍的问题，我们估计它的表现优于85%的竞争参与者——高于AlphaCode的近50%。当程序员通过定义代码示例的某些属性与AlphaCode 2合作时，它的表现会更好。

我们很高兴程序员越来越多地使用高性能的人工智能模型作为协作工具，可以帮助他们推理问题，提出代码设计并协助实施——这样他们就可以更快地发布应用程序并设计更好的服务。

查看我们的AlphaCode 2技术报告的更多详细信息。

更可靠、可扩展和高效

我们使用谷歌内部设计的张量处理单元（TPU）v4和v5e，在人工智能优化的基础设施上大规模培训了Gemini 1.0。我们将其设计为我们最可靠、最可扩展的培训模式，也是我们最高效的服务模式。

在TPU上，双子座的运行速度明显快于早期、更小、能力较差的型号。这些定制设计的人工智能加速器一直是谷歌人工智能产品的核心，这些产品为搜索、YouTube、Gmail、谷歌地图、Google Play和Android等数十亿用户提供服务。他们还使世界各地的公司能够以具有成本效益的方式培训大型人工智能模型。

今天，我们宣布了迄今为止最强大、最高效、最可扩展的TPU系统Cloud TPU v5p，专为培训尖端人工智能模型而设计。这个下一代TPU将加速双子座的开发，并帮助开发人员和企业客户更快地培训大规模生成人工智能模型，使新产品和功能能够更快地接触到客户。

谷歌数据中心的一排云TPU v5p AI加速器超级计算机。

以责任和安全为核心

在谷歌，我们致力于在我们所做的一切中推进大胆和负责任的人工智能。基于谷歌的人工智能原则和我们产品的强大安全政策，我们正在添加新的保护措施来考虑双子座的多式联运能力。在开发的每个阶段，我们正在考虑潜在风险，并努力测试和减轻它们。

Gemini对迄今为止的任何谷歌人工智能模型进行了最全面的安全评估，包括偏见和毒性。我们对网络犯罪、说服和自主等潜在风险领域进行了新的研究，并应用了谷歌研究一流的对抗性测试技术，以帮助在双子座部署之前识别关键安全问题。

为了识别我们内部评估方法中的盲点，我们正在与一组不同的外部专家和合作伙伴合作，在一系列问题上对我们的模型进行压力测试。

为了在双子座培训阶段诊断内容安全问题并确保其输出遵循我们的政策，我们正在使用真实毒性提示等基准，这是一组由艾伦人工智能研究所专家开发的一组从网络中提取的具有不同毒性程度的100,000个提示。这项工作的更多细节即将公布。

例如，为了限制伤害，我们建立了专门的安全分类器来识别、标记和整理涉及暴力或负面陈规定型观念的内容。结合强大的过滤器，这种分层方法旨在使双子座对每个人来说更安全、更具包容性。此外，我们正在继续应对事实性、接地、归因和证实等模型的已知挑战。

责任和安全将永远是我们模型开发和部署的核心。这是一项需要协作建设的长期承诺，因此我们正在与行业和更广泛的生态系统合作，通过MLCommons、前沿模型论坛及其人工智能安全基金以及我们的安全人工智能框架（SAIF）等组织定义最佳实践并设定安全和安保基准，该框架旨在帮助减轻公共和私营部门人工智能系统特有的安全风险。随着双子座的发展，我们将继续与世界各地的研究人员、政府和民间社会团体合作。

让双子座向世界开放

Gemini 1.0现在正在一系列产品和平台上推出：

谷歌产品中的双子座Pro

我们正在通过谷歌产品将双子座带给数十亿人。

从今天开始，巴德将使用微调版的Gemini Pro进行更高级的推理、规划、理解等。这是巴德推出以来最大的升级。

它将在170多个国家和地区以英语提供，我们计划在不久的将来扩展到不同的模式，并支持新的语言和地点。

我们还将双子座带到Pixel。Pixel 8 Pro是第一款运行Gemini Nano的智能手机，它正在为录音机应用程序中的总结和Gboard中的智能回复中推出等新功能提供动力，从WhatsApp开始——明年将推出更多消息应用程序。

在未来几个月，双子座将可用于我们的更多产品和服务，如搜索、广告、Chrome和Duet AI。

我们已经开始尝试搜索中的双子座，它正在使我们的搜索生成体验（SGE）更快，美国英语的延迟减少了40%，同时提高了质量。

与双子座一起建造

从12月13日开始，开发人员和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。

Google AI Studio是一个免费的、基于网络的开发人员工具，可帮助开发人员和企业客户使用API密钥快速原型和启动应用程序。当需要一个完全托管的人工智能平台时，Vertex AI允许定制Gemini，具有完整的数据控制，并受益于额外的谷歌云功能，以实现企业安全、安全、隐私和数据治理和合规性。

Android开发人员还将能够通过Android 14中可用的新系统功能AICore构建Gemini Nano，这是我们设备上任务的最高效的模型，从Pixel 8 Pro设备开始。注册AICore的早期预览。

Gemini Ultra即将推出

对于Gemini Ultra，我们目前正在完成广泛的信任和安全检查，包括受信任的外部方的红队，并在广泛提供之前使用来自人类反馈（RLHF）的微调和强化学习进一步完善模型。

作为此过程的一部分，我们将向选定的客户、开发人员、合作伙伴以及安全和责任专家提供早期实验和反馈，然后在明年初向开发人员和企业客户推出。

明年初，我们还将推出Bard Advanced，这是一种新的尖端人工智能体验，让您从Gemini Ultra开始访问我们最好的模型和功能。

双子座时代：实现创新的未来

这是人工智能发展的一个重要里程碑，也是我们谷歌新时代的开始，因为我们继续快速创新和负责任地推进我们模型的能力。

到目前为止，我们在双子座上取得了巨大进展，我们正在努力进一步扩展其未来版本的能力，包括规划和内存方面的进步，并增加处理更多信息的上下文窗口，以提供更好的响应。

我们对人工智能负责任赋权的世界的惊人可能性感到兴奋——一个创新的未来，它将增强创造力，扩展知识，推进科学，并改变世界各地数十亿人的生活和工作方式。

{{userData.name}}已认证

Google正式发布Gemini 1.0，性能全面超越GPT-4

介绍双子座

最先进的性能