GPT-4，下周就要来了，升级方向是“多模态”

update 更新：GPT-4震撼发布：多模态大模型，更可靠，性能比GPT-3.5 模型提高 40%

3月9日，微软德国CTO Andreas Braun在一场名为「AI in Focus – Digital Kickoff」的活动中表示：GPT-4，将于下周问世！

果然，OpenAI的效率不会令人失望。

尽管许多技术消息还在保密，但一个关键细节已经被透露：GPT-4将是多模态的。

现在GPT3.5的能力仅限于文本的输入和输出，即“单模态”。一个多模态的语言模型，这意味着什么？

“多模态模型”是一种能够处理和关联来自多种不同的输入方式（例如语言、图像、语音、视频）的模型，可以在某些情况下产生不同的输出模态，例如从图像生成文本，或者从文本生成图像，这也意味着AI可以更好地理解和表达现实世界中的复杂信息。

Braun将GPT-4描述为人工智能领域的游戏规则改变者，它将向着拥有人类的解释能力这一目标更进一步。

模型大小：GPT-4 会比 GPT-3 更大，但应该小于当前最大的语言模型（5300 亿参数的 MT-NLG 与 5400 亿参数的 PaLM）。总之，GPT-4 不再强调以大取胜。

优化：GPT-4 消耗的算力比 GPT-3 更多。它将在参数化（最优超参数）与规模扩展（训练 token 数量与模型大小同等重要）方面做出新的最优性探索。

多模态：GPT-4 将是一个纯文本模型（而非多模态模型）。OpenAI 正努力将语言模型发挥到极致，之后再逐步转向 DALL·E 等有望全面超越单模态系统的多模态模型。

稀疏性：GPT-4 将延续 GPT-2 与 GPT-3 的趋势，仍然保持密集模型的身份（使用全部参数来处理任何给定输入）。但未来稀疏性可能逐渐占据主导地位。

对齐：GPT-4 的对齐程度将高于 GPT-3。借助从 InstructGPT 中总结出的知识，GPT-4 也将获得由人工反馈训练得出的宝贵经验。但 AI 对齐难题的彻底解决还有很长的路要走，目前仍在探索阶段、不宜大肆宣扬。