虽然 ChatGPT 比 Siri 更强大,但聊天 UI 无法很好地完成许多任务,我们仍然需要图形用户界面。需要探讨讨论 LLM 帮助我们构建 UI 的混合交互模型。
麻省理工学院 AI 实验室的 Geoffrey 这周出了一篇文章对AI影响下的软件形态做了探讨。
英文地址:关于AI影响下未来的用户界面是什么样的
用户界面仍然很重要。我们可以想象 LLM 的具体、有针对性的角色,帮助用户定制和构建软件,而不会不小心将数十年的交互设计扔到窗外。
重点是想象从当前 AI 的合理推断如何支持与计算机的新型交互,以及我们如何应用这项新技术来最大限度地增强最终用户的能力。
聊天本质上是一种有限的互动
现在,完成这些准备工作,让我们进入本文的主题:交互模型将如何在这个新的计算时代发展?我们将从评估聊天作为一种交互模式开始。计算的未来是否只是用自然语言与我们的计算机对话?
要清楚地思考这个问题,我认为重要的是要注意到聊天机器人令人沮丧的原因有两个。首先,当聊天机器人的能力有限(看着你的 Siri)并且不能做你想让它做的事情时,这很烦人。但更根本的是,无论机器人的质量如何,聊天本质上都是一种有限的交互模式。
我们已经有了用于修剪视频的直接操作用户界面,具有丰富的交互反馈。例如,考虑用于修剪视频的 iPhone 用户界面,它提供丰富的反馈并精确控制修剪的位置。这比在聊天中来回说“请实际修剪 4.8 秒”要好得多!
现在,我明白了 Greg 演示的重点不仅仅是剪辑视频,而是展示了广阔的可能性。但是这里还有一些重要的事情需要注意:聊天界面不仅非常缓慢和不精确,而且还需要有意识地了解您的思维过程。
当我们使用一个好工具——一把锤子、一把画笔、一副滑雪板或一个汽车方向盘时——我们会以一种潜意识的方式与这些工具融为一体。我们可以进入心流状态,应用肌肉记忆,实现精细控制,甚至可能产生创意或艺术输出。无论机器人有多好,聊天都不会像开车一样。Terry Winograd 和 Fernando Flores 在 1986 年出版的《理解计算机和认知》一书中详细阐述了这一点:
在驾驶汽车时,控制交互通常是透明的。你不会想“我应该把方向盘转多远才能绕过那个弯道?” 事实上,您甚至都没有意识到(除非有什么东西侵入)使用方向盘……汽车设计的长期发展导致了这种随时可用的状态。它不是通过让汽车像人一样交流来实现的,而是通过在相关领域(道路上的运动)中提供驾驶员和动作之间的正确耦合来实现的。
顾问与应用程序
让我们稍微缩小一下这个聊天与直接操纵的问题。思考它的一种方法是反思通过 Slack 与人类顾问团队互动的感觉,而不是仅仅使用应用程序来完成工作。然后我们将看到 LLM 如何发挥作用。
因此,假设您想要获得有关您的业务的一些指标,也许是下个季度的销售预测。你怎么做呢?
一种方法是询问您熟练的业务分析师团队。您可以向他们发送消息询问您的问题。因为他们很忙,所以可能需要几个小时才能得到回复,而且这很贵,因为你是在为人们的时间买单。对于一项简单的任务来说似乎有点过头了,但关键的好处是灵活性:您希望顾问具有广泛的通用智能,并且可以执行您要求他们执行的许多不同任务。
相比之下,另一种选择是使用自助分析平台,您可以在其中点击某些仪表板。当这有效时,它比打扰分析师更快、更便宜。仪表板为您提供强大的直接操作交互,如排序、过滤和缩放。您可以自己快速思考问题。
那么缺点是什么?使用该应用程序不如与定制顾问合作灵活。当您想要执行此分析平台不支持的任务时,您将不得不寻求帮助或切换到其他工具。您可以尝试向分析平台的开发人员发送电子邮件,但通常没有任何结果。您与开发人员之间没有有意义的反馈循环;您希望软件更灵活。
现在建立了基线比较,让我们想象一下法学硕士如何适应。
假设我们可以用 ChatGPT 代替我们的人工分析师团队来完成我们想到的任务,同时保持相同程度的灵活性。(今天的模型并非如此,但对于某些近似值会越来越真实。)这将如何改变画面?好吧,一方面,法学硕士比人类便宜得多。它的响应速度也快得多,因为它不忙于喝咖啡休息。这些都是主要优势。但是,用它来回对话需要几秒钟,如果不是几分钟的话,有意识的思考——比你在 GUI 或方向盘上的反馈循环要慢得多。
接下来,考虑应用于应用程序模型的 LLM。如果我们从一个交互式分析应用程序开始,但这次我们有一个 LLM 开发人员团队供我们使用怎么办?首先,我们可以向 LLM 询问有关如何使用该应用程序的问题,这可能比阅读文档更容易。
重要的是我们现在已经在交互中建立了两个循环。在内部循环中,我们可以使用快速直接操作界面与工具融为一体。在外部循环中,当我们达到现有应用程序的极限时,我们可以有意识地向 LLM 开发人员提供反馈并构建新功能。这保留了 UI 的优势,同时增加了更多的灵活性。
即时 UI 演示
更新 3/31:在我最初发布这篇文章后的几天里,我在 Twitter 上发现了一些人们在这个领域探索想法的巧妙演示;我已经在这里添加了它们。
解决过程中的修正
通过即时UI实现过程中插入操作
上传文档图片视频等
打通编程瓶颈
为什么 LLM 对赋予用户计算能力来说意义重大?
几十年来,计算先驱们一直在实现最终用户编程的愿景:普通人利用计算机的全部、通用功能,而不仅仅是使用程序员精英传授给他们的预制应用程序。正如艾伦·凯 (Alan Kay)在 1984 年所写:“我们现在想像以前编辑文档一样编辑我们的工具。”
但直到现在它们还受到一个基本挑战的限制:帮助人们将他们的粗略想法转化为正式的可执行代码真的很难。系统设计者已经尝试过超高级语言、友好的可视化编辑器和更好的语法、分层的复杂程度以及从示例中自动生成简单代码。但事实证明,使用这些技术很难突破一定的复杂性上限。
LLMs不仅能使专业开发人员更具生产力,而且还可能使所有计算机用户都能够从头开始开发小型软件工具,并描述他们希望对现有软件进行的修改。这意味着,LLMs将代表终端用户编程工具支持的一个重大变化:普通人能够充分利用计算机的通用能力,而无需求助于普通编程的复杂性。这可能使得未来的软件形态出现这几个变化:
- 一次性脚本:普通计算机用户每天会让他们的AI创建并执行数十次脚本,以执行数据分析、视频编辑或自动化繁琐任务等任务。
- 一次性GUI:人们使用AI创建整个GUI应用程序,只用于执行单个特定任务,包含他们所需的功能,没有膨胀。
- 自建不购买:企业开发更多定制化的软件,以满足他们的特定需求,而不是购买现成的SaaS,因为现在更便宜获取定制化的软件。
- 模组/扩展:消费者和企业要求能够扩展和修改他们现有的软件,因为现在更容易指定新功能或微调以匹配用户的工作流程。
- 重新组合:取你最喜欢的不同应用程序的最佳部分,并创建一个新的混合体将它们组合在一起。
之后Ridd和jordan singer也加入了关于未来软件交互和形态的讨论。
Ridd的观点有:
- 人工智能将让每个人都成为一名工程师。不仅仅是设计师、产品经理或其他“非技术”团队成员…我说的是您产品的用户。
- 现在我可以。1)在像 Notion、Reflect 或 Threads 等产品中使用 AI 助手对文本执行操作。2)我可以在单独的工具中使用 AI 生成界面…但如果这两种用例开始融合呢?
- 在那个世界里,我们“发布”的产品可能更像是基础结构或量身定制的默认设置。大部分的用户体验将由用户在我们的初始产品支架周围使用 AI 构建而定义,也许在需要时会生成整个用户界面,然后在之后被丢弃…
- 我们作为设计师的角色可能更多地转向建议与我们的核心界面周围的 AI 进行交互的方式。例如:“已保存的提示”,这些提示可以直接使用,同时提供新提示的创意
jordan singer的观点是: 未来的界面将会是动态界面,可以根据提示直接生成UI,这里的UI指的是代码,而不是设计稿。比如一种用户界面类型。给定数据或 JSON,生成适合其最佳界面。 一张照片–照片界面 一个文章和链接的列表–新闻界面 给定参数和限制条件,让 AI 根据提示、输入、用户和上下文变量决定界面。
总结一下他们的观点,未来软件的界面将会是动态的一次性的,未来设计师可能不需要设计这么多完整的的界面和交互模式,专注于生产完成细分需求与AI交互所需要的组件就可以了。
甚至也不需要画设计稿。那这些内容其实没有那么多,现有的最佳方案机会已经都被探索出来了,所以未来到底还需要多少UI或者UX设计师就不好说了。