本文作者是飞马AI企业端业务负责人哲伦。哲伦是互联网连续创业者,本文是OpenAI在最近一次开发者大会发布一系列重磅产品之后,作者的一个思考,欢迎交流探讨。
自11月7号openAI的开发者大会之后,一直在消化里面的信息,阅读开发者文档,尝试做一些GPTs的应用。最近有些阶段性的思考,撰文以飨读者。
(图片由Chat GPT的DALL-E文生图能力生成)
我们都知道,当年乔布斯重回苹果,通过一款iphone,定义了整个移动时代计算机与用户交互的「入口」。多点触控的屏幕、简约而不简单的界面、搭载了智能系统的手机,让人类社会踏入了一个全面的数字时代。
然后,又通过「APP Store」,构建了越来丰富的应用生态,各种APP喷薄而出,微信、抖音、支付宝这些平台级应用也应运而生。
我们通过一个小小的屏幕,点击、滑动,就可以获取全世界的实时信息,随时随地与任何人交流,购买任何一个商品/服务,导航到任何一个陌生的地方,或者去预定到达那里的行程。
而这样的路,OpenAI也想重走一次。
一、我想先说结论:OpenAI重新定义了「以语音入口」的AI时代
是的,这一波新的入口是“语音”。
OpenAI重新定义了「以语音入口」的AI时代,图来自DALL-E
我们可以先看下GPT目前的语音效果,已经有很多博主在发类似的视频了:
https://www.bilibili.com/video/BV1Zr4y1f7Fd/?spm_id_from=333.337.search-card.all.click&fileGuid=vVqRMNb0OniPRY3y
(一个ChatGPT用男声在回复问题的视频,这样的视频网络上还有很多)
GPT之前纯文字的输出能力我们都见识过了,基本达到了大学生水平以上的语言表达和逻辑思考能力(过往的语音机器人可能也就3-4岁的水平)。这已然让全世界为之震动。
而这波,OpenAI再把文字输出为语音,已经非常接近真人,包括模拟人的停顿、思考。
甚至GPT的很多谈吐,还能引发人的深思。
GPT已经可以让我们可以像跟一个真人一样地聊天了。他可以回答你的任何问题,给出你建议。面对复杂的任务,他还能帮你进行任务的分析与拆解。
OpenAI给了我们一个不断进步的“大脑”,而控制行为和动作的“小脑”,OpenAI的CEO山姆奥特曼也在此次开发者大会中,给我们发布了更好的范例,以及功能更加强大的接口。
二、仅有入口还不够,「语音入口」还需搭配丰富的应用生态
跟用户的交互入口有了。接下来就是丰富应用。
马上就要推出的GPT Store,可以类比为iPhone时代的 APP Store,可以分发我们开发的各种应用。
一旦生态成熟,到那时,我们仅靠语音,就可以与整个世界相连。仅靠语音,我们就可以更自然地连接过往所有app的相关能力来达成我们的目的。
“让GPT帮你推荐周末两日周边游行程,并在美团预定好房间?”
“让GPT帮你想好明天要做的减脂餐,并在叮咚买菜买好所需的食材?”
这些都是最基础的操作。
而且,OpenAI此次还进一步降低了应用的开发门槛,每个人都可以非常简便地创建GPTs(应用)。
(如图就是我仅通过自然语言描述,就创建一个房车推荐GPT是应用。根据我的自然语言描述,GPT自动地生成了应用名字、logo、介绍。如果不满意,你可以还可以让他反复修改。)
(在我的应用服务客户时,GPT会严格遵循我之前说的要求)
(当他无法回复最新的内容时,会主动调用外部搜索引擎等接口帮我拿到结果,每个结果都给出了网址索引)
当然,仅有入口是不够的,开发者与用户的参与也是当年iPhone – iOS整个生态能够成功的关键。Minecraft(我的世界)这款游戏向我们证明,用户的创造欲有多么的强烈与丰富。GPTs才刚刚上线,用户的热情就把OpenAI的网站搞宕机了。
用户会愿意与自己创造的GPTs进行互动,也会愿意把自己创造的产品与朋友们、与更多的用户进行分享。那种分享之后的被认同与获得感才是无与伦比的东西。
我们可以看到,OpenAI这次发布会的”语音入口 + 应用生态“的布局,对于国内外深谙技术的创业者和巨头来讲,已然是在打明牌了。
那么接下来,巨头们又将怎样应对呢?中小创业者们又该何去何从呢?
想来,几个巨头不会忘记,恰是因为PC到移动互联网的掉队,曾经一度在移动时代被边缘化的微软,以及最后被卖身的诺基亚吧~
一旦语音交互成为新的入口,必将重新改写整个软件生态。
三、关于竞争:面对OpenAI的明牌,国内外巨头必将拔腿猛追
1、苹果(据说最近在秘密研发AppleGPT,但乔老爷子当年留下的Siri+快捷指令,如今的苹果谁又能为其延续生命?)
就像移动互联网之后,PC生态被边缘化一样,AI时代来临,一旦没抓住新的入口和浪潮,苹果也大概率会被边缘化。
曾经诺基亚在手机领域也是多么的不可一世,移动时代来临之后还不紧不慢。可谁知,也就那么1-2年的时间就错过了一个时代。
不知道接下来的苹果又将如何出牌。
有时候并不是看不到趋势,而是顶层在决策的时候不够决断,亦或在资源投入的时候不敢All in,错失了时间窗口。船大掉头难,也希望苹果不要错失最佳的入场时机。
2、谷歌(先是发布了类似ChatGPT的Bard,能够连接谷歌自己的应用,最近据说又在训练下一代多模态的Gemini模型,这是想弯道超车?最近又有消息说要投资Character.AI,是为了缓解焦虑?)
Google最早通过搜索起家,抓住了互联网时代的入口,成为那个时代规则的制定者;后来又通过收购安卓,掌握了移动时代除IOS外的另一个入口。吃到过多次科技入口变迁的红利。
当然,Google的搜索入口,除了查找信息之外,也承担着通路的作用(很多用户不会直接在浏览器打域名,而是通过Google搜索直达)。而OpenAI + GPT Store主要就是想重新定义入口和通路。作为这波的OpenAI的直接竞争对手,Google可谓是最受威胁的一个。
也不怪Google焦虑。作为最早注入大量资金和人才投入AI的巨头,终究是起了个大早,赶了个晚集。
非常期待接下来Google的出牌,能否为他扳回一局,让我们拭目以待。
3、Meta(开源了LLaMA大模型,想做AI时代的安卓,不过AI这回似乎跟当年移动时代的玩法有点不一样?)
Meta目前占据着IM和社交的流量入口,两个通讯工具WhatsApp 和 Messenger,以及两个社交平台facebook和Instagram。连接了海量的用户。
虽然不像苹果和谷歌特别依赖技术型的入口,可是随着 GPTs能模拟一切(除了生成各种GPT应用,也完全可以模拟一个能自然对话的人,提供类似Character.AI的能力)
如果我们可以开始与用户创造的GPTs社交,谁又能知道他会切走Meta多大的社交份额呢?
4、马斯克(X+特斯拉)
当然,我们不能忘了曾经OpenAI的创始人之一,现如今执掌 X (Twitter)和特斯拉等多家公司的马斯克,在退出OpenAI之后,又组建了X.AI。
还在OpenAI这次开发者大会之前,提前发布了对标ChatGPT的Grok,并在X上隔空宣战。
话说结合上X天然的社交媒体场景,将X.AI打包成16美金的X月度付费会员权益(低于OpenAI的20美金),这与生俱来的连接能力,或许会让X.AI成为Chat GPT的有力竞争者。
5、微软
错过了移动时代,但靠着Azure云计算在B端扳回一城。这一波的AI时代,投资了OpenAI49%股份的微软算是这波浪潮最早的入局者之一,拿到了AI时代的半张船票。
6、亚马逊
当然还有电商大佬亚马逊,最早其大力推广的Alexa家庭音箱也曾想切入语音入口的场景,只恨当时技术条件并不成熟。如今也是把Alexa与大模型进行了结合。但缺少生态的加持,也很难让其成为一代入口的领军者。
如今又入股了“坊间排行第二”的大模型公司Anthropic(创始人是OpenAI前高管),结合上自己的亚马逊云,是在模仿微软在AI时代的布局,也不过是希望抓住这波AI浪潮下为数不多的船票罢了。
巨头们人手一个大模型已是必然,不光自己在偷偷做,还在外面广泛地投资布局。
可以想见,各家接下来必将跟随 OpenAI 这种入口 + 应用的生态玩法,快速去圈定自己的势力范围。
想来也不用太久,或许明年年初我们就将会看到一幅神仙打架的场景了。
四、国内巨头,新一波的入口抢夺 + 生态之战
那么,对于国内的头部厂商来讲,又将会如何呢?
GPT进不了国内,为我们争取了宝贵的时间。当然也让第一入口之争会更加激烈。
这些已经掌握了移动时代流量的厂商,必将以最积极地姿态去抢夺这个新的流量入口。
毕竟每家都想掌握定义AI时代软件生态的权力。
目前国内的互联网公司,更多处于大模型底层能力跟进 、亦或者用AI粉饰自身成熟应用的初级层面。在中间的基础设施构建、生态布局层面,离OpenAI和国外公司着实是差了几个段位。
可以说,国内目前也还没有一个像OpenAI 那样能力领先、且布局完善的品牌。
1、百度
虽然在AI领域赶了个早,但是综合对比来看跟openAI的布局还是差了一些。
百度曾经在移动互联网生态的布局上走错几步,也晚了几步,最后才沾了移动时代的一个末尾。
如今的AI时代,又是国内几乎最早all in AI战略,争取去构建AI生态的巨头企业,希望这次的生态构建能足够深,细节做的足够好。
真正给到更多生态参与者、开发者的利好足够实在,大家才会愿意为你“抬轿子”,这样也才不辜负百度在AI领域这么多年的投入哇。
2、阿里
阿里旗下拥有生态能力的企业比较多,除了钉钉最早喊着All in AI,发布了一系列AI的能力之外。
后面正巧赶上阿里内部的大型组织调整,耽搁了不少时间。更换吴永铭作为CEO之后,也提出了全面发力AI的战略。但目前为止还没有看清阿里会在哪块具体的应用及生态场景下去发力,是淘天、还是钉钉,亦或是蚂蚁?
原有应用层面的AI创新不是AI时代真正的底层创新,如何根据多模态的能力塑造全新的交互入口,并且带动更多外部开发者来加入,才是更加长久的道路。
不过据悉,全国已经至少有一半以上的大模型都在阿里云上运行。毕竟,阿里云的王坚博士说了,如果把大模型比作电动机的话,算力就是AI时代的电啊!
3、腾讯
腾讯向来在这种时候不是很着急,依靠微信的海量用户,总能后发而先至。主打一个先看清楚,再想明白,然后果断下手。
从曾经的移动支付,再到后来的视频号。如今又是混元大模型。好像微信还从没让腾讯失望过。
相信擅长“学习”,重回一线的龙哥已经在各种AI产品里摸底许久了。希望这次也能给我们带来新的惊喜。
4、字节跳动
字节自研的大模型「豆包」,是几家巨头里面最后一个推出的,而且好像并没有在市场上泛出多大的水花。
相比前面几家,字节似乎更擅长做内容生态,信息和内容的分发,而非做连接。好像也不太擅长构建面向开发者的生态。当年抖音曾经有模有样地向微信、支付宝学习做过类似小程序的开发者平台,但后面基本上等于废掉了,开放了个寂寞。
目前尚处于AI的最早期阶段,需要先去做好最基础的连接,才能再重新去思考内容/信息如何更好的分发。可是国内的入口一旦被某个巨头占据,按照国内巨头做生态“吃肉都不吐骨头”的做法,还会给字节留下AI时代内容分发的机会么?
面对AI时代的新变化,不知字节接下来又将会打出怎样的一张牌?
紧接上面国外的巨头,又谈了一些国内的巨头,当然也不能排除中间有跑出新的颠覆性创新的可能性(比如国内拿到大额融资的头部大模型选手,像开复老师的零一大模型、王小川的百川等等)
大概率国内这些势力也都会跟进openAI目前的产品和生态路径,一手自己的大模型(反正都不太差钱)一手去构建面向开发者和普通用户的AI store。
不过想来国内出过微信小程序这样的生态创新,也希望AI这波,国内的大厂在大模型逐步跟上步伐之后,在生态层面能够走出跟国外差异化的创新之路。
五、针对我们中小创业者的机会和建议
最近看到很多文章在说,OpenAI这波杀死了多少初创公司。
但其实在我看来,有些功能是巨头自身的发展本来就会扩展的方向(从OpenAI如今的用户规模以及掌握的资源来讲,已经可以被当成一个年轻的巨头)。
然而,OpenAI这波其实给我们开启的是更多应用级的机会,即AI Agents(不少人音译过来叫AI智能体)
今年早些时候,很多人认为这波的AI浪潮,只是AIGC,也就是AI产生内容。
我一直觉得AIGC其实只是冰山一角,深藏的冰山实则是 当AI实现了与人的自然交互之后, 去操作、调用各种丰富的软件和应用。
也就是AI Agent。(智能体,就是AI时代的APP应用)
如果说AIGC是浮出来的那10%的话,AI Agent必将是那剩下的90%。
所以给到中小创业者、开发者们的建议是:
1、尽早尝试开发GPT上面的应用。就像第一波在iphone上开发应用的人。先趟趟AI里面的水找找感觉,这里面或许存在着成为AI时代的微信、抖音的机会。
2、可以考虑基于GPT出海,去构建海外Agent应用,毕竟海外的AI基础设施就目前而言是更完善的。而且接下来这块确实会存在红利。
3、紧密关注国内的头部平台,看看那个巨头更有机会成为国内的openAI,更有机会把握住这波新的定义入口的机会,国内巨头都会给予这个新的入口来去构建自己的AI生态的。
作为中小开发者,我们可以尽早进到各个生态去试水。历史告诉我们,在构建生态的早期,往往都会有属于开发者们的红利。
而且国人在构建生态这件事情还是很擅长的。
基于已有的生态结合AI去做再创新,或许能得来与美国不一样的生态路径。或许能弯道超车也说不定。
六、留在最后,写文章的目的,以及一些发散性畅想
以目前OpenAI的发展阶段,我觉得大概属于当年刚刚推出微信这个通讯工具,但还没有增加发送语音这个功能之前的阶段。
当年有了更加自然的语音加持之后,更简单的语音输入,也让微信可以面向更广泛用户产生快速的增长与粘性。
预计用不了多久,OpenAI必将带上应用生态们一起,全量发布其基于移动端的语音能力。届时对于整个行业必将是一波新的冲击。
而现在,OpenAI仅仅面向部分付费客户选择性地开放了语音互动能力,但是在其这一版面向开发者的Assitant的文档里,并且支持开发和调用。
TTS (文字转语音)和 Whisper(语音转文字)这两项重磅功能,却是赫然在列。从我的观点来看,以这两个开放功能为核心,面向开发者的系列能力的开放,才是这波开发者大会真正的必杀技。
(当然,DALL·E ,也给GPT长出了一双眼睛,可以基于图片理解世界以及根据你的自然语言生成图片了。以OpenAI喜欢把大招藏1年的“尿性”,针对视频的理解和输出肯定也已经在路上了)
这意味着,不仅OpenAI可以更加自然地连接用户了,而且用户可以更自然地与各种开发者接下来开发的GPTs (应用)进行更加自然的连接。
就像曾经的微信张小龙,在开放小程序生态时所说的那样:小程序,是希望能更好地连接一切。
然而微信仅仅让开发门槛从开发APP降低到 开发Web应用(小程序的前端技术逻辑基本延续了Web的开发模式),就已经大大降低了应用的开发门槛,让小程序的生态形成了井喷。
而这一波,OpenAI把应用开发门槛进一步降低,普通用户已经可以简单设置就能生成一个对话智能体;开发者也只需要去Openai Assistant里面对接一些API、功能接口(Function Calling、Code Interpreter、Retrieval等等)就可以定制开发一个可以接入外部的Agent智能体应用了。
可见,未来的应用的发展趋势,还是会往更加简单操作就能生成的方向去发展,技术和工具还会更加走向平权。(目前还需要技术人员连接外部接口、功能,想来用不了多久,只通过普通的语言也能生成一个很完整的应用了)
这对于过去做很多垂直应用的公司来说,也会面临着一轮新的颠覆危机与变革了!
最后,我写这篇文章的目的。
一方面,是希望整体分析OpenAI这张明牌打出去之后,各方将会产生的反馈,方便大家梳理思路。国内的头部大厂、AI产业链的从业者可以尽早行动,定好自己的生态位,做好布局。
另一方面,也是希望分享给AI行业的从业者。预计接下来国内外的应用层创新机会非常之多,大家可以早点加入这波大军。
PS,AI智能体应用的发展,有可能比移动互联网刚开始,微信刚发布小程序时的应用大爆发更加猛烈!
另外,这波的AI浪潮不仅是中美互联网之间的竞争,也涉及到中美两个大国之间的硬科技博弈,谁能率先在技术源头端建立生产力优势,谁必将在未来迅猛的竞争中占据上游。
我希望中国虽然没有迎来OpenAI的这样的黑科技创新,但是在接下来跟进的步伐上,各方拥有资本和资源的巨头能够在AI底层能力、以及配套的生态建设上面踊跃前进,积极地发动中小开发者和普通人的智慧,或许有机会让我国的AI产业后发而先至,变被动为主动。
毕竟刚过去的移动互联网时代,中国企业在面向用户的交互体验,以及生态构建等方面,的确是有不少地方可以做到:遥遥领先!