如何在商业生态系统的视角下看待人工智能浪潮带来的变与不变?技术迭代与商业化之间的距离应该如何弥合?在初心资本 2024 投资人会议上,科大讯飞联合创始人、未来智能董事长胡郁带来「新时代人工智能带来的商业生态系统范式转移及应对」主题分享,分享了他的洞察和思考。
未来智能是科大讯飞孵化的 AI 智能硬件公司,是一家专注于人机交互,目前以智能耳机为核心产品的消费智能硬件公司。2023 年,初心参与未来智能 Pre-A 轮投资。
深耕行业 20 余年,胡郁在人工智能技术研究和商业探索上积累颇多。1999 年参与创办科大讯飞后,他曾负责语音转写、智能硬件等业务体系,主导了讯飞输入法、讯飞听见、叮咚音箱、智能语音机顶盒等产品的研发运营。在人工智能研究领域,胡郁也获过多项国家级科学技术奖和个人杰出奖。
以下根据现场演讲内容整理。
我 1998 年参与创立科大讯飞,到现在讯飞成长为中国人工智能的标杆,中间我也经历过一些芯片项目,给国家安全做过很多贡献,现在已 经经历了好几波浪潮。从一个人、一桌人,最后发展到几百人、上千人,人工智能不是一个单一的事情:一方面好像任何地方都可以用人工智能;另一方面,过去 20 多年的明星创业公司,很多在深耕技术的公司,可能尚未开始盈利。
我举个例子,在中国所有的停车场全部用了人工智能技术,使用车牌扫描,而美国的所有收费停车场都没有用,即使 20 世纪 80 年代美国邮政就已经成熟地运用编码识别,当时运用了 Yann LeCun 做的神经网络的识别系统。但尽管车牌扫描在中国已经这么普及,似乎没有哪家公司因为做车牌扫描技术赚到钱。它是大规模使用了人工智能技术,但没有赚到钱就意味着没办法用市场经济的规律来扩大生产、进一步地扩大技术投入。这里面一定有规律,除了技术因素,还有比如宏观的经济学因素、中间层面的产业规律等。
最近开两会,很多专家院士谈到技术链、产业链、价值链。这中间有一些不对等的东西,比如最先进的技术并不代表最大的产业,产业规模大并不代表价值上能够创造很多的额外收益。在这个过程中我就在思考,我们创业是为了什么?是为了上市的市值,还是为了生意本身赚钱?还是给用户创造了很好的产品?这要回到初心,这两年中国特别卷,当同时存在多个目标的时候,目标之间是无法兼得的。在创业的过程中,时间足够长就能够想清楚的一件事情是,总有一天你会发现目标没有办法兼得,这不是努不努力的问题,而是由底层的逻辑和规律决定。知道了这些底层规律和逻辑,会让我更加坚定自己的选择。
讲到人工智能,我举个具体的例子,大模型出来了,从去年到现在,在汽车里做了语音交互的都号称用上了大模型。买车的时候, 消费者愿意为了新的自动驾驶额外付钱,但是否愿意为语音交互效果提升额外付钱?我相信肯定不愿意。消费者愿意为自动驾驶付费,因为那是车的核心能力,就像家里的三大件——彩电、冰箱和洗衣机,它给你提供价值主要是因为压缩机、电动机,再加上程序性的东西。语音交互可以带来噱头,但它很难改变硬件的本质。因为用户得到的价值是来源于它原来的机械性。
所以,人工智能公司在很多方面都能做一些提升性的东西,但问题就在于这些提升性的东西是否能够得到消费者的认可。人工智能需要投入成本,当投入成本以后,最终消费者传递过来的心理对价是多少,决定了将来的商业化价值。我在科大讯飞时给车展做了 20 年语音交互,当时国内所有车厂的语音交互的前端有输入的占百分之六七十,2020 年以后,业务量约六七亿,说明这个功能变成了死穴,别人有,你也得有。但它不是生穴,生穴是消费者愿意为刚刚讲的付出额外的生意对价的东西。卷的本质是因为产品上有很多死穴,你有我有,大家都得有。但是最终消费者链条传递的额外代价,并不一定愿意支付。从技术上的本质说明,做了一系列提升,也只是销售噱头,人人都得有,但是它又不是那么硬。
在过去的十几年,人工智能的发展有三个重要节点:2012 年 Hinton 和学生共同开发的 AlexNet (卷积神经网络)在ImageNet 大规模视觉识别挑战赛上一鸣惊人;2014 年国内出现一批做 computer vision 的公司,比如商汤、旷视、依图;2016 年,DeepMind 推出了 AlphaGo。
在 2014 年 computer vision 如日中天的时候,我提到把智能分成动物和人都有的感知智能和运动智能。开车时不用讲话,通过眼睛、耳朵接收了很多信息,去控制身体、去操纵方向盘,和自动驾驶车一样,通过感知操纵运动。现在大量的包括机器人在内的很多智能是在这。
我们也提出了认知智能。人有独特的东西——语音和文字的输入和输出,把语言的理解、知识的表达划分出来,与人类和动物都有的感知到运动的闭环抽象出来。而人和动物都不擅长的是运算,2014 年的视觉最厉害,2017 年的时候下棋最厉害。过去两年,随着 ChatGPT 的发展,大家更多在讲通用人工智能。
这里面现在还有很多误区,其中一个误区是将来谁有最多的数据,谁的智能系统就做得特别好。这是对 ChatGPT 这种智能的错误理解——只要有数据,只要有算力,只要有算法,智能就是最好的。这个误区没有考虑过认知智能的实现,是通过知识来学到认知智能。
而知识是怎么来的呢?知识是通过人对数据的底层逻辑的提取。而数据是从信息中来。以地心说和日心说为例,地心说是错误的知识,后来到了哥白尼、伽利略提出日心说,知识变得正确。为什么有这个知识呢?是因为有几百年的星象数据被记录下来,后来这个数据给了伽利略、哥白尼。
现在 ChatGPT 通过在文字和图像里记录下人类已经总结出来的知识。因为人和动物最大的区别就是人能够用语言和文字把自己的知识记录下来。既然是文字,里面就一定有常识,如雪花都是往下飘的。这种常识怎么来的?来源于文字描述,从来没有文章写石头往天上飞过去。这还不是学习常识的主要内容,主要是泛百科,人类整理了很多关于地理、历史、文学的内容。当人类用语言和文字把逻辑表现出来的时候,都在文字里有所体现,通过 ChatGPT Transformer 深层次模型的方法,通过阅读文字和图片中人类提炼出来的知识进行学习,通过这种 学习方法表现出与人的认知智能相似的东西。
但它的局限在什么地方呢?很多人再次又说这个就是通用人工智能。其实美国人真正在做科学研究的人和通用还有一定的区别。知识智能是通过阅读文字来得到知识方法,这不能够解决所有问题。没有知识能力的人和动物,也是有想象力和创造力,有意识和情感的。他们是通过另外一种智能,即具生智能获得的。具身智能是通过感知和运动,通过看到和听到,用肢体与自然界进行互动,学到经验。不会用文字的方法提炼表达出来,也不可能提炼成知识,但是这些经验已经足够帮助来做完成操作。现在的机器人,特别是扫地机器人,或者以后在生产线上的机器人,主要是通过视觉和听觉,控制移动和运动来实现能力。
可能会想把两个进行结合,但是在于很多场合下,大型人形机器人是不是一定要又能说会道又身体力行呢?这个要取决于它干什么样的工作。在这个过程中,技术的本质是这样的。
但是如何能让它更好的实现商业化,取决于技术在整个生态里的过程。中间消费和消费品是现在的核心。消费和消费生产过程,也叫供应链的过程,消费和消费品卖给消费者,是服务链的过程。要不就是在做前面生产消费和消费品过程,要不就是消费和消费品提供给消费者的过程,但是有一些消费,比如机场、公路,由政府做更有效,回报周期很慢。但是有一些消费品要高频迭代的、快速响应的,用市场经济方式来做更好。
从基础的角度来讲,基因与生命、能源与动力、材料与制造和信息与智能是推动现在整个商业社会快速发展的几个主要路线。基因与生命从生物体、植物、动物的构造的主要方向来,推动了农业、畜牧业,现在特别是人的健康生命制药快速发展。能源和动力从最早烧生物,到化石能源,最后到新能源,蒸汽机、内燃机、航空发动机,到现在的高密度的电动机。材料与制造从石头到金属,再到塑料、高分子材料,以及到新材料,在制造过程中锻造、冶炼、化工以及到现在的微制造。 我们所在的领域主要是信息与智能。首先来回顾一下人类有哪些保存信息和传播信息的有效手段:从最早在石头和甲骨文上刻字,到造纸印刷术,到无线电,到互联网的发展。数字化、信息化、网络化和智能化有其规律性。
回到商业生态,所有的消费和消费品要传递给消费者,中间都需要介质。在没有无线电之前,报纸、杂志和邮件,泰晤士报、纽约时报、时代周刊和美国邮政在信息传播上最为重要。有了无线电以后,广播电台、电视台和电信运营商起主要作用。每个商业生态的过程中出现巨头是因为它们起到了不可或缺的作用。
到了 PC 互联网,载体由书本和收音机、电视机变成了 PC,内容变成了网页,每个消费者厂商都需要建立自己的网站。到了移动互联网时代,消费者的设备也从不能移动的 PC 变成了手机,每个消费和消费厂商也要建自己的 App,抖音号、视频号、公众号、服务号,巨头越来越多,生态也发生变化。
报纸杂志没有完全消失,广播电视没有完全消失,但时间占比在缩小。人的生命每天 24 小时不变,每一次变化带来碎片时间利用变多。碎片时间利用越来越多以后,就给新的物种产生了新的机会。这就是一直在讨论的实体经济和虚拟经济。实体经济是传统的消费和消费品产品,虚拟经济是信息消费和信息消费品的距离。很多人很难理解,为什么 BAT(百度、阿里、腾讯)、TMD(字节跳动、美团、滴滴) ,不去做传统消费,因为传统消费的逻辑跟虚拟消费的逻辑,包括马太效应、寡头化都不太一样。
现在一个问题在于,到了新的人工智能的时代,这个链条会发生什么变化?这个链条是穿梭在整个商业生态中一个非常重要的链条。2019 年我们在思考这个问题,答案就是交互。
动物只有一种交互,通过看、听或身体触摸。这种交互,在 PC、touch、Vision Pro 操作时,与语言没有关系,所以动物也可以交互。原来的 GUI 和 touch UI 都是这种交互。而随着智能的发展,我们会看到另外一种交互,人的语言。从发展的角度来讲,将来的智能硬件在交互上还是往这两个方面去走,只不过智能化的东西越来越多。
手势用来缩放和转动是最方便的,语言不可能执行这种转动和移动的操作,但是用语言可以做大量的信息输入输出。所以,从智能化的角度来讲,基于一个多模态的传送中的交互会成为主流,需要一定的载体。从生态的角度来讲,买家和卖家双方,代表买家的智能助理不仅能够按要求完成工作,而且可能还想在前面,我要去出差的,它就预先知道我想订票,关键是代表我的利益。
消费和消费品厂商从把现在的美团、滴滴、京东作为购物渠道,通过把信息堆砌给它,到 AI expert 人工智能专家系统自动收集这些东西并且把它连接起来,它们之间进行交易可能会成为将来的核心。将来的传统消费和消费品公司肯定还在,人类只要生存,实体经济就会存在,从信息消费和信息消费品巨头过渡到智能信息消费和智能信息消费品的过程一定存在。一部分从原来的虚拟的巨头转过来,还有一部分新增,这个新增的东西在哪呢?其实可能会有三种变化,一种就是软件一体化设备,穿戴式、跟着 你的、固定式的。互联网软件及服务一个像原来的操作系统加搜索,或者一种综合的面向个人消费者的工具,它对你的了解会更多。一个好的助理能够带来更好的服务,前提是能记住你以前所有交互的内容。并且主动地有自己的想法。如果是我让你干什么,你就干什么,那就只是智能化工具,而不是智能助理。
未来智能团队通过AI软硬件一体化开发,深耕行业长达十年,致力于在各种消费场景中应用AI技术。他们将AI的能力真正服务于人,将其应用落地,使其从“智能工具”进化为“智能助理”。
下面来看技术设施,就是算力和通讯,特别是云边端和卫星通讯,以及在原来的光纤和微波基础上的这些东西。
iPhone 2007 年 1 月份乔布斯发明发布之前,世界上第一个基于触摸的移动操作系统在 1987 年就出现了。1990 年 IBM 发布了 Personal computer, 1996 年个人数字助理 PDA palm 就已经出现了。到了乔布斯 1997 年回苹果之前,苹果也已经做了一款个人数字助理叫 Newton。然后 Blackberry,诺基亚、摩托罗拉都推出了各种各样手持式的通讯、移动计算终端,后来的智能手机从 1987 年到 2007 年,中间有一系列的过渡型的产品。一直到 2007 年人类才找到了一个真正的移动通讯的终端的完美的结果。
从现在开始算,当人工智能等一系列的东西在这里面相连接的时候,可能需要 20 年。但这个时间点从哪开始算呢?回顾历史,也许会把 2012 年苹果发布 Siri 、2014 年亚马逊发布 Echo 作为其中的一些节点,包括现在我们还有很多创新。这个过渡的时间一定会有很多的尝试。在尝试的过程中,怎么能够既在现在的情况下就能够占领一定的空间,同时为下一个颠覆式的将来占领一个位置,这个是现在这些新的创业 要考虑的事情。
比如,在 ToC 市场里最大的一个,是新一代的硬件。不管是穿戴设备,还是沉浸式固定在某个场景中的设备,还是机器人。或者其中有各种 agent 和 expert,与日常生活紧密相关,在价值链里面承担非常重要的角色,从而能够产生有价值、用户更高心理对价的新型产品。
所以这是一个需要有人投入,而且将来在国际上竞争非常有前景的方向。不一定是公司越大越好,在将来的人工智能的导向下,公司有可能是精简的、高效的。
另外就是时机,我刚才讲 20 年时间可能真正的不会像大家讲的今天和明天的区别,有可能是你从现在开始努力,10 年、15 年以后,中间会有一个过程的结果。
在人工智能和机器人完全把人类变成“废物”之前,我们还有一两百年的时间,值得很多人去寻找自己人生价值的意义。不管是投资人也好,创业者也好,还有各位 LP 也好,大家都共同对人类的进步进行某种形式的参与,我也非常期待在将来和初心资本,还有各位其他的创业者共同去探索,人类将来的需求满足和我们自身的需求满足。