第一章
数百万人一起工作的未来

镜像世界带来的大变革

倾听科技,洞见未来

在我创作的《失控》中,我曾经预言了由科技巨头掌控的赢者通吃法则,以及免费经济和收益递增法则,并且预告了在20年后的财富排行榜上,必然会出现依靠这些法则财富暴增的IT精英。几十年过去了,我当年的猜测一个个都变成了现实。

因此,很多人跑来问我到底用什么样的方法,才能做出这样的分析。其实,我做的仅仅是倾听科技(listen tothe technology),因为科技是有生命的。我会不断地追问:“科技想要什么?”然后努力帮其实现。

我是从科技的角度观察世界的,因为推动世界发展和变化的主导力就是科技,这一点毋庸置疑。就好像当人们发明了电,下一步必然是发现电波。无论宇宙中的哪一颗行星,无论哪一种文明,只要发明了电,电波必然会紧随其后,接着Wi-Fi(无线网)就会诞生。我之前在《必然》里曾经提到过,诸如自动化(automation)等科技都是不可避免的,是必然会出现的。

当然,这里说的自动化,可能会因为面临不同的选择而显示出不同的具体特性。这些选择包括但不仅限于:自动化由谁控制、为谁所有;是共享型还是开放型;是商用还是非商用;是限于国内还是走出国门等。不过,有一点是我们不能选择的,那就是到底是否需要应用自动化。同样,对于AI的应用,我们也没有选择的自由。我在后面会进行详细的阐述,这就和生儿育女时基因的传承一样。我们只是在如何推进这个维度上有选择的余地,而且根据选择不同,结果也会大不相同。

其实,这和人类的成长非常相似。人类只要出生并长大,就势必要经历青春期,这一点你无法选择。你可以选择如何度过青春期,却不可能跳过这一阶段。

同理,文明的发展也是一样。即便我们移居到其他星球,只要那里的地形和重力等客观条件和地球接近,文明的发展进程就一定会以和地球文明类似的形式发生。

数百万人一起工作的未来

在未来的50年里,AI将成为可以与自动化和产业革命相提并论的,不,应该是影响更为深远的趋势。

受益于AI这类科技的高度发展,未来人们的工作方式势必出现巨大的变化。在我所能预见的未来中,到处都充满了上百万人同时参与一项工作的可能。那么,让我们来了解一下这会是怎样的工作,需要哪些技术来帮助我们实现如此大规模的共同协作。

想要实现百万人同时参与一项工作,我们需要一些目前尚未普及的工具,例如拥有AR功能的智能眼镜。对于需要按步骤交互进行的工作而言,AR这项技术比较容易实现和我们身体的互动。

AR智能眼镜可以使身处不同地点的人产生很强的临场感,仿佛处于面对面的状态。这样,所有人都可以对物体的设计和大小有同样的认知,以此实现共同作业。虽然现在还不是非常普及,但是有公司已经生产出了AR智能眼镜。比如,微软于2016年就开发并生产了搭载AR功能的智能眼镜Hololens。这款眼镜已经被应用在仓库和工厂等场景。工人会接受培训,并戴着Hololens进行作业。

除此之外,我们还需要一些特定的工具,以激励大家提出想法,并不断改良和优化这些想法。特别是对于最开始提出方案的人,当这项工作或项目引来注资之后,应该给予其合理的回报。至于用什么样的方式支付报酬,如今成为焦点的比特币等数字资产,以及区块链等技术,就会派上用场。

当然,快速发展的实时自动翻译技术也会发挥非常重要的作用,特别是其他语种与英语之间的互译。这些收费低廉到可以忽略不计的翻译应用会极大地扩展人们协作的范围,而且令工作过程变得轻松简单。世界上有很多拥有出众才能但不会说英语的人才,如果使用翻译技术,就可以让他们投身到以前无法参与的项目和工作中。

我们可以设想一下,大家利用共享资源(所有人都可以免费使用的软件程序等)制造自动驾驶的电动车。为了能够实现共同作业,协作者需要价格低廉的智能眼镜。这就需要有人设计出这种眼镜,并将其投入市场,大家一起推广和普及这种眼镜。所有这些工作,都将通过远程协作的方式进行。

几年前,社交新闻网站Reddit曾经策划过一个社会实验活动,在很短的时间内集结上百万参与者共同进行艺术创作。具体的方式就是由百万用户分别选择一个像素点填涂任意颜色,并且通过控制这个像素点让整个“像素画”发生改变。有的人为此还雇了他人共同作画。整个过程就像一场“像素大战”。

这个像素画活动只不过是一个游戏。但是要推广新生事物,趣味性必不可少。这种类似虚拟现实风格的游戏世界或游戏平台,也有可能成为未来的一个选择。

镜像世界是什么

近年来我一直倡导的AR世界——镜像世界,可以为更加复杂的生产协作提供必要的平台。

所谓的镜像世界,是耶鲁大学的戴维·杰勒恩特教授最先提出的概念。在镜像世界里,虚拟世界会与现实世界相重叠。美国导演史蒂文·斯皮尔伯格的电影《头号玩家》中就出现了类似的情节。

镜像世界可以被看作是一个由数百万人同时参与的、覆盖全球的层叠结构。每一个人都身处自己所在的地区,但同时又和世界上各个角落的人共同处在一个地球大小的虚拟世界中。

关于镜像世界最基础的解释,就是“将有关一个地点的所有信息叠加在现实世界中,并通过这个方法认识世界的全貌”。如果说VR是戴着眼镜沉浸在看不到周围事物的虚拟世界里,那么AR则是通过智能眼镜更好地观察现实世界。戴上眼镜,虚拟的影像和文字就会出现在真实的景物之上。

例如,当探访一处古旧的房子时,你如果戴上智能眼镜,看到的就不是眼前这个年代久远的建筑,而是房子的全部历史。复原图会和现实情景重叠在一起,给你带来更全面的感受。

同时,这项技术还可以在现实世界中用于导航。你如果戴着智能眼镜行走,眼前会出现表示路线和前进方向的蓝色箭头,甚至会有你喜欢的卡通形象带着你前进。不仅如此,朋友提前留下的信息、有用的广告信息等也会出现在眼前。以前造访过此地的朋友们可能给你写下有用的提示和留言,而且这些信息会一直保留下来。

此外,当和别人初次会面时,我们还可以看到他们胸前出现的虚拟名牌,这样就再也不用担心记不住对方姓名了。

再想想其他这样的例子。当你修理复杂的机械时,每一步的操作提示都会呈现在眼前。会有箭头告诉你,应该把十字改锥对准哪个位置。或者会有一个语音提示,告诉你下一步该怎么做,就好像有一位专业人士站在你身后,和你处在同一个角度,面对需要修理的部件。我们可以将影像重叠的技术运用到许许多多的领域。

在镜像世界中,“历史”成为动词

在镜像世界中,“历史”将变成一个动词。或许有些服务是需要收费的,但是想象一下,将手挡在看见的实景前“啪”地那么一挥,你就可以瞬间穿越到多年以前,看到这个地方曾经的面貌。走在城市街头,你可以选择将100年前甚至200年前的影像叠加在实景之上。你只需要对智能眼镜发出指令——“我想看到这里100年前是什么样子”,眼镜里就会再现它当年的样子。如果继续调整时间轴,你还能看到它200年前的样子,看到那个时代的风景。这样你就可以随时“聆听”建筑物诉说时代的变迁。

这样的功能如果应用在观光网站上,可能会大受欢迎。当你来到罗马时,面对断壁残垣,你只需要询问智能眼镜这里变为废墟前是什么样子,它就会向你展示这里旧日的胜景和曾经发生的故事。通过“亲眼见证”罗马的变迁,我们可以更深刻地感受历史的厚度。如果能开发出这样的应用软件,那么我相信热衷于研究历史的旅行者一定会对其爱不释手。当然,我们甚至可以请艺术家们描绘出这些景点未来的样子,就好像进行科幻小说的创作一样。从这个意义上看,镜像世界就仿佛在三维空间的基础上增加时间这一维度,创造出一个四维的世界。

设想一下,在世界的任何一个角落,都有一个和实物同等大小的虚拟“数字孪生”(digital twin),佩戴上智能眼镜就可以使影像叠加在实景之上。有了这个创意,智能眼镜势必成为智能手机之后的又一个必需品。而且,它和平板不同,不会被塞在兜里随用随拿,而是时刻穿戴,随时使用。

当需要显示画面或拨出电话时,使用者可以将虚拟画面投影在客厅中,然后朋友或同事的画面就会显示出来,双方就可以实现“面对面地交流”。你只需要坐在自家客厅的沙发上,各种信息就会显示在面前的不同区域中。在不久的将来,现实世界中所有的道路、房屋、建筑等实际存在的事物,都会在镜像世界中显示出它们的“数字孪生”。

而这些将会被运用在我提到过的游戏、导航、教学、训练等各种场景之中。大家还记得风靡一时的游戏《宝可梦GO》吗?宝可梦曾经让几亿玩家为之疯狂。玩家可以通过智能手机在现实世界里发现虚拟形象——宝可梦。这款游戏可以被视为镜像世界终将到来的序章。事实上,游戏的确是孕育最新技术的摇篮。

因为新冠肺炎疫情肆虐,像Zoom这类20多年前就已经开发出来的视频会议系统突然成为刚需,变成最为实用的软件。视频会议系统本身和20年前相比并没有很大的改变,但因为它价格便宜、操作简单,现在人们都习惯于在日常的工作和生活中使用它。

当大众都意识到这类软件的好处时,专业人士感受到了另一种冲击。由于视频会议的普及,我们已经习惯了对着眼前画面中的人滔滔不绝。这不正是实现镜像世界的第一步吗?

社交媒体之后“新的巨大平台”将诞生

镜像世界可以使现实世界通过工具变得更易被解读。互联网作为第一个大平台,将全世界的信息数字化,使人们通过检索就可以找到问题的答案。我们到现在依然在使用它。

在互联网之后的下一代平台可以捕捉到人们的活动以及相互关系,并且可以将人际关系数字化。它就是我们说的“社交图谱”(social graph)。社交图谱反映了用户通过各种途径认识的人,系统可以针对人际关系和个人活动,运用AI及算法绘制图谱。由此,第二个大平台——社交媒体(SNS)出现了。

继两大平台之后,第三大平台也即将全新登场。这就是将现实世界全部数字化的镜像世界。利用AI和算法,镜像世界既可以搜索现实世界,又可以搜索人际关系,并催生出新的事物。镜像世界的优势并不仅仅是可以让你“看见”一切。在镜像世界里,所有对象都变成了数据,都可以被机器读取。

图1 镜像世界将成为第三大平台

在镜像世界里有一个常用的词——智慧空间网(spatial web),这是一个拥有三维空间的网络。为了让智慧空间的一切皆可以运用于现实,我们必须将现有的一切人工发明转换为智慧空间网中的一部分。

这个具体的过程被称为“映射”(mapping)。举例来说,绘制表示一个房间和房子位置关系的地图,并将其放在镜像空间中。“这个房子外面有一条小路,和旁边的房子相连……”这类描述可以表示出它与其他事物的关系,非常具体。

有一个类似的尝试,我们在很久以前讨论物联网(IoT)时就已经提及。所谓的物联网,就是通过给瓶子、椅子、书本等物品贴上极小的芯片使其通过无线网络与互联网相连。然而,它很难做到以实体形式进行连接。在很长时间内,专业人士认为这项技术无法适用于能分辨语义的“语义网”(semantic web)。但是,新的技术可以通过图像实现对现实空间的识别,便于让所有的事物都可以进行语义连接。

例如,佩戴上智能眼镜后,我们就相当于置身在语义网的世界之中。当我们看到桌子时,假设桌上放了一个盛有水的杯子,那么“看”的这个行为就可以让我们感知到杯子的存在,对现实世界进行再次映射。而这个结果会上报给了解具体配置的AI,AI就会将杯子这个新事物分离出来,从而认定桌子上面有杯子。

戴着眼镜的人就会发现桌上有杯子,并且知道这个杯子自上周起就摆放在那里了。通过移动杯子和举起杯子,我们可以与杯子相互作用。AI甚至还会告诉我们这个杯子的种类,以及是谁制作了这个杯子。

因此,这个杯子在某种意义上成为一个被连接的元素,而且这种连接不是通过芯片上面的电流实现的。我们可以由它判断一个对象与其他事物之间的位置关系。这种定位是通过AI实现的。

万物皆可与AI相连

由此可见,所谓的“语义网”,不但能够理解词语和概念,还能够理解它们之间的逻辑关系,将世界有机地关联起来。当我们穿过房间时,网络上会同时形成一种理解,即“现在正在行走”。

AR可以帮助我们迈向这种语义上的世界,而想要最终实现它,需要到处都有价格低廉但品质优良的AI。

如果未来有这样可以处理信息深层含义的语义网,那么AI可以随时告诉我们眼前所有物品的材料以及人的名字。我们的生活会变得无比便捷。

当购买一样产品时,你可以在第一时间知道它的产地等相关信息。当你想知道饮用的水产于何时,你只要看一眼瓶子就能知道一切相关信息,帮助自己判断是否购买。(可能有人从来不会考虑这些,不过我自己是非常在意产地和原材料的。)

走进超市,只要将目光投向货架上的一排排蔬菜,你就能立刻看到“有机栽培”“产地:墨西哥”等信息。AI还可以帮你查出商品是否对你的胃口、是否为无麸质产品、有没有致敏成分。除此之外,AI还可以立即提供烹饪这种蔬菜的推荐菜谱,告诉你还有谁在购买,卡路里的含量是多少。诸如此类,只要你想得到,它都能告诉你。

我们可以看出,这里的信息可以分成两部分:首先是对商品本身的注解,其次是延伸信息。你已经不需要有人对产品进行说明或分类,只要你将目光投向自己感兴趣的商品,AI就会为你识别。你需要做的只是提问。这就仿佛有人坐在你身边耳语,针对你的问题一一给出答案。AI甚至还可能给你做推荐,比如当你走过书店的书架时,它会告诉你“这本书适合你”。