第二个 idea,我自己花了很多时间思考,大模型出来后人工智能深度学习做法。十年后的今天对研究方法的冲击,所以我讲「从分而治之到合而解之」。学过计算机科学的一定会同意我的讲法,以前计算机科学里有个很重要的研究方法是 divide and conquer,一个问题太大了,就分小块,小块之后再拼起来。
十年前,学计算机视觉和学自然语言处理的人基本上老死不相往来,大家都不太清楚对方在做什么。但今天有了深度学习后,大模型把各个环节的人都集合起来,大家今天都是用大模型方法来做这件事。
最近有一篇非常好的论文,文章叫「图像即外语」,Image as a Foreign Language。一张图,想象成外语,它也是一个语言。如果你有这样的视角,剩下的就简单了,所有 NLP 里做的工作,方法论、成果,就可以应用在计算视觉上。
的确是这样,谷歌研究院两三年前出来一篇非常了不起的文章,叫做 「Vision TraNSFormer」。Transformer 是自然语言处理这两年多最了不起的成绩,把图像切成 16×16 的小图像,然后连在一起,就像一串字符,再把 Transformer 的方法用进去。我们在这个基础上,把 Vision Transformer 体系用到计算机视觉里最重要的问题,叫目标检测。
大家看后面这张图,检测出两个物体,一个叫做摩托车,一个叫做人。计算机视觉理解图像有很多下游任务。一旦做到目标检测,可以做目标跟踪、目标分割。这些问题还有很多行业应用,比如医疗检测、自动驾驶,有巨大的应用机会。
过去半年来,张磊博士带领一帮小同学,让 IDEA 研究院在国际上持续霸榜,半年之久,非常了不起。不仅结果最好,而且模型的尺寸、训练的代价、所需要的训练数据,比大多数其他同行做得更强。
这只是结果,给大家感受一下视觉上看起来是怎么回事。 这里有一个非常复杂的视频场景,它检测运动物体、静止物体都能做得非常好。我们还在持续不断推动项目,张磊也把最好的模型开源放在 DETR 上,可以说是最全面的 Transformer 检测开源框架,这件事让计算机视觉可以做得更好,我们也很高兴不断和同行竞争,表现出我们可以做到的结果。
这件事情给我的震撼,不仅仅是科研方法的改变,对人工智能、计算机领域的冲击。这种研究的方法论、深度学习,它对科学研究的冲击会更加大。
最近到处在谈 AI for Science。我们应该选择一些方向,做更多工具,帮助科学家做更好工作。我自己和清华大学蔡峥教授联手做天文方面的工作,我相信很快会有一些非常好的成果向大家报告。
03 从重视计算结果到重视计算过程第三个 idea,从重视计算结果到重视计算过程。在技术发展过程中,都需要不断看市场和社会需求的反馈。比如 5G 出来后,到底哪些应用推动了 5G,6G 时应该做什么新的东西。在计算机科学发展上,市场推动非常大,只要有了不起的应用,这些聪明的人、聪明的钱就会冲进去。
过去这么多年,从冯诺依曼结构开始,计算就是一个工具,完成的事情是掌握工具的人交给你的任务。我们还在上大学时,最了不起的是科学计算,后来慢慢可以做其他工作。
互联网出来后有巨大的改变。大家用的 APP 掌握在互联网平台手上,平台令你使用更加方便,但同时带来一些问题。平台渗透到我们的工作当中,是一个黑盒子,不透明。你如果希望透明,希望可信可解释,就需要有一种新的计算体系来解决这个问题:我为什么看到这样的结果,你为什么给我这样的结果。这变成一个刚需,能够帮助我们来解决计算过程的问题,不仅是结果的问题。
很多聪明人已经在解这个问题,回归这个问题的本质,如密码学的解法;针对人工智机器学习来讲,有联邦学习。
在 IDEA 研究院,我们选择了一条不一样的技术路线,做硬件。
我们去年做了一个东西叫 SPU,去年只是一个样机,今年已经量产。很多银行的合作伙伴在使用。SPU 的意思叫做 Secure Processing Unit,思路从 GPU 取得一些设计理念,比如打游戏要快不卡,就出现 GPU 这个东西。今天的安全,大家并不是不知道,不去做。英特尔已经做了,CPU 里划了一块物理隔离出来的叫 SGX。但我们的看法是应该拿出来专门做一个芯片。如果要做这件事情,安全体现在各个方面,有安全、可信,开机时就要安全,安全运行的容器,运行的过程要安全,还要有一个安全的虚拟操作。
用硬件的核心好处是不改动原来的算法,以前做的事情今天由硬件来加持,就开箱即用,不用再去改代码。写过程序的软件工程师一定会感谢有这样一些工具可以用。因为改代码是多么痛苦的事情。
有了这样的硬件后,还可以让我们和很多现有的软件解法做结合。比如我们和微众合作,可以把联邦学习的性能提高很多。
我个人觉得未来 SPU 肯定是一个颠覆性的技术,当然还有很长的路,这个判断是否准确,IDEA 是不是真正能够实现,接下来还要验证。
03从使用语言
到创造语言
第四个 idea,关于语言。做计算机、人工智能都是在使用语言,更加重要的是应该创造语言。
全世界的人讲六七千种语言,至今计算机语言有几千种。因为人和人之间需要交流,人和机器之间需要交流,它需要涉及不同的语言。过去这么多年,人工智能想做的事情是,机器能不能学人类的语言,NLP 这样的语言。
但这么多年来,国内对语言的重视非常不够。我们认识的科学家里,真正创造语言的不多。两个月前,我邀请到张宏波离开 Facebook 后加入 IDEA 研究院。宏波以前也是我清华的博士生,他是中国科学家中难得的对计算机编程语言有深度研究而且实践很深的人才。两个月前,IDEA 研究院技术软件中心成立。宏波从 2015 年开始发表一个语言,非常受欢迎,叫 ReScript。宏波来了以后很快在网上开了实践公开课,教 ReScript 编程语言。目前,Rescript 中文版已经发布。有老外说要听宏波上课要学习中文,因为宏波是用中文来上课。期待未来 IDEA 大会,宏波给大家发布一些新的语言方面的工作。