本文来自微信公众号:不科技NoTech(ID:notechpodcast),作者:老红,题图来自视觉中国
微软亚研:生逢灿烂
自 1998 年成立以来,微软亚研为中国人工智能进程贡献了无数人才和力量,因而被称为“中国人工智能届的黄埔军校”。不过远在大洋的另一端,在计算机视觉和语音识别等领域的探索中,众多华人先行者们也在书写着他们的传奇。
我们津津乐道于人去人留的坊间八卦与传闻,也目睹了华人力量在人工智能领域的贡献与改变。从“60 后”李开复、洪小文和陆奇等人开拓创新,到“70 后”李飞飞、余凯和吴恩达等人成长为中坚力量,再到如今以戴文渊、楼天成和何恺明等为代表的“80 后”新生代崛起,他们的故事才刚刚开始。
提到微软亚研,沈向洋、洪小文、黄学东是三个绕不开的名字。
现任微软亚洲研究院院长的洪小文,不仅与曾经微软全球资深副总裁的沈向洋师出同门,与微软首席语音科学家黄学东也是同学。
在 CMU 就读期间,沈向洋、洪小文和黄学东都曾师从 Raj Reddy 教授。除了沈向洋后续转向计算机视觉领域,洪小文与黄学东在“Sphinx”(语音识别项目)项目上合作过很长一段时间。从 CMU 毕业后,洪小文在苹果公司进展飞速,研发出了新一代中文语音输入系统;黄学东则加入了微软,担任微软语音技术研究的骨干。在搭建微软语音团队期间,有过长期合作、互相认可的洪小文,自然成为了黄学东名单上的第一个名字。
收到加入微软邀请的最初,在苹果担任研发要职的洪小文几乎是不假思索地拒绝了。拗不过黄学东此后的“屡顾茅庐”与承诺,洪小文最终还是加入微软,与曾经的老战友继续并肩作战。1998 年 11 月,微软中国研究院正式成立,由当时 37 岁的李开复担任首任院长。这个微软中国研究院也在 2001 年更名为了“微软亚洲研究院”。担任微软高级研究员的洪小文面试了研究院第一批研究员。此外,1998 年也是谷歌、京东、搜狐、新浪和腾讯的诞生年份。
算上 2001 年加入的李航、马维英,和后续加入的张亚勤、张宏江、林斌,微软亚洲研究院以近乎全明星的阵容开启了国内人工智能研究的黄金时代。微软亚研也成为了中国内地唯一一所由跨国公司成立,从事基础研究而非产品开发的研究院。
这也成为后来创立商汤科技的汤晓鸥教授由访问学者转为微软亚研计算机视觉组主任的重要原因。2005-2008 年,汤晓鸥在微软亚研担任视觉计算组主任。他曾经对微软亚研在计算机视觉领域的地位作出了这样的评价,他说:“在计算机视觉领域,农村是永远也包围不了城市的。华山以外,很难论出好剑。”
2002 年,余凯、何晓飞、颜水成曾同时在微软亚研实习,他们是团队中为数不多、较为关注机器学习的研究者。十几年后,他们分别创立了百度深度学习研究院、滴滴研究院和 360 人工智能研究院。
被 ImageNet 联结的海外世界
2005 年,美国洛杉矶加州大学终身教授、计算机视觉领域的顶级科学家朱松纯在湖北鄂州建立了莲花山计算机视觉和信息科学研究院,简称“莲花山数据中心”,在时任微软亚研院长沈向阳等人的帮助下,莲花山数据中心成功标注了 50 万幅图像,建立了当时世界上最大最完整的人工标注图像与视频数据库。
成立初年,莲花山研究院的首场研讨会就邀请到了 Berkeley 图像分割数据库原创者 David Martin,MIT 教授、LabelMe 数据库的原创者 Antonio Tarrobal,以及刚刚从加州理工大学拿到电子工程学博士学位后进入学术界的李飞飞。
受到朱松纯和沈向洋等先行者的研究和实践以及在线众包平台 Amazon Mechanical Turk 的启发,李飞飞意识到了构建 ImageNet 大规模数据集的可行性。
但事情的进展却没有想象的那么顺利。当李飞飞刚开始提出 ImageNet 想法的时候,几乎每个人都持怀疑的态度,就连自己实验室的学生也大多望而却步,除了邓嘉(现密歇根大学教授)和李佳(现 Google AI 中国中心总裁)。此外,美国工程院院士、普林斯顿大学的李凯教授也为她提供了一个学生和实验室所有机器的支持。
通过众包的方式,ImageNet 在 20000 多个类别中标注了超过 1,400 张图片,李飞飞和她的团队希望以此来让计算机识别世界上的一切物体。
在首届,也就是2010 年的比赛中,余凯、林元庆和张潼成为了当时的优胜者,三位也在后来陆续加入了百度担任不同要职。而彼时余凯和林元庆所在的 NEC 加州实验室也被誉为全球最活跃的五家早期开展深度学习卷积神经网络的研究团队之一。其余为 Yann LeCun、Geoffrey Hinton、吴恩达、Yoshua Bengio 和 Jürgen Schmidhuber 所在的实验室,这些人物我们曾经介绍过,还有些人物我们之后也会为大家介绍。
就在李飞飞团队在计算机视觉顶级会议 CVPR 上提交关于 ImageNet 后,汤晓鸥主持的 MSRA(微软亚洲研究院)团队获得了 CVPR 最佳论文,这也是 CVPR 上首篇来自亚洲的最佳论文。
随后,汤晓鸥团队于 2011—2013 年间在计算机视觉领域两大顶级会议 ICCV 和 CVPR 上发表了 14 篇深度学习论文,占据全世界在这两个会议上深度学习论文总数(29 篇)的近一半;而 ImageNet 与深度学习的结合也在很大程度上改变了计算机视觉领域的研究并成功地引起了工业界的兴趣。
而在国内,由山世光、潘纲和刘青山于 2011 年共同发起的 VALSE(Vision And Learning Seminar) 也成为了中国青年计算机视觉与机器学习研究者常态化学术交流的固定舞台。
离开与改变
2011 年,时任微软亚洲工程院院长的张宏江离开微软,加入金山任 CEO。在离职后的前四年间,张宏江仍坚持着“上午在微软上完班,下午到金山上任做金山的 CEO”的作息;时任微软亚研高级研究员的李航也在 2012 年紧随其后加入华为,任华为诺亚方舟实验室创始主任;如今,他又与曾同年加入微软的马维英再次在今日头条相会了。
而在华人担任重要力量的计算机视觉领域,改变也在悄然发生。在汤晓鸥担任微软亚研计算机视觉组主任之前,时任亚研人脸识别组组长的李子青就曾研发出世界上第一个实时人脸识别系统 Eye-CU。作为 360 人工智能研究院院长颜水成、阿里巴巴 iDST 资深总监华先胜和依图科技 CEO 朱珑等人的恩师,同样桃李满天下的李子青却选择了与其他研究人员不同的道路。在亚研度过 4 年时光后,李子青由位于中关村东路东侧的亚研大厦“逆向转会”到了马路西侧的中科院自动化研究所。
就在汤晓鸥所带领的微软亚研视觉计算组获得计算机视觉顶级会议 CVPR 的最佳论文后不久,时任微软亚研常务副院长王坚加入阿里巴巴任首席架构师,并于 2009 年被任命为阿里首席技术官。
与王坚一同加入阿里巴巴的还有后来依图科技联合创始人林晨曦。一切从零开始,在阿里最艰难的一段时光,即便曾经的高中同学朱珑屡次劝说林晨曦离开阿里和自己一起创业,林晨曦也不为所动,直到 2012 年整个阿里云团队的发展开始步入正轨他才转身离开。
值得一提的是,同样出自微软、并于 2009 年后陆续加入的初敏、周靖人和华先胜等人也分别在日后不同的时间节点加入阿里,开始了微软系帮助商业公司探索技术转型道路的故事。而这段故事,我们也将在未来的节目中为大家展开。
当然,大肆收罗人才的不止阿里巴巴一家,百度也先后迎来了余凯、张潼、吴恩达、张亚勤和林元庆等几员大将,但随后的动荡与调整却让张亚勤成为了唯一留守的人。而在吴恩达离职百度的次日,腾讯高调宣布张潼加入,担任腾讯 AI Lab 主任。
所有人都在为即将来临的转折而改变,所有公司也都希望在转折的历史进程中迎来新的机会。“人类历史上从未有一个时期,诞生于实验室里的技术有过如此快速的应用、实践、纠错和迭代。”
开创、突破、转折与重塑,是近 20 年来人工智能发展不变的主题。时间、人物、事件也在不同的维度相互交织,构成了现代人工智能发展的重要因子。关注当下固然重要,以史为鉴能让我们更好地去伪存真。
本文来自微信公众号:不科技NoTech(ID:notechpodcast),作者:老红(前资深媒体人、现求导科技 CEO),“不科技”是一档由日谈公园出品的音频播客节目,在这里,你会听到国内外科技和互联网行业的不同从业者分享不为人知的行业秘辛,让大家用“不科技”的方式重新认识科技行业。