独家阿里机器视觉专家李名杨AR是AI的一

阿里巴巴AILabs机器视觉杰出科学家李名杨

在不久前的云栖大会上,阿里巴巴人工智能实验室AILabs公布了三件大事:一是AliGenie升级为语音开放平台,二是宣布阿里AR开放平台,三是推出天猫路由器。随后,阿里巴巴宣布前微软亚洲研究院首席研究员聂再清,以及前谷歌Tango和Daydream项目技术主管李名杨入职阿里AILabs,前者担任AILabs北京研发中心总负责人,后者担任AILabs机器视觉杰出科学家。从平台产品到人才,阿里对AI的大力投入。

日前,雷锋网在北京阿里办公室见到了李名杨博士。他在谷歌待了三年,担任Daydream/Tango项目技术主管,主要研究领域是视觉-惯导里程计(VIO)和即时定位与地图重建(SLAM),在该领域拥有20多篇顶级论文及相关专利。

在谷歌工作期间,他的研究重心为多传感器融合和SLAM领域,包括技术的理论创新和商业化,也参与了Tango、ARCore,以及Daydream的相关技术研发。

他告诉雷锋网,离开谷歌,选择加入阿里,一方面因为ARCore已经正式发布,圆满完成了一个项目;另一方面是阿里“非常支持科研”,而且“阿里想做的东西都和我希望做的东西十分契合,这对自己是很好的做科研和技术环境。”

加入AILabs后,他将专注于计算机视觉和传感器融合技术的研发,同时根据阿里不同的应用场景,开发技术,给用户带来好的体验。

如何评价阿里AR开放平台?

云栖大会上,AILabs负责人浅雪宣布阿里AR开放平台,该平台面向开发者开放2D识别追踪、3D识别追踪、内容制作平台、高质量渲染引擎等核心能力。开发者在已有的APP中接入SDK套件,即可快速创建AR内容,无需担心开发算法、使用传感器、GPU优化等难题。同时,AR内容平台阿里火眼可将开发者创建的AR内容直接传递给消费者。

现场还演示了一些功能,如家装应用,通过手机AR查看家具或电气在家里的位置摆放,跟宜家基于ARKit制作的IKEAPlace很类似;使用阿里火眼APP,手机扫描恐龙图片后,会呈现虚拟的3D恐龙;识别3D实体,用手机扫描天猫精灵后,会显示其名称、价格等。

据浅雪介绍,阿里AR开放平台已经有三年的技术积累,此前阿里内部的天猫、聚划算、一淘网,以及今年的淘宝造物节都有关相关的AR应用。也是因为阿里内部有不错的应用先例,他们决定对行业开放。

刚加入AILabs的李名杨对这个AR开发平台十分认同。他表示,该平台提供给开发者一个制作AR内容和APP的工具,最后传达给消费者。“对AR来说,现在有一定的技术,但还需要足够的内容,才能吸引消费者使用,平台是非常有用的。”

自从苹果ARKit和谷歌ARCore发布以来,AR被行业看好,也产生了越来越多的应用,但阿里的AR开放平台与它们相比,还是有很大的不同。

李名杨解释,

“苹果和谷歌做的是非常好的技术和平台,更贴近于手机操作系统,但阿里的AR开放平台更贴近于开发者,或者是用户,目标对象或是方式不是完全一样的,而且我们也希望通过这个平台积累更多的用户和内容,这对AR很重要。”

雷锋网之前发布的文章《苹果ARKit凭什么碾压对手》中,SuperVenture合伙人MattMiesnieks详细指出了ARKit背后的基本原理,以及硬件对AR功能的重要性。A11Bionic芯片更被看做是今年苹果发布会最重要的两点,那么没有硬件会不会成为阿里AR开放平台的短板?

李名杨表示,AR技术有的部分对硬件支持需求比较大,例如“AR都需要图像处理,图像处理到底是在CPU上完成,还是在别的地方完成,这个是需要硬件支持。对硬件厂商来说,可以更自由地选择,释放一些计算量在CPU上面。”他讲到,像Facebook此前演示的AR拍照功能,也是没有硬件支持,“如果都需要硬件,大家可能没法做”。

AR是AI的体现方式

去年双11,阿里展示了VR购物Buy+,并且很早成立实验室GMLab,专注于VR技术研发。阿里AR开放平台不仅由AILabs发布,而且还归属在AliGenie开发者平台内,这让很多人感到疑惑。

李名杨透露,天猫和淘宝早先都有自己的研发团队,但现在这些研发人员都归属在AILabs下面,共同支持不同业务部门的需求。“研发团队如果分散也不是特别好,很多功能和设计都可以相互借鉴和互补。”

在他看来,AR是通过手机传感器对世界的理解,然后把世界翻译成数字的语言,“AR本身就是一种人工智能体现的方式”。同时,“人工智能是人机交互的方式,希望知道人和机器如何交互,而人和人交互是通过眼睛、嘴巴、鼻子,AR和天猫精灵都是一种交互方式,所以在同一个平台AliGenie,是有道理的。”

不过,AliGenie如何具体释放AR功能,还要等阿里之后的产品进展。

比起手机,头显对追踪定位要求更高

谷歌ARCore的演示画面

到AR,我们总离不开对Tango的讨论,而去年11月份,谷歌宣布将Tango团队并入Daydream部门,由谷歌VR部门的负责人ClayBavor统一管理。今年ARCore推出后,国外有开发者戏称,“ARCoreSDK就像是他们随便地把TangoSDK改了个名字,注释掉深度相机那块代码”,算是“低配版的Tango”。李名杨说,“本质技术是非常相似的,都是通过单目摄像头和IMU实现跟踪定位的功能,没什么低配和高配的区别。在不同的地方,依赖不同的硬件,效果不是特别一样。”

值得注意的是,不管是Tango,还是苹果ARKit,追踪定位都是由单目摄像头完成的,而其中使用的SLAM技术与头显采用的双目Inside-out追踪定位也有相通之处。

但显然,手机和头显的体验非常不同,这对精度和稳定性的要求也发生了变化。

李名杨举例说,“如果用手机玩AR,次中成功99次,有一次需要重启,用户是可以接受的。但是VR设备,如果有一次让用户有眩晕,甚至呕吐,就是不可接受的。因为头戴设备使人的感知系统非常敏感,要保证头戴设备的SLAM技术做的更稳定,更精准,这要求很高。”

现在,微软已经开始陆续推出一系列WindowsMR头显,Oculus宣布新的一体机,谷歌也在研发相关的方案,至于这些厂商们采用的Inside-out方案是否足够成熟,李名杨说这得用户说了算,看明年用户的体验。

AR还有哪些难以攻克的技术?

此前,天猫互动技术专家蒋佳亿在《有了ARCore和ARKit,AR行业还能做啥?》一文中谈到,AR行业还有哪些可研究的方向,包括引擎、产品和交互、数据化和3D化等等。李名杨也提到AR很多难点还没有攻克。例如,没看到一款真正的AR眼镜;AR语义理解,虽说可以实现一定的跟踪定位,但很难实现对环境的理解等。

其实,我们打开ARKit应用时,首先要做的就是确定一个平面,然后在这个平面上产生其他AR内容。而这只是最基础的一步,“从点到线,到面,再到三维物体,这是一步步进化的过程。如果实现人机流畅的交流,就想要知道整个环境,环境中有什么物体,这些物体是什么,相对位置是什么样……”

李名杨说,

“目前还没有看到相关的产品发布,这是需要非常多技术融合在一起的,尽管学术界有很多文章讨论解决这样的问题,但成熟度还欠缺一点。SLAM可能是这个方向的一个技术,但SLAM追踪定位提供一些功能后,你才能基于此研发上层的东西。”

他坦言,SLAM还有很多研究的方向,现在只是对于移动端,可以通过已有的技术输出一些产品,但要给用户带来更好的体验,还需要其他的技术积累。

从谷歌到阿里,李名杨没有感受到太大的差别,他开玩笑地说“语言和吃的事物”变化最大。或许,阿里也能更好地将这些技术研究落地到实际的应用中。我们期待,未来阿里如何将技术与产品相融合。



转载请注明地址:http://www.ssmuo.com/zcmbzz/15493.html
  • 上一篇文章:
  • 下一篇文章: