谷歌翻译实时显示
收到朋友发来的email,在查看邮件的时候,Gmail已经为你准备好了可能需要回复的内容。
无论是谷歌翻译还是Gmail,它们已被推出多时,均非新鲜产品,但在用户看不见的地方,谷歌已经并正在继续对它们进行“升级”。上述翻译及Gmail提供的改进,便得益于此。
“升级”源于谷歌AI first战略的执行和落地,2016年,谷歌CEO Sundar Pichai宣布谷歌战略从Mobile First(移动先行)转向AI First(人工智能先行),在对人工智能技术进行多年投入后,现在,谷歌正在通过深度学习、机器学习等技术,让旗下的产品变得更加智能。
升级旗下产品只是谷歌期望通过AI实现的目标之一。11月28日,在日本东京举行的Google亚太地区媒体开放日上,Google资深研究员、Google Brain负责人Jeff Dean表示,谷歌在人工智能领域的愿景,是通过三种途径让每个人都从中受益:使得 Google 产品更加实用、帮助企业和开发者创新,以及为研究人员提供工具,从而解决人类面对的各项重大挑战。
从谷歌展示的一系列产品及案例可以看出,谷歌正在为了实现上述目标而努力。
谷歌的新魔法
AI究竟让产品变得怎样实用?实际体验是回答这个问题的最好方式。
在今年Google亚太地区媒体开放日现场,谷歌准备了不同产品的展示,包括各类图像产品、Google assistant、Google translate以及一系列运用了机器学习等AI技术的小应用。
以图像应用为例,现实生活中,人们经常会遇到需要将纸质版图片或文件转为电子版的场景,通常情况下用户需要借助专业扫描设备才能得到理想的电子版,因为如果使用手机拍照,会出现反光、畸变等问题。
针对这一需求,谷歌推出一个名为“照片扫描仪”的APP,用户按照指引对纸质版物品拍摄五张不同角度的照片,该APP会对拍摄的图片进行计算和合成,最终输出一个与用专业设备扫描效果类同的电子版。
照片扫描仪(PhotoScan)APP效果
照片扫描仪只是谷歌在借助AI技术改进应用体验方面的一个案例,除了图像应用外,语音、文字等相关产品也有不同程度的体验改进。
不止是软件方面,在让AI技术落地上,谷歌还在尝试将AI、软件、硬件结合起来。
作为谷歌落地语音交互产品的重要硬件,Google Home如今可以提供非常多样的服务,比如它能够识别不同用户的声音,并给予不同的反馈。例如,A与B都养了宠物狗,当A对Google Home说想看宠物照片的时候,Google Home可以识别出A的声音,并将A的宠物照片调出;而当B提出同样要求的时候,Google Home调出的是B的宠物照片。
这一功能为Google Home的语音配对功能(Voice Match),它之所以能够实现,源于在机器学习的帮助下,语音助手能够识别不同的语音。据介绍,语音配对目前支持最多六个用户连接到同一台 Google Home,Google Home是目前市场上首个具备此功能的智能音箱。
机器学习还被运用到医疗领域,通过与印度和美国的医生合作,谷歌创建了一个包含12.8万张眼底扫描图片的数据集,来用于训练一个检测糖尿病性视网膜病变的深度神经网络。
经过训练,模型识别眼底扫描图的专业准确度甚至超过了专业医生的平均水平,而这可以帮助医生提高诊断效率,使患者尽早得到治疗。
同时,通过TensorFlow、云机器学习API(Cloud Machine Learning APIs)以及张量处理器(Tensor Processing Unit, TPU)电脑芯片,谷歌将AI能力向更多开发者开放出来。食品企业得以借此提高食物检查效率,生物学家得以更加高效的了解鸟类的习性并提升保护的效果。
而无论是优化现有产品、开放AI能力以及解决人类的共同问题,实现上述目标的基本前提是持之以恒的投入AI方面的研究,并取得进展。在谷歌的AI战略中,机器学习是重中之重。
改变这样发生
机器学习是计算机科学的一种形式,认为编写能使计算机自主学习如何变得智能的程序,要比直接编写智能程序要更为简单。通俗的来讲,机器学习的目的是让机器自身变得智能。
Jeff Dean介绍,机器学习是谷歌在人工智能领域的工作重心,谷歌开展机器学习的研究已经很长时间,但目前机器学习仍处于发展初期。如今,机器学习对分类、预测、理解和生成这四个关键方面很有帮助。而这些功能几乎已经被应用于谷歌所有的产品中。
无论是Goolge Photos 、Google Translate、Google Lens,还是Gmail 、Inbox 、Google Maps ,亦或者Google Assistant、YouTube,机器学习技术的加入,让它们可以提供更好的体验。
新款Pixel手机具备了人像模式,这一模式拍摄人像时可以柔和虚化背景,传统技术条件下,这需要一个多镜头的专业相机才能实现,但机器学习和计算摄影技术的结合,使得Pixel手机依靠每侧各有一个镜头便实现了同样的效果。
未使用人像模式(Portrait mode)的照片(左)和使用人像模式(Portrait mode)的照片(右)
根据谷歌搜索项目总监Linne Ha的介绍,深度神经网络技术大大提高了语音搜索中语音识别的准确性,这使得用户在嘈杂的环境中也可以与手机自由对话。在机器学习的帮助下,自然语言处理系统能够更好地理解你想说的话。在利用机器学习实现文本向语音转换的实验项目Project Unison的帮助下,通过转换引擎,手机可以用语料并不丰富的语种,如孟加拉语,高棉语和爪哇语。
实际成果已经证明,机器学习与具体应用结合可以取得非常好的效果,但Jeff Dean仍旧提示目前机器学习存在的两大挑战,首先是机器学习模型的触达性;二是机器学习模型的包容性。
为了解决第一个问题,谷歌将在明年在互联网上提供免费的机器学习课程,为了解决第二个问题,谷歌启动了People + AI Research (PAIR) 计划,并与与Geena Davis 研究所合作建立了GD-IQ(一种利用机器学习检测电影中性别偏见的工具)。
上述措施对解决机器学习面临的挑战提供了帮助,但于谷歌而言,在AI frist的战略指引下,其面临的挑战不止于此。
从行业竞争的角度而言,越来越多公司推出了机器学习开源平台,谷歌要如何应对竞争,保持对开发者的吸引力?而从国家间的竞争来看,谷歌还面临着美国政府是否愿意投入和支持AI产业发展的影响。
面对行业竞争,Jeff Dean表示,“TensorFlow在不断的发展,不断地增加新的功能。它们可能针对不同的人群,有的针对研究者,有的更多倾向于移动平台。所以这样的竞争是好的。TensorFLOW的开源软件是有很灵活的Apache 2.0 许可机制。”
而面对国家间的竞争,谷歌选择了建立本土团队提升AI发展速度的做法。Jeff Dean表示,谷歌正在中国组建AI团队,团队主要分布于北京和上海两个城市。
这一做法显然是从新人才的角度出发——“我们想关注下一代有更好计算能力的人,解决实际的问题,有意思的问题。我们并不担心竞争对手,我们关心的是我们自己的研究。”
从研究到应用,再到开放,Google在AI first战略的指引下,已经形成了比较完成的拼图,尽管人工智能的发展让部分公众对其安全性产生担忧,但在一直投身于这个行业的Jeff Dean看来,机器学习可以帮助人类解决更复杂的问题,“我们现在应该着眼于解决眼前的问题”,而这也将影响着谷歌未来发展AI的路。