首页行业•产品•人物前沿•趋势 › 深度学习:开启人工智能新篇章?

深度学习:开启人工智能新篇章?

辛顿(右)和他的两名学生共同创立了DNNRearch从IBM的智能系统“沃森”到苹果的语音助手Siri,从微软的同声传译系统到Google的街景视图,一项名为“深度学习”的技术正在被越来越多的科技企业应用在创新产品中。去年11月24日,一篇介绍深度学习的长篇文章登上了美国《纽约时报》的头版。今年1月19日,百度CEO李彦宏宣布将成立深度学习研究院,专攻该技术。3月13日,Google宣布收购深度学习领域的创业公司DNN Research……

深度学习的火热不禁让人联想到此前被热炒的增强现实和3D打印等技术。它是一项怎样的技术?为何会突然间成为科技媒体关注的焦点?又是否能够给世界带来颠覆性的改变?

“机器学习”的进化

说起人工智能,爱看电影的科技迷们一定不会陌生。《终结者》系列、《黑客帝国》系列、《人工智能》、《机械公敌》等一部部好莱坞大片向人们展示了未来机器将如何影响人类,也让科技迷们对于机器人在现实中的应用充满期待。

自从1956年被正式确立为一个研究领域以来,人工智能就被视为决定机器人发展的核心技术。它致力于让计算机实现智能,包括逐步掌握人类的思维模式。为发展这项技术,美国、英国、日本等发达国家在过去五十多年里先后投入了大量资金。不过它的复杂程度超出科学家和政客们的想象——作为计算机科学的分支,它还涉及到心理学、生物学、语言学、医学、哲学等众多学科,因此尽管它已有了长足的发展,但许多乐观的预言至今都没能实现。

在日常生活中,计算机和智能手机已经能按照人们的指令执行各种任务。但这并非真正的“智能”(intelligence),人工智能领域的科学家要让机器像人类一样“理解它所处的环境并执行有最大可能取得成功的操作”。要想实现这一目标,机器需要掌握“学习”的能力——这也是人类区别于动物的重要特征。因此“机器学习”便成为人工智能领域要解决的关键问题。

从字面上理解,机器学习是就机器学习知识的能力,事实上也是如此。科学家们试图让机器通过“学习”数据——而不是在他们编写的程序的驱动下——掌握处理某些问题的能力。

一个我们熟知的案例是电子邮件系统,在学习大量垃圾邮件后,它能掌握判断垃圾邮件并进行自主分类的能力;事实上,如今主流的邮件服务商都提供垃圾邮件分类,而工程师们并不会编写明确地程序,告诉机器什么是垃圾邮件——因为垃圾邮件千差万别,发送垃圾邮件的系统也在不断进化。

与之类似的是杀毒软件。早期对于病毒的识别工作主要由杀毒软件的开发者进行,但随着病毒的不断演化,一些杀毒软件公司为尽可能抵御变种及全新病毒,也采用机器学习让软件变得更加智能和主动。

此外,一些社交网络能够准确地向用户推荐“认识的人”和“感兴趣的人”,也离不开机器学习;而该技术在广告点击率预估方面的应用更是给许多互联网公司带来了直接的收益。

随着算法的改进和计算机的运算、存储能力不断提升,机器学习取得了长足的发展,也使人工智能领域创造出一系列令人振奋的成绩,尤其是在能够反映智力水平的游戏和比赛方面。

1997年,IBM公司为国际象棋比赛设计的计算机“深蓝”在一场“人机大战”中战胜了国际象棋世界冠军卡斯帕罗夫。这次突破被视为人工智能领域的一大里程碑,而深蓝的成功离不开它对于大量的对局、尤其是卡斯帕罗夫过去的对局的学习。

机器进行学习的关键是要判断、分析数据的特征,例如垃圾邮件共同具有的发件人、收件人、邮件内容中的关键字等特性,或者病毒程序的代码中的某些共性。不过,传统的机器学习在进行这一工作时往往离不开人工干预——从大量样本中筛选出一些相对符合要求的样本供机器进行学习,或者事先标记出某些特征。随着人工智能面临的问题越来越复杂,人工干预的难度也日益增大。在开发另一个智能系统时,IBM的科学家们就遇到了这样的问题。

在“深蓝”打败卡斯帕罗夫的几年后,IBM将挑战的目标转向了智力问答栏目《危险边缘》。这档栏目创立于1964年,题目涉及历史、文学、科学、技术、地里、流行文化等方方面面。开发人员汇集了字典、百科全书、新闻报道和学术文献等各种资料,但由于每一个问题都是一个相对独立的“游戏”,如果想要事先编写像国际象棋规则那样的游戏规则,则意味着需要为每一个(或一类)问题编写一套规则,这是人工无法完成的工作。

针对这个更加复杂的智力竞赛,IBM开发出了一套名为“沃森”的系统,它由90台IBM Power 750服务器组成,每秒钟的处理速度高达500GB;更重要的是,它具有超强的分析、推理能力,还能“读”懂自然语言,能在“无监督”的情况下自主学习各种资料。最终,沃森于2011年战胜了两位前任冠军,成为最终的优胜者,赢得了100万美元的奖金。

沃森的突破得益于众多人工智能领域的新技术的成功应用,深度学习便是其中之一。

实时语音翻译背后的神奇技术

如同3D打印,深度学习也是一项沉寂多年的技术,最早可以追溯到上世纪80年代。科学家们借助人工神经网络让计算机模拟人类的思维方式进行复杂的学习工作,但在很长一段时间里并没有在提高学习的准确性或减少人工干预方取得突破性的成果。

2006年,多伦多大学计算机学院的教授杰弗里•辛顿(Geoffrey Hinton)改变了这项技术的命运。经过他改进的算法能够对七层或更多层的深度神经网络进行训练,这让计算机可以渐进地进行学习。随着层次的增加,学习的精确性得到提升,同时该技术还极大地推动非监督学习的发展,让机器具备“自学”的能力。由于辛顿并没有为他的研究成果申请专利,其他科学家——包括一些科技企业的研究人员得以发展他的工作并将其应用到一些商业产品中。

深度学习的一个典型应用是对海量图片的分类。过去这一过程需要由人工标注一些特性或筛选出一些样本辅助计算机学习,但当图片数量达到一定规模且相互之间差异较大时,这一工作便十分困难。深度学习则可以让机器自主进行图片识别:它们会首先识别出一些最基本的特征,例如物体的颜色、边缘的形状等,这些低层次的特征的相互结合则可以定义出高层次的特征;随着特征层次的提高,具备某一特征的物体(图像)的外延便逐渐缩小,识别的精确度也相应提高。

用一个通俗的例子来说,球状、黑色、白色、相间排列都是低层的特征,当计算机发现有多张图片中都出现了黑白相间的球状物体时,它可以定义出足球这个高层次的特征。在这个例子中,如果不借助人工标记或其他数据,机器无法给出这些特征所对应的自然语言,即“白色”、“足球”等,而事实上它也没有给出这些信息的必要。

在识别规模较小的图片网络时,深度学习已经令计算机取得了超过人类的表现。据《纽约时报》报道,2011年,瑞士人工智能实验室的科学家开发的系统在一次图片识别比赛中对50000张德国交通标志图的识别率达到了99.46%,而32名人类测试者的平均成绩为98.84%,成绩最好的也只有99.22%。

Google希望利用这项技术提升“以图搜图”和“以图搜信息”的准确率,以及帮助Google街景视图识别具体的地点。在Google X实验室中,安德鲁•恩格(Andrew Ng)和杰夫•迪恩(Jeff Dean)带领着一个团队从事着机器学习方面的研究。去年,他们做了一项有趣的实验:从Youtube上随机截取1000万张静态图片,对一个由1000台计算机、16000个处理器的系统进行近一周的“训练”,让它从中寻找出有猫的图片。这个系统最终识别出了超过2万个物体类别(猫当然是其中之一),而识别的准确率达到了15.8%——这看似不是一个很好的成绩,但与此前的水平相比,提升幅度高达70%。

深度学习的另一个主要的应用方向是语音识别,尤其是提升将语音识别成文字的准确率。2011年,苹果推出Siri,让智能语音助手进入了普通消费者的视野,这个产品便用到了深度学习技术。不过由于Siri的语音识别技术来自Nuance公司,而苹果也并不以产品创新背后的技术创新作为卖点,深度学习并未和Siri一同出现在各国媒体上。

在科技巨头中,对深度神经网络在语音识别上的应用推动最大的是微软。就在Siri发布前的两个月,微软的三位科学家在一篇论文中称,他们借助多个GPGPU和大量数据训练的深度神经网络让语音识别的单词错误率降低了18%-33%,并找出了准确率提升的三个关键因素。

在这篇文章发表一年之后,去年10月25日,微软做了一次震动全球科技界的演示。在天津举办的一场学术研讨会,微软首席研究官里克•拉希德(Rick Rashid)用英文介绍微软在语音识别方面的研究进展,他的演讲内容被以英文文本的形式显示在他身后的一块大屏幕上,旁边的另一块屏幕上则显示演讲内容的中文翻译。演讲过半,拉希德突然放慢语速,紧接着他每讲一句话,现场都会传出和他声音相仿的中文翻译语音,就如同是他本人在说中文一样。所有这些均是由机器自动完成的,而帮助计算机快速、准确地识别语音的深度学习是这个同声传译系统不可或缺的关键技术。

这场演示并未立即引起媒体的关注;但随着现场视频在网上流传,国外科技媒体们开始注意到这项技术可能带来的影响,国内一些资深IT从业者也在微博上热议其前景。11月24日,一篇关于深度学习的长篇报道登上了美国《纽约时报》的头版,让围绕该技术的讨论达到了高潮。

科技巨头的投入能否催生革命性的产品?

《纽约时报》这篇题为“学习曲线:不再只是人类的特性”的文章介绍了研究人员对于深度学习前景的乐观预期:“机器将能够与人类交流,还能完成能够驾驶汽车、在工厂里工作等任务……”此外,文章也引用不同学者的观点,认为深度学习将在医学、电子监控技术、数据分析等领域发挥重要作用。

此后,一些科技巨头进一步加大了在深度学习领域的投入。

在今年1月的年会上,百度CEO李彦宏宣布成立百度历史上的第一个研究院——深度学习研究院,专注于该技术研究。他希望这个研究院能“成为AT&T-Bell labs(贝尔实验室)、Xerox Parc(施乐帕克研究中心)这样的顶尖的研究机构”,还声称将网罗全球该领域最顶尖的人才。在此之前的一周,百度还围绕这一技术组织了一场沙龙,由人工智能专家、百度多媒体部副总监余凯向开发者深入介绍这一技术的发展历程与应用。

事实上,在去年年底发布的百度语音助手中,该技术已经得到了应用。官方资料称,深度神经网络使百度语音助手的语音解码速度提升一倍,综合识别准确率提升8%,“仅2012年一年,推进语音识别的进展就超过了过去15年的总和”。

3月13日,Google宣布收购从事深度学习研究的创业公司DNNResearch。尽管这是一家只有三人的小公司,收购的金额也没有公布,但该交易却引起了各国科技媒体的注意,因为它的创建人是辛顿,另外两名员工都是他的学生。联想到图像和语音识别对于Google当前最受关注的两个创新产品——Google眼镜和Google无人驾驶汽车的重要性,将三位深度学习领域的顶尖学者纳入自己的人才库对于Google的价值不言而喻。

当然,就如同所有突然间被热炒的新技术一样,深度学习引来的并不只是叫好声。就在《纽约时报》头版文章刊出的第二天,纽约大学心理学教授加里•马库斯(Gary Marcus)便在《纽约客》网站上以“‘深度学习’是人工智能的革命吗?”为题发表不同意见。他认为尽管深度学习确实解决了一些困扰着人工智能领域的问题,但它只是众多新技术之一,难以独立推动人工智能取得革命性的进步。他引用了一句俗语:“辛顿做了一个更好的梯子,但这个梯子并不一定能把你带上月球。”

有趣的是,就在他的文章后面的评论区,一些深度学习领域的学者对该技术进行了声援。一位自称参与过瑞士人工智能研究所的图像识别系统研发的用户留言表示,他们开发的系统还赢得了另外三项比赛,包括对汉字的识别以及在乳腺癌的组织学图片中探测有丝分裂,“在这些比赛中人工神经网络(的表现)都优于或非常接近人类”。

另一位自称是科罗拉多大学波尔得分校的深度学习研究者的用户则指出了马库斯文章中的一些错误,并用实时翻译的例子说明这项技术的作用无可替代:“英语和汉语中有多少词汇?在进行翻译时出现很多的可能性,而深度神经网络成功的解决了这个复杂的问题,这正是对马库斯先生的回击。”

在人工智能的发展历程中,曾先后出现过多次高潮和低谷。被称为“硅谷的未来”的深度学习技术能究竟是将催生出颠覆性的智能产品,还是在被热炒后遭遇冷落,需要时间来证明。

(本文刊登于《电脑报》2013年第12期,有改动。)

发表评论