【安防在线 www.anfang.cn】
随着Google、Microsoft和Facebook等巨头的大力投入,深度学习正在超越机器学习,人工智能来势凶猛。那么,如今人工智能最热门的技术趋势是什么?笔者认为,复杂神经网络、LSTMs(长短期记忆网络)、注意力模型(Attention Models)等十大趋势将塑造人工智能未来的技术格局。
在蒙特利尔召开的NIPS 2015吸引了众多AI学界与业界的顶级专家,与会人数接近4000。大会总共收录了403篇论文,其中深度学习课题约占11%。来自Dropbox的高级软件工程师Brad Neuberg分享了他所注意到的十大技术趋势,本文将对每种趋势做了详细分析。
1.神经网络的架构正变得越来越复杂
感知和翻译等大多数神经网络的架构正变得越来越复杂,远非此前简单的前馈神经网络或卷积神经网络所能比。特别需要注意的是,神经网络正与不同的技术(如LSTMs、卷积、自定义目标函数等)相混合。
神经网络是多数深度学习项目的根基。深度学习基于人脑结构,一层层互相连接的人工模拟神经元模仿大脑的行为,处理视觉和语言等复杂问题。这些人工神经网络可以收集信息,也可以对其做出反应。它们能对事物的外形和声音做出解释,还可以自行学习与工作。
人工模拟神经元试图模仿大脑行为 (图片来源:Frontiers)
但这一切都需要极高的计算能力。早在 80 年代初期,Geoffrey Hinton和他的同事们就开始研究深度学习。然而彼时电脑还不够快,不足以处理有关神经网络的这些庞大的数据。当时AI研究的普遍方向也与他们相反,人们都在寻找捷径,直接模拟出行为而不是模仿大脑的运作。
随着计算能力的提升和算法的改进,今天,神经网络和深度学习已经成为人工智能领域最具吸引力的流派。这些神经网络还在变得更复杂,当年“谷歌大脑”团队最开始尝试“无监督学习”时,就动用了1.6万多台微处理器,创建了一个有数十亿连接的神经网络,在一项实验中观看了千万数量级的YouTube图像。
2.酷的人都在用LSTMs
当你阅读本文时,你是在理解前面词语的基础上来理解每个词语的。你的思想具有连续性,你不会丢弃已知信息而从头开始思考。传统神经网络的一大缺陷便是无法做到这一点,而递归神经网络(RNN)能够解决这一问题。
RNN拥有循环结构,可以持续保存信息。过去几年里,RNN在语音识别和翻译等许多问题上取得了难以置信的成功,而成功的关键在于一种特殊的RNN――长短期记忆网络(LSTMs)。
普通的RNN可以学会预测“the clouds are in the sky”中最后一个单词,但难以学会预测“I grew up in France… I speak fluent French.”中最后一个词。相关信息(clouds、France)和预测位置(sky、French)的间隔越大,神经网络就越加难以学习连接信息。这被称为是“长期依赖关系”问题。
长期依赖问题 (图片来源:CSDN)
LSTMs被明确设计成能克服之一问题。LSTMs有四层神经网络层,它们以特殊的方式相互作用。这使得“能记住信息很长一段时间”可以被视作LSTMs的“固有行为”,它们不需要额外学习这一点。对于大多数任务,LSTMs已经取得了非常好的效果。
3.是时候注意“注意力模型(attention models)了
LSTMs是人们使用RNNs的一个飞跃。还有其他飞跃吗?研究者共同的想法是:“还有注意力(attention)!”
“注意力”是指神经网络在执行任务时知道把焦点放在何处。我们可以让神经网络在每一步都从更大的信息集中挑选信息作为输入。例如,当神经网络为一张图片生成标题时,它可以挑选图像的关键部分作为输入。
拥有“注意力”的RNN在图像识别中的成功运用 | 图片来源:GitHub
4.神经图灵机依然有趣,但还无法胜任实际工作
当你翻译一句话时,并不会逐个词汇进行,而是会从句子的整体结构出发。机器难以做到这一点,这一挑战被称为“强耦合输出的整体估计”。NIPS上很多研究者展示了对跨时间、空间进行耦合输出的研究。
神经图灵机(Neural Turing Machine)就是研究者们在硅片中重现人类大脑短期记忆的尝试。它的背后是一种特殊类型的神经网络,它们可以适应与外部存储器共同工作,这使得神经网络可以存储记忆,还能在此后检索记忆并执行一些有逻辑性的任务。
模仿人类短期工作记忆的神经图灵机(图片来源:arXiv)
2014年10月,Google DeepMind公布了一台原型电脑,它可以模仿一些人类大脑短期工作记忆的特性。但直到NIPS2015,所有的神经图灵机都过于复杂,并且只能解决一些“小玩具”问题。在未来它们或将得到极大改进。
5.深度学习让计算机视觉和自然语言处理不再是孤岛
卷积神经网络(CNN)最早出现在计算机视觉中,但现在许多自然语言处理(NLP)系统也会使用。LSTMs与递归神经网络深度学习最早出现在NLP中,但现在也被纳入计算机视觉神经网络。
此外,计算机视觉与NLP的交汇仍然拥有无限前景。想象一下程序为美剧自动嵌入中文字幕的场景吧。
6.符号微分式越来越重要
随着神经网络架构及其目标函数变得日益复杂和自定义,手动推导出“反向传播”(back propagation)的梯度(gradients)也变得更加苦难而且容易出错。谷歌的TensorFlow等最新的工具包已经可以超负荷试验符号微分式,能够自动计算出正确的微分,以确保训练时误差梯度可被反向传播。
7.神经网络模型压缩的惊人成果
多个团队以不同方法大幅压缩了训练一个良好模型所需的素材体量,这些方法包括二值化、固定浮点数、迭代修剪和精细调优步骤等。
这些技术潜在的应用前景广阔,可能将会适应在移动设备上进行复杂模型的训练。例如,不需要延迟就可以得到语音识别结果。此外,如果运算所需要的空间和时间极大降低,我们就可以极高帧率(如30 FPS)查询一个模型,这样,在移动设备上也可以运用复杂神经网络模型,从而近乎实时地完成计算机视觉任务。
8.深度学习和强化学习继续交汇
虽然NIPS 2015上没有什么强化学习(reinforcement learning)的重要成果,但“深度强化学习”研讨会还是展现了深度神经网络和强化学习相结合的前景。
在“端对端”(end-to-end)机器人等领域出现了令人激动的进展,现在机器人已经可以一起运用深度和强化学习,从而将原始感官数据直接转化为实际动作驱动。我们正在超越“分类”等简单工作,尝试将“计划”与“行动”纳入方程。还有大量工作需要完成,但早期的工作已经使人感到兴奋。
9.难道你还没有使用批标准化?
批标准化(batch normalization)现在被视作评价一个神经网络工具包的部分标准,在NIPS 2015 上被不断提及。
10.神经网络研究与优化齐头并进
创造新的神经网络方法需要研究者,还需要能将它们迅速付诸实践的方法。谷歌的TensorFlow是少数能够做到这些的库:使用Python 或 C++等主流编程语言,研究者可以迅速创作新的网络拓扑图,接着在单一或多个设备(包括移动设备)上进行测试。
该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们。