快捷搜索:

我们其实还不能理解机器学习

作者: 互联网资讯  发布:2019-11-20

百乐门棋牌 1

百乐门棋牌 2

翻译:LuckyBB

“世界的尽头,是雄狮落泪的地方,是月亮升起的地方,是美梦诞生的地方。”——大卫《人工智能》

爆炸式地发展了四五年后,机器学习而今已逐渐成为人们耳熟能详的概念。

引言:大数据时代,大数据驱动的深度智能生逢其时,就像哈勃望远镜一样,可以推进人类文明的进步,从战胜人类顶尖棋手、帮助发现引力波到治疗癌症、金融交易、安全防控、气候模拟等。可以预见的是,随着深度学习技术体系的高速发展和这一波“猫”“狗”AI工程的野蛮生长,人类正在大踏步迈入大数据智能时代。以深度学习为代表的深度智能为什么会成为AI的热点?为什么深度学习会重塑机器学习和人工智能?为什么被寄希望为通往通用人工智能的关键技术?为什么深度学习能一鸣惊人?让机器大步跨入感知智能时代?深度学习又能否在未来机器攻破认知堡垒的过程中担当大任?当然对于这些重大进步,也有质疑的声音,并不是每个人都认为深度学习可以实现与人类智能相媲美的AI,一些批评者认为,深度学习和人工智能研究忽视了大脑本身的生物学、神经学知识,偏向于黑箱式的强力计算,理论基础薄弱等等。 上述种种,可谓仁者见仁智者见智,本文就来探秘深度学习技术、趋势和人工智能发展过程中的各种关键问题…

机器学习的发展,不仅仅体现在相关创业公司不断涌现,以及科技公司的自身重建(许多大公司都在推进相关的项目);更为显著的意义在于,它可能是下一波工业革命的核心。

♦人工神经网络的早期发展

机器学习中的一个重要组成部分是神经网络,也就是有规律的模式和数据。借助机器学习,我们可以在数据中找到非直接的、隐含的数据结构。

人工智能早期的发展进展缓慢,结果令人失望。对于许多问题,早期AI研究人员认为机器必须有大量的知识才能“聪明”,希望通过知识的表示和符号逻辑的推理实现机器智能,于是提出了专家系统方法,比如通过计算机程序实现领域专家提供的经验规则来解决医疗诊断等问题,根据病人的数据去匹配一系列规则,如果这种疾病没有得到正确的诊断,那么专家会增加额外的规则来缩小诊断范围。IBM的沃森人工智能就是一个经典AI系统的现代版本,沃森的核心技术是基于大量现实问题来构建复杂的知识库,它需要领域专家的密切参与来提供大量数据并评估其性能。这种经典AI方法虽然能解决了一些明确定义的问题,但由于自身无法进行自我学习和进化,谈不上真正的机器智能,离人类的智能还很远。

机器学习解决了以前“人类能办到但计算机办不到”的一类问题——或者更准确地说:“人们难以向计算机描述的问题”。

面对经典AI方法的缺陷,一些早期AI研究人员也在探讨人工神经元模型的思想,结合反向传播方法,构建了人工神经网络(ANNs),尽管当时还对真实神经元的工作方式知之甚少。而且神经网络的设计与真正的神经元几乎没有共同之处,设计重点也从生物模拟转向了从数据中学习的思路。所以,人工神经网络比经典AI方法更大的优势在于它能从数据中学习,不需要专家知识来提供规则。直到现在,人工神经网络仍然是机器学习关键技术之一。虽然传统的神经网络系统可以解决许多使用经典AI无法解决的问题,但是它们仍有较大的局限。例如,在数据不足的情况下,学习效果很有限,另外不能处理数据动态变化的问题,而且在当时即使有大量数据,也存在计算能力不足的瓶颈。这也是为什么神经网络在当时流行一段,后来又衰落下去的原因。当然从早期的研究来看,神经网络已经展示出了强大的学习潜力,用辛顿(Hinton,深度学习的创始人,深度学习四大金刚之一,如图1)的话来讲:神经网络提出了机器根据经验和数据进行学习的宏伟远景,就像幼儿自我学习进化一样,而不是通过人类量身定制的规则和无休止的知识灌输和监督指导。传统的经典AI方法大部分都受到了逻辑的启发,但是逻辑是人长大后才做的事情,三岁小孩学习从来不靠逻辑,很多成人做事也不讲逻辑。因此在我看来,神经网络是让我们了解智力如何运作的一个比逻辑方法更好的范例。

虽然,一些很酷的机器学习语音和视频应用样本已经逐步浮出水面;

百乐门棋牌 3

但是,我们似乎还没有彻底理解机器学习。比如:它对科技公司以及传统行业意味着什么,人们该如何思考它能够带来的创新,以及它可以解决哪些重要问题?

图1 深度学习四大金刚

“人工智能”一词其实不太能帮助我们理解机器学习的内涵,而且多数人一听到这个词就懵了。

♦这一波“猫”、“狗”AI的野蛮生长

一旦我们说“AI”,就好像人类进化的转折点出现了,我们也瞬间变成了猿猴,冲着我们不能理解的未来尖叫,挥舞着我们的拳头。

早期的神经网络研究尽管取得了值得称道的进展,但前些年为什么没有成功,这就是因为我前文所讲的大数据智能三要素还不具备。一是由于当时的计算能力瓶颈,使得基于神经网络的机器学习黯然失色,这种情况持续了几十年,直到GPU加速的问世;二是缺失的标注数据,尽管10年前互联网就开始充斥着大量的数据,却没有被标注,而被标注的海量数据才是神经网络最需要的燃料。这也是斯坦福大学教授李飞飞最关注的东西,她致力于数据驱动的机器学习。但从2006年,深度智能开始了崛起之路。

百乐门棋牌 4

2006年,Hinton提出了深度信念网络DBN,通过无监督预训练和有监督训练微调的方法在一定程度上解决了深层网络梯度消失的问题,由于没有特别有效的实验验证,该论文在当时并没有引起重视。

实际上,目前市面上关于机器学习的讨论并不能帮助我们真正理解机器学习。例如:

2009年,斯坦福大学华人教授李飞飞发布了全球最大的图像识别数据库ImageNet,收集了大量带有标注信息的图片数据供计算机视觉模型进行训练,拥有1500万张标注过的高清图片,第二年开始她每年举办一次计算机视觉比赛。

数据是新石油

2012年,可以称为深度学习元年,在这一年有几个里程碑事件:

谷歌和中国(或Facebook,或亚马逊,或BAT)拥有所有数据

♦Hinton课题组首次参加ImageNet机器视觉比赛,构建的CNN网络AlexNet一鸣惊人夺得冠军,并且碾压传统机器学习方法的识别性能,从此深度学习声名鹊起,成为学术研究和企业应用研究的焦点。

AI将掠夺走人类的工作

♦微软首席研究员里克•拉希德(Rick Rashid)在会议上展示了基于深度学习的实时口译系统,把他的口语转化为英文,错误率为7%,再翻译成中文文本,然后深度学习系统用普通话说出翻译后的语言。

人工智能

♦GoogleX的“猫”AI面世,这个系统在当时引起了轰动,他们采用16000个CPU计算资源构建了一个具有10亿连接的深度神经网络,并让它在YouTube上浏览和寻找猫。这套基于深度学习的识别系统不需要任何人工特征信息的帮助,就能从数千万张图片中找出那些含有猫的图片。传统的人脸识别是由程序员预先将整套系统编程实现,告诉计算机人脸应该是怎样的,设计好图像的分割和识别规则,系统才能对包含同类信息的图片作出识别,而猫AI却是自己发现了‘猫’的概念,之前没有人告诉过它‘猫’是什么,也没有人类告诉它猫应该长成什么模样。

而更有用的讨论方向可能是:

2015年,ImageNet竞赛,微软研究院的深度学习网络获得冠军,识别错误率仅为3.57%,超越一般人类的识别能力。

自动化

2016年,李飞飞团队在教会了计算机去识别图像的基础上,基于卷积神经网络CNN和长短时记忆网络LSTM的组合实现,让计算机能像一幼儿一样学会看图说话,并会用“句子”进行交流,例如不止是说某张图里有只“猫”,还可以说“这只猫是坐在床上的”。

赋能技术层

2016年3月,英国伦敦的DeepMind(2014年被谷歌收购)数年磨一剑,“阿尔法狗”AlphaGo横空出世,与李世石人机大战4:1获胜。

关系数据库

2017年5月,阿尔法狗战胜柯洁,在围棋领域彻底战胜人类,AlphaGo已经可以模仿人下棋的直觉,而且具备创造力,通过组合已有知识或独特想法的能力,不过这些能力目前仅仅局限于围棋。

为何谈到关系数据库?因为它是一个新的基础支持层,改变了计算机可以做的事情。

2017年10月,阿尔法狗的升级版AlphaGo Zero(阿尔法狗零或叫阿尔法狗元)抛弃对数百万盘人类历史棋谱的训练学习,一开始就不知道何谓人类棋谱,只是自由随意地在棋盘上下棋,按设定的围棋规则和目标,靠周伯通式的左右互博,学习能力大幅超越原版阿尔法狗,可谓是无人自学3天,胜过人类3000年。

在关系数据库出现之前——也就是20世纪70年代末之前,如果希望数据库算出特定主题的内容,例如“购买此产品并居住在这个城市的所有客户”,通常需要一个自定义的项目。

♦深度学习的“深度”价值

而由于数据库的结构并不适用于任意交叉的查询,如果想问一个问题,就需要建立一个专门的数据库。

上述种种迹象表明,深度学习技术在加速AI发展进程的收敛。笔者认为深度学习不仅仅是神经网络那么简单,而是解码人类学习的一套宏大技术体系(从监督向无监督,从统计学习到强化、对抗、迁移、生成、判别、融合的终生学习等等…),深度神经网络不会像很多专家学者认为的那么不堪,什么黑箱,什么没有理论基础。Deep learning的横空出世必将使得未来的人工智能大放异彩,可以说现阶段基于大数据的深度学习已经让机器初步睁开了眼睛,能初步看图说话,能听会道,李飞飞教授所讲的当前AI已经具有4-5岁幼儿的能力,是很有道理的,深度智能下一步将会扔掉大数据,或自我创造大数据,或无监督来自我进化学习。当今世界,不少领域有着巨量信息和超级复杂的系统,例如电信、金融、天文、气候、医疗和经济领域,即使是领域内的专家也无法应对海量数据和系统的复杂性。同时,数以亿计的移动传感器、智能手机和互联网、无联网、企业系统还在源源不断地喂养数字地球,全球互联网和企业系统海量数据的爆炸式增长,给基于深度学习的人工智能插上了腾飞的翅膀。从AI的发展历程来比较,深度学习是一个阿波罗登月式的进步。Google的DeepMind通过将深度学习与强化学习相关技术的结合创造了AlphaGo,在围棋这个领域已经战胜人类的顶级棋手。这也是一个具有里程碑意义的AI成就。人工神经网络发展成为深度学习网络,通过利用强大计算资源和海量的训练数据,网络性能可以在某些问题的解决上逼近极限(如图2)。深度学习已成功解决了许多问题,如图像分类,皮肤病诊断,语言翻译,数据中心优化和分析基因、识别癌症,可以预见,未来能解决的重大问题将会越来越多。

可见,数据库是一种记录保存系统。而关系数据库,则将它们转变为商业智能系统。

百乐门棋牌 5

关系数据库在很大程度上改变了数据库的使用方式,从而创建了新的范例和上亿美元市值公司。

图2 深度学习能力无上限?

关系数据库为我们带来了甲骨文(NYSE:ORCL),也给了我们SAP(NYSE:SAP;全球最大的企业管理和协同化电子商务解决方案供应商)。

我在前文百乐门棋牌,《深度学习的“深度”价值是什么?》曾提到,深度学习的核心技术是几十年前就提出的人工神经网络,如果将人工神经网络比为火箭发动机一代,那么深度学习就是火箭发动机二代,升级了训练方式(Hinton大神首创),加装了高性能计算配置(做游戏显卡起家的Nvidia居功至伟),最关键的是有了互联网和企业级巨头们的海量大数据燃料。为什么神经网络换马甲为深度学习之后,能获得突破性进展(图像、语音、翻译等多个领域接近或完败人类),上述三个方面的天时地利人和发挥了关键作用。另外我们都知道,伟大的东西往往很简单,好比爱因斯坦的EMC方程,深度学习也是一种朴素、简单、优美而有效的方法:像小孩搭积木一样简单地构建网络结构;性能不够,加层来凑的朴素思想,这种标准化、易用性的处理架构,极大降低了机器学习的难度,当然最关键还是效果,就某些应用领域而言,深度学习在大数据环境下的学习能力完败传统方法,当你的大数据燃料输入深度网络之后,你可以惊奇地等待并发现,它比计算机科学家几十年努力所构建的大部分机器学习算法效果都要好很多,这不得不让人刮目相看。 而阿尔法狗(AlphaGo)彻底战胜人类顶尖高手,更是深度智能应用的极致体现。

SAP及其同行,为我们提供了全球即时供应链,从而使得苹果(NASDAQ:AAPL)和星巴克(NASDAQ:SBUX)的诞生成为了可能。

♦机器如何智能:从感知到认知

到了20世纪90年代,几乎所有的企业软件都是关系数据库,比如PeopleSoft(甲骨文旗下一款协同合作企业软件)、Salesforce(一款客户关系管理软件)以及SuccessFactors(一款人力资源管理软件)等几十种软件都运行在关系型数据库上。

信息技术领域从来不缺乏流行词,从IT到DT,从云计算到框计算,从数据库到数据湖,从弱AI到强AI,从机器学习到机器智能…一堆眼花缭乱的技术名词,让人云里雾里。当谈及AI时,更是这样,有人工智能,也有机器学习;有机器学习,还有神经网络和深度学习;有感知计算,还有认知计算;还有机器视觉、机器人、自然语言、符号逻辑等若干概念和技术方向。我们先不用纠结这些繁杂的技术术语和概念,这些知识在任何一个搜索引擎或者AI教材书籍上都能查到,重要的是抓住关键矛盾,理清其逻辑联系。为了界定人工智能,我们首先要理解什么叫智能?智能通常可以被描述为感知信息的能力,并将其作为知识应用于环境的适应性行为,虽然还有很多关于智能的解释,但智能的本质基本上都涉及学习、理解以及为了解决实际问题而对学到的知识加以应用。智能至少包括三个方面的能力:理解、分析、解决问题的能力;归纳、演绎推理能力;自适应生存和发展能力,而这三方面的能力都离不开学习。这也是我们前文着重强调机器学习这一关键AI技术的原因,当然传统的符号逻辑构建的规则式AI系统也能一定程度上进行计算和推理,但他的学习是人类知识的嵌入式设计和灌输,机器本身并无自学习能力。

显然,事实已经证明,人们在看到Salesforce或SuccessFactors时,不会再说“因为甲骨文拥有所有的数据库,所以其他模式永远不会奏效”。

简单来讲,人工智能是指一套广泛的方法,算法和技术,可以使机器或系统看起来像人一样聪明,人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。人工智能最具代表性的解决方案包括IBM的沃森(Watson),苹果的Siri,谷歌的AlphaGo,还有亚马逊的Alexa等等。一句话,人工智能可以理解为模拟人类智能的软硬件系统。要做到这一点,AI首先需要能感知信息,并确定哪些信息有用;其次要能学习到相关特征和制定出问题解决的规则;最后AI要能调整优化自己,升级迭代智能水平。根据上述理解,AI不仅是分析数据,还要能解释数据,不仅是获取洞察和理解规则,还要能进行预测,最重要是能通过学习来提高自己!

相反,关系数据库已经成为了全球企业管理领域创造更多可能的中坚力量。而这,正是如今理解机器学习的一个很好的方式。

一般来讲,传统的符号逻辑方法及一般的统计机器学习方法以科学运算、逻辑处理、统计分析和规则式AI、专家系统等为核心,很难称得上智能,人工智能要真正走向智能,需要从如下三个层次进行突破(如图3):

机器学习让我们改变了使用计算机做事情的方式,而这将为企业创造出更多不同的产品。最终,多数的产品将来都将会应用到机器学习。

百乐门棋牌 6

这里一个重要的点是,虽然关系数据库具有规模效应,却也有赢家通吃的问题。

图3 人工智能的三个层次

即便两家公司共用一个数据库,却不能协同使得一个数据库变得更好,如果卡特彼勒购买和Safeway(北美最大的食品和药品零售商之一)相同的数据库,后者的数据库也不会变得更好。

(1)计算智能:计算智能(Computing Intelligence)的概念由IEEE神经网络学会于1990年提出,通常是指计算机从数据或实验观察中学习特定任务的能力,计算智能是借鉴自然进化等计算方法(如仿生类算法:遗传算法、蚁群算法、DNA计算等,还有如神经网络算法,这些算法也可以看作是数据挖掘,机器学习和人工智能部分支撑技术)以解决复杂的问题。这种方法接近于人的推理方式,即使用不精确和不完整的知识,并能够以自适应的方式产生控制行为,比如使计算机能够理解自然语言的模糊逻辑,使系统通过像生物一样学习数据中的经验和模式。

机器学习就是这样的:关键在于数据,但数据对特定应用程序具有高度特异性。

(2)感知智能:感知智能就是要使机器具有视觉、听觉、触觉等感知能力。这离不开机器学习,所有机器学习方法都是关于从数据中识别出趋势,或者识别数据所适用的类别,以便在提供新的数据时,可以做出适当的预测旨。通过这种学习方式,能初步让机器“看”懂与“听”懂,并据此辅助人类高效地完成如图像识别、语音识别、语言翻译等工作。近年来,以深度学习为核心的机器学习方法取得重大突破和进展,使得机器的感知智能水平正在逐步接近或超过人类,AI当前的研究应用水平就处于这一阶段。

更多的手写数据将使手写识别器变得更好,更多的燃气轮机数据将使一个系统更好地预测燃气轮机故障,但这二者并不能互相提升——数据具有不可替代性。

(3)认知智能:相比感知,认知智能更进一步,能初步掌握人类一样的理解、情感和交互能力。旨在让机器学会主动思考、决策及行动,以实现全面辅助或替代人类工作。认知智能具有自适应性,及能随着目标和需求进行自适应变化;交互性,能与外部参与者进行流畅互动和交流;迭代性,能通过反馈、记忆等升级优化自己的能力;最后一点要有对环境的理解能力,比如初步认识和理解所出的世界,对语言交流的环境理解等等。要实现认知智能绝非易事,必须解决机器非监督学习问题,技术难度很大,长期以来进展缓慢。认知智能也会用到各种机器学习技术,但只要机器学习方法是不够的,如何实现记忆、情感和复杂知识推理等,要么需要终极算法的支持,要么是集成多个高级AI子系统的一整套架构协同工作。在这个层面,AI的研究还处于相当初级的水平。

这就是在理解机器学习时最常见的误解:人们错误地认为机器学习是一种单一的、通用的东西,认为谷歌(NASDAQ:GOOG)或微软(NASDAQ:MSFT)各自建立了一套机器学习系统,或者IBM有一个名为“Watson”的机器学习机器。

♦人工智能关键技术体系

本文由百乐门棋牌发布于互联网资讯,转载请注明出处:我们其实还不能理解机器学习

关键词: