一个人如何准确地进行机器学习/人工智能的研究?该研究是否基于对算法的开发和改进?还是更专注于将算法应用于解决特定的科学问题?

今年6月,我庆祝两个杰出成就:我在这个星球上完成了第六个十年,也是我在AI / ML领域进行活跃研究和学术出版物的第35年。我的第一篇学术论文发表在1985年的IJCAI上,我们刚刚获悉,关于将强化学习扩展到非平稳的马尔可夫决策过程的2020 ICML提交已被接受进行演示和出版。在过去的35年中,我在AI和ML上发表了150多篇论文,这给了我一些回答您重要问题的观点。

那么,如何进行AI和ML研究呢?因此,如何在任何领域进行研究?什么是“研究”?它与其他活动(例如,编写Python编译器或在汽车中换油)有何不同?

所有基础研究的核心都是一个问题。最好用一个例子来说明。多年来,我一直以开创性的女性天文学家塞西莉亚·佩恩·卡波什金(Cecilia Payne-Gaposchkin)的故事作为我为研究生做博士学位论文的榜样。在这个博士论文中,很少有研究能像这位杰出的女性一样重要。

塞西莉亚·佩恩(Cecilia Payne-Gaposchkin)-维基百科

25岁时,她在哈佛大学的博士学位论文回答了以下问题:宇宙中最常见的化学元素是什么?她认为这是氢,违背了普遍的科学智慧,也违背了博士导师的个人观点,她的论文通过测量证明了自己是对的。las,我的第一篇学术论文无法与如此惊人的贡献相提并论。

将AI和ML与物理学相提并论可能不公平。毕竟,人工智能和机器学习是更多的工程尝试,研究人员倾向于构建软件工件来证明某些智能行为,而不是像塞西莉亚那样发现宇宙的某些基本特性。但是,任何研究领域的科学目标之间都有广泛的相似之处。

研究中最重要且被忽略的部分是提出正确的问题。las,没有人在课程或教科书中教您这一点。教科书包含知识。正如爱因斯坦常说的:

想象力使人们提出正确的问题。在AI和ML中,它们始终构成计算算法的形式化形式。我以一个最著名的博士生为例,他于1984年从我的前UMass Amherst实验室毕业:理查德·萨顿(Richard Sutton)在安德鲁·巴托(Andrew Barto)的指导下做了开创性的博士论文,探讨了代理商如何学习解决“时间分配”问题。他的问题很简单,但意义深远:如果您只获得延迟的反馈,例如在最后才知道的一场比赛中输赢,那么在不知道最终判决的情况下,您如何在比赛中学习如何与对手比赛。

他不是第一个提出这个基本问题的人。IBM的开创性研究人员Arthur Samuel在1959年提出了相同的问题,并提出了第一个ML程序,该程序学会了在没有键盘或显示屏的IBM 701电子管上通过自弹奏跳棋的方法,并提出了相同的问题。或编程语言!

塞缪尔(Samuel)和萨顿(Sutton)都研究了相同的问题,时间信用分配和相同的算法,时间差异学习,但里奇·萨顿(Rich Sutton)通过更深入的分析将TD学习的研究推向了新的数学高度。值得注意的是,以我的经验,这是史无前例的,Rich在36年后继续致力于他的博士学位论文问题。在我看来,他比其他任何机器学习研究人员都更能举例说明计算科学家的理想,他对智能行为的基本问题深感兴趣。

因此,人们实际上是如何进行ML或AI研究的。最重要的是,您需要热情和奉献精神。没有多余的空间。Rich体现了这种奉献精神。在过去的36多年中,他每天都在考虑TD学习。我保证你比其他任何人都更了解它,甚至包括他的前博士学位顾问和我的前UMass同事安德鲁·巴托(Andrew Barto),我有幸与他共同领导了自主学习实验室超过15年。没有Rich的见解,Deep Mind在Alpha Go和Atari视频游戏上使用深度强化学习所做的所有出色工作都不可能实现。

另一杰出的博士学位论文将增强学习的研究推向新的高度,由英格兰国王学院的克里斯·沃特金斯(Chris Watkins)完成。克里斯的博士论文简称为“从延迟奖励中学习”。Chris研究了与Samuel和Sutton相同的问题,但是将TD学习与运筹学,动态规划和Markov决策过程联系起来至关重要。他的论文贡献了基本的Q学习算法,这是第一种无模型的最优控制方法。这说明了研究的另一个重要组成部分:将思想从一个领域连接到另一个领域。在Watkins博士论文发表30年后,Q学习仍然是强化学习中使用最广泛的算法。在过去的三十年中,已经撰写了成千上万篇有关Q学习的论文。

最后,我要最后谈一谈如何进行研究。许多科学家深信简单的重要性。爱因斯坦说得最好:一切都应该尽可能简单,但不要简单。这通常被称为Occam的剃刀。

Q学习的一个基本问题是,即使与简单的线性函数逼近结合使用,Q学习也不可靠地收敛,更不用说Deep Mind的工程师喜欢使用的庞大的非线性神经网络了。我对这个问题的研究导致提出了一种新的Q学习公式,该理论探索了如何使用优化理论中的强大工具(例如近端梯度)为该问题提供新的见解。我的前博士生在2015年的著名AI不确定性(UAI)会议上获得了Facebook最佳学生论文奖,这是因为他关于该问题的论文,这导致了《 AI Research》上更长的期刊文章。

渐近时间差异学习:具有多项式样本复杂度的稳定强化学习

梯度TD的这种新公式在数学上是优雅的,但不容易理解。您需要深入了解优化算法才能了解算法。不用说,这种复杂性与萨顿等计算科学家背道而驰。他提出了一种更简单的TD公式,称为TD,在线性函数逼近下更稳定。

这说明了科学是如何工作的。科学家不是冷血而是热情。他们争论很多。他们持有强烈的意见。爱因斯坦直到临终之日都拒绝相信量子力学。他最喜欢的评论是:

他在与量子理论先驱尼尔斯·布尔(Nils Bohr)的辩论中经常这样说,他最终激怒了爱因斯坦:不要告诉上帝该怎么做!

任何领域的科学研究最终都是一种精神体验。对于任何经历过灵感的人来说,那一刻的灵感都是一种提升。一生无休无止的辛劳,终生没有更好的回报。

我生动地记得大约15年前,当时我试图了解强化学习主体如何通过反复试验探索其环境,从而发现其潜在的对称性。简而言之:结构如何从随机性中出现?这就是我一直在努力理解的问题。我的解决方案是一个称为“原型值函数”的想法,与Q学习估计的常规值函数不同,它不是从特定于任务的奖励中获得的,而是与任务无关的领域几何结构派生的。基础数学使用了拉普拉斯算子的优美思想,它被称为数学和物理学中最美丽的物体。

拉普拉斯算子以其各种表现形式是所有数学中最美丽,最中心的对象。概率论,数学物理学,傅立叶分析,偏微分方程,李群理论和微分几何都围绕着太阳旋转,它的光甚至穿透了诸如数论和代数几何之类的晦涩区域。”—尼尔森,张量分析。

其他研究人员以许多有趣且新颖的方式扩展了我关于原型值函数的ICML 2005论文。Deep Mind和阿尔伯塔大学的研究人员最近发表的一篇论文表明,与继任表示有着很好的联系,海马中存在来自神经科学的证据。

海马作为预测图

如您所见,数学,物理学,神经科学,人工智能和机器学习有时在研究中完美地结合在一起,而我很幸运地通过自己的研究看到了这种情况。

为了使故事走到尽头,研究最终是关于对美丽和真理的追求,这是许多科学家的同义词。没有人比传说中的诗人济慈更擅长写这首诗,这首著名的诗作是《希腊颂》。最后的节激励了许多科学家。

约翰·济慈的希腊c上的颂诗歌基金会

“美丽是真理,真理是美丽,这就是全部

你们在地球上知道,你们需要知道的一切。”

宝宝起名

本站所有相关知识仅供大家参考、学习之用,部分来源于互联网,其版权均归原作者及网站所有,如无意侵犯您的权利,请与小编联系,我们将会在第一时间核实并给予反馈。
相关期刊推荐
湖北农机化

湖北农机化

农业基础科学 - 省级期刊

中国商论

中国商论

合作期刊 - 国家级期刊

科技资讯

科技资讯

合作期刊 - 国家级期刊

戏剧之家

戏剧之家

合作期刊 - 省级期刊

知识经济

知识经济

合作期刊 - 省级期刊

时代报告

时代报告

世界文学 - 省级期刊

小学时代(教育研究)(停刊)

小学时代(教育研究)(停刊)

合作期刊 - 省级期刊

文化创新比较研究

文化创新比较研究

合作期刊 - 省级期刊

田径

田径

体育 - 国家级期刊

求知导刊

求知导刊

中国共产党 - 省级期刊

北极光

北极光

中国文学 - 省级期刊