一个人如何准确地进行机器学习/人工智能的研究？该研究是否基于对算法的开发和改进？还是更专注于将算法应用于解决特定的科学问题？

今年6月，我庆祝两个杰出成就：我在这个星球上完成了第六个十年，也是我在AI / ML领域进行活跃研究和学术出版物的第35年。我的第一篇学术论文发表在1985年的IJCAI上，我们刚刚获悉，关于将强化学习扩展到非平稳的马尔可夫决策过程的2020 ICML提交已被接受进行演示和出版。在过去的35年中，我在AI和ML上发表了150多篇论文，这给了我一些回答您重要问题的观点。

那么，如何进行AI和ML研究呢？因此，如何在任何领域进行研究？什么是“研究”？它与其他活动（例如，编写Python编译器或在汽车中换油）有何不同？

所有基础研究的核心都是一个问题。最好用一个例子来说明。多年来，我一直以开创性的女性天文学家塞西莉亚·佩恩·卡波什金（Cecilia Payne-Gaposchkin）的故事作为我为研究生做博士学位论文的榜样。在这个博士论文中，很少有研究能像这位杰出的女性一样重要。

塞西莉亚·佩恩（Cecilia Payne-Gaposchkin）-维基百科

25岁时，她在哈佛大学的博士学位论文回答了以下问题：宇宙中最常见的化学元素是什么？她认为这是氢，违背了普遍的科学智慧，也违背了博士导师的个人观点，她的论文通过测量证明了自己是对的。las，我的第一篇学术论文无法与如此惊人的贡献相提并论。

将AI和ML与物理学相提并论可能不公平。毕竟，人工智能和机器学习是更多的工程尝试，研究人员倾向于构建软件工件来证明某些智能行为，而不是像塞西莉亚那样发现宇宙的某些基本特性。但是，任何研究领域的科学目标之间都有广泛的相似之处。

研究中最重要且被忽略的部分是提出正确的问题。las，没有人在课程或教科书中教您这一点。教科书包含知识。正如爱因斯坦常说的：

想象力使人们提出正确的问题。在AI和ML中，它们始终构成计算算法的形式化形式。我以一个最著名的博士生为例，他于1984年从我的前UMass Amherst实验室毕业：理查德·萨顿（Richard Sutton）在安德鲁·巴托（Andrew Barto）的指导下做了开创性的博士论文，探讨了代理商如何学习解决“时间分配”问题。他的问题很简单，但意义深远：如果您只获得延迟的反馈，例如在最后才知道的一场比赛中输赢，那么在不知道最终判决的情况下，您如何在比赛中学习如何与对手比赛。

他不是第一个提出这个基本问题的人。IBM的开创性研究人员Arthur Samuel在1959年提出了相同的问题，并提出了第一个ML程序，该程序学会了在没有键盘或显示屏的IBM 701电子管上通过自弹奏跳棋的方法，并提出了相同的问题。或编程语言！

塞缪尔（Samuel）和萨顿（Sutton）都研究了相同的问题，时间信用分配和相同的算法，时间差异学习，但里奇·萨顿（Rich Sutton）通过更深入的分析将TD学习的研究推向了新的数学高度。值得注意的是，以我的经验，这是史无前例的，Rich在36年后继续致力于他的博士学位论文问题。在我看来，他比其他任何机器学习研究人员都更能举例说明计算科学家的理想，他对智能行为的基本问题深感兴趣。

因此，人们实际上是如何进行ML或AI研究的。最重要的是，您需要热情和奉献精神。没有多余的空间。Rich体现了这种奉献精神。在过去的36多年中，他每天都在考虑TD学习。我保证你比其他任何人都更了解它，甚至包括他的前博士学位顾问和我的前UMass同事安德鲁·巴托（Andrew Barto），我有幸与他共同领导了自主学习实验室超过15年。没有Rich的见解，Deep Mind在Alpha Go和Atari视频游戏上使用深度强化学习所做的所有出色工作都不可能实现。

另一杰出的博士学位论文将增强学习的研究推向新的高度，由英格兰国王学院的克里斯·沃特金斯（Chris Watkins）完成。克里斯的博士论文简称为“从延迟奖励中学习”。Chris研究了与Samuel和Sutton相同的问题，但是将TD学习与运筹学，动态规划和Markov决策过程联系起来至关重要。他的论文贡献了基本的Q学习算法，这是第一种无模型的最优控制方法。这说明了研究的另一个重要组成部分：将思想从一个领域连接到另一个领域。在Watkins博士论文发表30年后，Q学习仍然是强化学习中使用最广泛的算法。在过去的三十年中，已经撰写了成千上万篇有关Q学习的论文。

最后，我要最后谈一谈如何进行研究。许多科学家深信简单的重要性。爱因斯坦说得最好：一切都应该尽可能简单，但不要简单。这通常被称为Occam的剃刀。

Q学习的一个基本问题是，即使与简单的线性函数逼近结合使用，Q学习也不可靠地收敛，更不用说Deep Mind的工程师喜欢使用的庞大的非线性神经网络了。我对这个问题的研究导致提出了一种新的Q学习公式，该理论探索了如何使用优化理论中的强大工具（例如近端梯度）为该问题提供新的见解。我的前博士生在2015年的著名AI不确定性（UAI）会议上获得了Facebook最佳学生论文奖，这是因为他关于该问题的论文，这导致了《 AI Research》上更长的期刊文章。

渐近时间差异学习：具有多项式样本复杂度的稳定强化学习

梯度TD的这种新公式在数学上是优雅的，但不容易理解。您需要深入了解优化算法才能了解算法。不用说，这种复杂性与萨顿等计算科学家背道而驰。他提出了一种更简单的TD公式，称为TD，在线性函数逼近下更稳定。

这说明了科学是如何工作的。科学家不是冷血而是热情。他们争论很多。他们持有强烈的意见。爱因斯坦直到临终之日都拒绝相信量子力学。他最喜欢的评论是：

他在与量子理论先驱尼尔斯·布尔（Nils Bohr）的辩论中经常这样说，他最终激怒了爱因斯坦：不要告诉上帝该怎么做！

任何领域的科学研究最终都是一种精神体验。对于任何经历过灵感的人来说，那一刻的灵感都是一种提升。一生无休无止的辛劳，终生没有更好的回报。

我生动地记得大约15年前，当时我试图了解强化学习主体如何通过反复试验探索其环境，从而发现其潜在的对称性。简而言之：结构如何从随机性中出现？这就是我一直在努力理解的问题。我的解决方案是一个称为“原型值函数”的想法，与Q学习估计的常规值函数不同，它不是从特定于任务的奖励中获得的，而是与任务无关的领域几何结构派生的。基础数学使用了拉普拉斯算子的优美思想，它被称为数学和物理学中最美丽的物体。

拉普拉斯算子以其各种表现形式是所有数学中最美丽，最中心的对象。概率论，数学物理学，傅立叶分析，偏微分方程，李群理论和微分几何都围绕着太阳旋转，它的光甚至穿透了诸如数论和代数几何之类的晦涩区域。”—尼尔森，张量分析。

其他研究人员以许多有趣且新颖的方式扩展了我关于原型值函数的ICML 2005论文。Deep Mind和阿尔伯塔大学的研究人员最近发表的一篇论文表明，与继任表示有着很好的联系，海马中存在来自神经科学的证据。

海马作为预测图

如您所见，数学，物理学，神经科学，人工智能和机器学习有时在研究中完美地结合在一起，而我很幸运地通过自己的研究看到了这种情况。

为了使故事走到尽头，研究最终是关于对美丽和真理的追求，这是许多科学家的同义词。没有人比传说中的诗人济慈更擅长写这首诗，这首著名的诗作是《希腊颂》。最后的节激励了许多科学家。

约翰·济慈的希腊c上的颂诗歌基金会

“美丽是真理，真理是美丽，这就是全部

你们在地球上知道，你们需要知道的一切。”

宝宝起名起名

本站所有相关知识仅供大家参考、学习之用，部分来源于互联网，其版权均归原作者及网站所有，如无意侵犯您的权利，请与小编联系，我们将会在第一时间核实并给予反馈。