哪些是与AI相关的前20篇论文（包括机器学习和符号），这样我可以涵盖基础知识并为我的研究选择一个利基市场？

啊，这是一个充满挑战的问题，我喜欢在旧金山湾区一个懒惰的周六早晨思考！我的职业生涯始于人工智能，是坎普尔印度理工学院的一名年轻硕士生，实际上是一名电子工程专业的学生，但却被Hofstadter的哥德尔，埃舍尔和巴赫的书迷住了，学习人工智能。那是1982年，所以我在过去的36年里一直在AI和ML工作。一路上，我已经阅读了哦，很容易大约10,000篇论文，给予或采取几百。所以，在这些成千上万的论文中，现在，我必须选择“前20篇论文”，这样你，感兴趣的Quora读者，可以瞥见吸引像我这样的人放弃一切追求这种可能理想化的东西。寻求使机器像人类和其他动物一样聪明。现在，我无法抗拒的挑战。

好吧，任何这样的列表都会被我的个人选择无望地偏见2）不完全代表现代人工智能。3）非常长的阅读！请记住，我们很多在20世纪70年代末或80年代初进入人工智能的人确实做到了这一点，之前有任何商业上的希望，AI会得到回报。我们被AI的科学探索所吸引：如何建立一个解释大脑是如何工作的理论，大脑是如何成为大脑的结果等等。我们都没有任何线索，可以肯定地说，在早期21世纪，人工智能将成为一个非常有利可图的企业。

但是，我现在要争辩说，现在比以往任何时候都更重要的是，对于那些进入人工智能领域的人来说，理解这一点至关重要1）人工智能的想法来自哪里2）大脑的洞察力来自许多领域，来自神经科学从生物学到心理学和经济学，从数学学习，所以我选择的论文反映了这一点，我选择了多个学术领域的论文。我也没有回避那些批评你可能会深深相信的事情的论文（例如，统计机器学习解决潜在任何AI问题的力量）。

我也会尝试用我讨厌的评论来清理这个列表，所以它不会是那些太无聊的“这里有20个你应该知道的关于blah的事情”，这在网络上经常是你看到的。但是，根据我的评论，这将是一个非常长的回复。我想让你一瞥的是一群迷人的角色，他们构建了这个跨学科的探索，从科学和计算的角度来理解大脑，他们的背景多么多样化，以及他们是多么惊人的成就。值得称赞的是，人工智能已经尽快出现，距离它开始仅仅60年。如果没有如此令人眼花缭乱的思想集合，我们可能需要更长时间才能取得任何实际进展。

该列表有点历史，并尽可能按时间顺序排列。我还试着记住，这个清单的重点在于，对于进入人工智能领域的新手来说应该是可以理解的，所以我想要包括一些重要的数学论文（我选择了一些我已经收录了一些非常复杂的高技术论文，因为你需要了解21世纪的人工智能。因此，这个前20名的可读性差异很大：有些论文在周日下午很容易通过。其他 - 好吧，假设你有数学背景，那就说你需要几周的集中阅读才能取得进展。但是，后者并不多，所以不要担心没有合适的背景（还）。

正如他们所说，让我们从一开始......

沃伦麦卡洛和沃尔特皮茨（芝加哥大学），第一卷的神经活动内在思想的逻辑演算。5，pp.115-133,1943。（HTTP：//www.cs.cmu.edu/~./epxing / ...）。这是现代计算神经科学的第一篇伟大论文，由两位杰出的研究人员撰写，其中一位是高级和杰出的（McCullough），另一位是匹兹，一位没有任何教育的令人眼花缭乱的神童，但他一直在谈论自己的位置。麦卡洛。皮茨在底特律市中心长大，因为他被比他年长的帮派成员无情地殴打，他在底特律公共图书馆避难。有传言说他在几天几夜的马拉松阅读会上吞噬了所有1000多页的Bertrand Russell和Alfred North Whitehead的Principia Mathematica。这不容易阅读 - 它是现代数学大部分的密集逻辑总结。皮茨很勇敢，即使他刚刚上高中并没有受过教育，大胆写信给英格兰的伯特兰罗素，然后一位着名的文学人物将继续获得诺贝尔文学奖，以及一位伟大的数学家，指出了巨号中的一些错误和拼写错误。这个年轻的男孩给拉塞尔留下了深刻的印象，后来他给沃林麦卡洛写了一篇很棒的建议。因此诞生了一次伟大的合作，并且很快就转移到麻省理工学院，在那里他们受到了Norbert Wiener的影响，他是发明术语“控制论”（人类和机器中的AI研究）的神童数学家。麦卡洛是一个比一天晚上工作的生活更大的角色，似乎依靠“爱尔兰威士忌和冰淇淋”的饮食。皮茨在“三维神经网络”上写了一篇令人眼花缭乱的美丽博士论文，然后，就像一部悲剧性的意大利歌剧所说的那样，一切都崩溃了。Wiener和McCullough吵了起来（这很小便是我不会在这里重复的原因），因此，McCullough不再与Pitt一起工作了，而且Pitt刚刚消失了，但遗憾的是，并没有在烧掉唯一的副本之前在他辩护之前，他未发表的博士论文。尚未发现此项工作的副本。在这里阅读悲惨的故事 - 警告：最后保留一盒面巾纸方便，你会哭！-试图用逻辑拯救世界的人 - 问题21：信息 - 鹦鹉螺（另请阅读经典论文“青蛙的眼睛告诉青蛙的大脑”HTTPS：//hearingbrain.org/docs/le ...由同一个二人组成。一篇伟大的现代论文是加州理工学院最近的生物学突破，其中用于灵长类大脑识别面部的面部代码终于被破解 -灵长类大脑面部识别准则。- 显示在一个狭窄的区域，我们可能知道人类的眼睛告诉人类的大脑，在麦卡洛和皮茨提出这个问题差不多60年后。
迈向人工智能的步骤，Marvin Minsky，IRE会议录，1960年1月（HTTP：//worrydream.com/refs/Minsk ...）。许多人正式将AI开始正式发表在这篇文章中，这篇文章真正概述了人工智能在不同子领域中的划分，其中许多子领域仍然存在，因此本文可以说是第一个将AI纳入现代领域的人。目前的幌子。Minksy是一位在普林斯顿大学攻读数学博士学位的神童（就像现在和过去人工智能中的许多其他人一样），在哈佛大学作为研究员（他在机器人学领域做过早期工作）的一个令人眼花缭乱的博士后，开始了极具影响力的麻省理工学院人工智能实验室，他主持了几十年。他是一个比生命更重要的角色，那些认识他的人有很多关于他的故事。我听到的最好的一个是他正在采访一位教师候选人 - 一位相当紧张的年轻博士，他兴奋地在黑板上解释他的工作 - 当学生转身时，他发现他独自一人在办公室。Minksy在他的解释中失踪了。这名学生感到很羞愧，但Minksy后来解释说，学生告诉他的内容听起来很有趣，以至于Minksy不得不走出去散步思考这些想法。明斯基是一个博学家，在理论计算机科学的家里写了一些有影响力的论文和一本书，在心理学上，他是弗洛伊德的狂热弟子，写了一篇关于人工智能和笑话的文章及其对潜意识的意义，在教育中开创了新的教育学习技术和许多其他领域。
具有常识的程序，John McCarthy，Minsky，Semantic Information Processing，pp.403-418,1968。（HTTP：//www-formal.stanford.edu/j ...麦卡锡是人工智能的另一个主要创始人，他在麻省理工学院工作了一段时间后离开，找到了斯坦福人工智能实验室，该实验室在适当的时候被证明与其东海岸堂兄一样具有影响力。麦卡锡首先坚信知识的力量，并且需要正式的知识表达。在这篇有影响力的论文中，他阐述了他对一个名为“Advice Taker”的软件系统的想法，可以指示他使用提示来完成任务。Advice Taker也具有常识，可以从给出的建议中推断出明显的结论。例如，自动驾驶汽车可以获得正式的道路规则，以及关于人类如何驾驶的一些建议（例如“一般来说，人类不遵循大多数高速公路的速度限制，但往往会驾驶5比速度限制高出-10英里“）。麦卡锡的概念化至关重要，让神经网络学习驾驶任务是不够的。知识必须明确表示，以便可以进行推理。他在论文中说了一些深刻的东西，这可能会震惊大多数现代ML研究人员。他在第4页用斜体（强调）说“为了使程序能够学习某些东西，首先必须能够被告知它”！根据这个定义，麦卡锡不会将大多数深度学习系统视为真正的“学习”（因为没有一个深度学习系统可以被告知他们学到了什么）。McCarthy也因其在lambda演算方面的工作而闻名，他发明了编程语言LISP，然后使用它进行了大量的AI研究。我在人工智能方面的早期研究大部分是使用LISP完成的，包括我在20世纪90年代早期在IBM使用强化学习教授机器人的第一篇（也是引用最多的论文）。
为什么机器学习，由Herbert Simon，Michalski，Carbonell和Mitchell（编辑），机器学习，1983年（HTTP：//digitalcollections.librar ...）。Herb Simon是诺贝尔经济学奖获得者，他在卡内基理工学院（后来的卡内基梅隆大学）度过了他的整个学术生涯，为建立现在这所世界一流大学的光彩和声望做了大量工作。他是真正的博学家之一，在家里有六个部门，从计算机科学到经济学，再到工商管理和心理学，在所有这些部门中他都做出了基础贡献。他是个有天赋的演讲者，我特别幸运能够参加Simon在20世纪80年代中期的几次演讲，当时我在CMU度过了几年。在这篇文章中，西蒙问了一个问题，即今天很少有人工智能研究人员在问：机器为什么要学习？根据西蒙的说法，为什么当可以更快更可靠的东西时，可以编程的机器会厌烦这种缓慢而繁琐的知识获取形式。你必须阅读这篇文章才能找到他的答案，但是这篇文章对于给出机器学习领域的第一个科学定义很有价值，这个定义今天仍然有效。Simon在人工智能方面做出了许多其他的贡献，包括他与CMU的另一位AI天才Allan Newell长达数十年的合作，他在提出正确问题方面的独特能力使他成为一名真正有天赋的研究员。据传，当Allan Newell在CMU CS公共休息室的一次谈话中随意提到国际象棋的分支因素并非难以在硬件中仿效时，计算机国际象棋栩栩如生，Hans Berliner对此提出了一个评论。第一个现代国际象棋选手，Deep Thought，取得成果（同样的CMU团队去了IBM，建立了Deep Blue，当然还击败了Kasparov）。
非合作博弈，博士论文，约翰纳什，普林斯顿。（非合作游戏约翰·纳什于1948年从卡内基理工学院作为一名20岁的数学家来到普林斯顿，一行推荐信：“这个人是个天才”。他的博士论文将充分肯定母校对其能力的评估。纳什将冯·诺伊曼和摩根斯坦的零和游戏的工作带入了一个全新的水平，其令人眼花缭乱的概括，几十年后他将获得诺贝尔奖。纳什的大部分历史都记录在西尔维亚纳萨尔的精彩传记“美丽的心灵”（后来成为一部由拉塞尔·克劳主演的约翰·纳什的电影中）。传说冯·诺伊曼本人并没有多想纳什的作品，称之为“另一个定点定理”。纳什从头到尾在不到一年的时间内完成了他的奠基论文。他于1948年9月抵达普林斯顿，1949年11月，着名数学家Solomon Lefschetz将纳什论文的结果传达给了美国国家科学院的会议。如今，数十亿美元的产品（从无线蜂窝带宽到石油潜在客户）使用纳什的博弈论思想进行交易。当今深度学习中最具影响力的模型是生成性对抗网络（GAN），而研究GAN的关键问题是它们是否以及何时收敛于纳什均衡。因此，在纳什在普林斯顿为他的短期但诺贝尔奖获奖论文辩护70年后，他的工作仍然对ML和AI产生巨大影响。纳什的工作也成为研究进化动力学的一个广泛使用的框架，从而产生了一个名为进化博弈论的新领域，约翰梅纳德史密斯的先驱。博弈论不仅是人工智能的重要领域，也是CS的重要领域。有人说，“互联网只是一种游戏。我们必须找到均衡解决方案“。算法博弈论是一个新兴的研究领域，研究诸如“无政府状态的价格”之类的事情，或者如何通过让数百万代理人做出本地自私的决定来解决硬优化问题的解决方案。纳什在普林斯顿大学的博士生导师是塔克，纳什称之为“机器”。他的博士论文的第二位读者是土耳其，他可以被称为现代机器学习的先驱之一，因为他在普林斯顿发明了探索性数据分析（后来又发明了快速傅立叶变换）。
使用EM算法，Dempster，Laird和Rubin的不完整数据的最大可能性（皇家统计学会期刊，系列B，1977）（基于EM算法的不完全数据的最大似然）。在20世纪80年代中期，ML与人工智能一起急剧转向概率和统计方法的广泛使用。20世纪90年代最具影响力的机器学习模型之一是基于Fisher的最大似然估计概念。由于AI中大多数有趣的概率模型具有潜在的（未观察到的）变量，因此无法直接应用最大似然。由三位哈佛大学统计学家推广的EM算法得到了拯救。它可能是过去25年来ML中使用最广泛的统计方法，值得了解。这篇论文在Google Scholar上被引用超过50,000次，需要一定程度的数学复杂性，但它代表了现代ML，现代ML的大部分大厦都是基于像EM这样的想法。考虑EM的一种非常简单的方法是“数据幻觉”。假设您要计算20个数字的平均值，但忘记测量最后5个数字。好吧，你可以只计算15个数字的平均值，或者你可以做一些聪明的事情，即对每个缺失的5个数字进行初步猜测。这导致了一个简单的递归关系，让您找到真正的意思。在一维情况下，这恰好与忽略最后5个数字相同，但在二维情况下，其中一个或另一个维度可能不同，EM找到不同的解决方案。
由Les Valiant撰写的“可学习理论”，ACM通讯，1984年。（HTTPS：//people.mpi-inf.mpg.de/~m ...）。乔治奥威尔（George Orwell）写了一部精彩的小说，关于所有知识渊博的政府的崛起，这些政府都盯着所有人好吧，在小说的同一年，哈佛大学杰出的计算机科学家Les Valiant证明，由于在多项式时间内可以从数据中学到什么的内在限制，奥威尔的恐惧无法完全实现。也就是说，即使政府可以监视个人，也有可能构建其身份可能被隐藏的功能，因为它需要难以计算的计算才能发现它们。Valiant的工作导致他在几十年后赢得了图灵奖，计算机科学版的诺贝尔奖。Valiant在这篇具有里程碑意义的论文中所做的是阐述了机器学习理论，它类似于计算的复杂性理论。他将PAC学习或可能近似正确的学习定义为从数据中获取知识的模型，并展示了一类函数是PAC可学习的例子，并且还推测了不可学习的函数。Valiant在过去三十年的工作具有极大的影响力。例如，ML中最广泛使用的集合方法称为增强，并且是PAC学习的直接结果。还需要注意的是，使用PAC学习工具证明支持向量机或SVM是合理的。这是一篇简短但写得很好的论文，虽然不易阅读，但是你理解和掌握这篇论文的能力将决定你是一名ML科学家还是一名ML程序员（不要对任何一个做出任何价值判断），世界需要两种类型的人！）。
没有代表的情报，罗德尼布鲁克斯，IJCAI 1987计算机和思想奖演讲（HTTP：//www.fc.uaem.mx/~bruno/mat ...）。布鲁克斯的观点是建立在行为学上的“基于行为的机器人”，即对昆虫行为的研究。道德学家发现，蚂蚁，蜜蜂和许多其他昆虫的行为非常复杂，建立了大型复杂的社会（蚁群，蜂箱），但他们的决策能力似乎是基于相当简单的规则。布鲁克斯把这种想法铭记于心，并对当时代表性的现代知识型人工智能设备发起了重大批评。他认为，使用基于知识的人工智能建立的机器人在现实世界中永远不会运作得很好。在推理引擎做出决定之前，一辆穿过马路的机器人看到一辆卡车并开始推理它应该做什么，它会被卡车弄平。根据布鲁克斯的说法，这种失败是由于对大脑如何产生行为的误解。他认为，在动物中，行为是以分层的高度模块化形式硬连接的，因此复杂性来自于许多简单行为的交错。他的早期博士生之一Jonathan Connell表示，你可以设计一个名为Herbert（Herb Simon之后）的复杂机器人，它可以完成一项复杂的任务，即在室内建筑物中搜索汽水罐并将它们捡起并扔进垃圾桶，一直没有明确表示任务的任何地方。之后，在Jon Connell毕业后，他来到IBM Research工作，在那里他和我合作应用RL来教授基于行为的机器人新行为。布鲁克斯是机器人技术的真正先驱，并在他的工作中插入了现实世界的重点，直到那时非常缺乏。他对如何将正确的工程设计应用于问题有着常识性的智慧，并且不喜欢使用花哨的数学来解决那些简单易行的问题。现代自动驾驶系统的大部分成功都归功于布鲁克斯的想法。如果特定的车辆配备了基于行为的设计（这可以抵制糟糕的决定，例如优步车辆据称制造的那个，将行人标记为行人），那么亚利桑那州涉及优步车辆的悲惨事故可能已被避免。假阳性）。
自然梯度在学习，阿马里，神经计算，1989年有效地工作（HTTP：//citeseerx.ist.psu.edu/vie ...）。统计数据的传奇之一是印度科学家C.R. Rao，他现在已经90多岁了，自从费舍尔建立现代统计大厦以来，他基本上做得最多。作为大学的年轻研究员，C。R. Rao发明了许多现代多变量统计数据。由于他研究了来自埃塞俄比亚的人体骨骼化石，英国剑桥。在20世纪20年代写的经典论文中，C。R. Rao表明概率分布的空间是弯曲的，就像爱因斯坦的时空一样，并且在其表面上的每个点处的切线空间上定义了黎曼内积。他后来展示了Fisher信息度量如何用于定义这种内在产品。Amari是日本的脑科学研究人员，他利用这种洞察力来定义自然梯度法，这是一种广泛使用的训练神经网络的方法，其中在任何给定点修改权重的方向不是欧几里德方向，而是方向这是基于分析潜在概率流形的曲线结构。Amari表明自然梯度通常效果更好，后来写了一篇关于信息几何的高度复杂的论文，扩展了他对自然梯度的研究。许多年后，在2013年，一群博士生和我表明，自然梯度方法实际上可以被视为由俄罗斯优化研究人员Nemirovksy和Yudin发明的一种称为镜像下降的强大的双空间梯度方法的特殊情况。镜像下降现在已成为深度学习中最广泛使用的梯度方法之一的基础，称为Duchi（现在在斯坦福），Hazan（现在在普林斯顿）和Singer（现在在谷歌）的ADAGRAD。理解这些梯度下降方法的各种配方非常重要，这需要探索几何和统计之间的一些美好的联系。
学习通过时间差异的方法进行预测，作者：Richard Sutton，机器学习期刊，第9-44页，1988年（HTTPS：//pdfs.semanticscholar.org ...）。TD学习仍然是最广泛使用的强化学习方法，34年后由麻省大学博士生Richard Sutton与他的前博士生导师Andrew Barto合作发明，他们两人都可以说是奠定了现代的基础。RL的领域（最初形成Deep Mind公司的工作，然后由谷歌收购）。值得注意的是，亚瑟·塞缪尔在20世纪50年代尝试了一种简单的TD学习形式，并用它来教授IBM 701玩跳棋，这可以说是现代时代RL和ML的首次实现。但Rich Sutton将TD学习变为现实，如果你阅读上面的论文，你会发现他为这项研究带来的数学成熟程度远远超出了塞缪尔。TD学习现在远远超出了本文的范围，如果你想看看它的现代变体在数学上是多么复杂，我将指出你的下一篇论文（它建立在我的一位博士生刘波的工作基础上，他带来了他的双空间分析工作将梯度TD方法的研究提高到了一个新的水平。Janet Yu在现代版的渐变TD上写了很长的（80多页）密集的数学论文，你必须非常强大的数学才能完全理解（[1712.09652]关于一些基于梯度的非政策差异算法在非政策学习中的收敛性）。TD仍然是为数不多的ML方法之一，有证据表明它在生物学上是合理的。大脑似乎使用多巴胺神经递质编码TD错误。大脑中TD的研究是一个非常活跃的研究领域（见HTTP：//www.gatsby.ucl.ac.uk/~day ...）。
Atari的人类学习，Tsividis等，AAAI 2017（HTTP：//gershmanlab.webfactional ....）。深度强化学习在自然界的一篇耸人听闻的论文中得到普及（通过深层强化学习进行人机控制）由一大群深入研究的研究人员，现在已经众所周知，并且引用我抵制诱惑将其列入我的前20名（大多数人会把它放在那里）。它引发了大量关注论文，但其中许多似乎都错过了一个相当明显的事实，即人类学习Atari游戏的速度与使用卷积神经网络的TD Q学习之间存在巨大鸿沟。这篇由麻省理工学院和哈佛大学认知科学家撰写的精美论文表明，人类在实时游戏中只需几分钟即可学习许多Atari游戏，而深度RL方法则需要数千万步（这可能需要几个月的时间，也许甚至几年！）。因此，深度RL不能成为Atari问题的最终解决方案，即使它目前可能是我们能做的最好的。这里的人与机器之间存在着巨大的性能差距，如果你是一名年轻的ML研究员，那么我将在下一步取得突破。在学习玩Atari时，人类似乎比深度RL做得更多。
通过乘法器的交替方向方法进行分布式优化和统计学习，Boyd等，机器学习的基础和趋势，2011（基于乘子交替方向的分布式优化与统计学习，也有MATLAB代码）。21世纪已经到来，随之而来的是云计算的曙光，机器学习有望利用这些大量基于云的计算结构。这篇由斯坦福大学优化专家Stephen Boyd及其同事撰写的这篇非常长而精美的论文展示了如何使用称为交替方向乘法器方法（或ADMM）的广泛而强大的框架来设计基于云的ML算法。正如绿野仙踪中所言，“我们不再在堪萨斯州，托托”。也就是说，通过这篇论文，我们现在正处于现代机器学习的土地上，在那里变得艰难（但是，正如俗话所说，“艰难的开始”）。这是一本数学上深度和强烈的纸张，超过100页，所以它不是一个简单的阅读（除非，你是像沃尔特皮茨这样的人！）。但是，您花费数周或数月阅读它将极大地提高您查看如何利用现代优化知识来加速许多机器学习方法的能力。这里提供的是一个通用工具箱，您可以设计许多专门的变体（包括基于Hadoop的变体，如本文所示）。要理解本文，你需要理解二元理论，Boyd本人写了一本关于凸优化的好书来帮助你弥合这个鸿沟。该论文被高度引用，有充分理由，因为它是一个清晰的模型。
通过Bengio，TR 1312，Univ。学习人工智能的深层架构。蒙特利尔（HTTPS：//www.iro.umontreal.ca/~li ...）（也是一篇发表在“机器学习的基础和趋势”杂志上的论文）。Bengio在普及深度学习方面做得比其他任何人都多，也是其主要创始人和创新者之一。在本文中，他提出了一个令人信服的愿景，为什么AI和ML系统需要结合深度学习的想法，虽然他说的许多细节由于过去几年深度学习的快速进步而发生了变化，但本文是一个很好的经典。本文的写作与当时流行的机器学习中浅层架构的方法相对应，例如内核方法。如果您有兴趣参加会议或教程，Bengio将在7月即将在瑞典举行的IJCAI会议上提供另一本关于深度学习的流行教程。我不必多说深度学习，因为它是近来一连串宣传的主题。可以这么说，今天人工智能非常处于深度学习的范式（意味着一个框架，其中每个问题都被视为深度学习的问题，无论它是否是正确的方法！）。时间将证明深度学习在当前形式中的存在能力。人们开始担心深度学习解决方案的稳健性（Imagenet架构似乎非常容易受到随机噪声的影响，人类甚至无法看到这些噪声，让人回应），样本复杂性似乎仍然很强大。可伸缩性仍然是一个悬而未决的问题，但是深度学习已经在许多领域表现出色，包括计算机视觉（如果您下载最新版本的MATLAB R2018a，您可以使用带有自己家中物体的网络摄像头运行演示图像识别程序，并自己决定你认为深度学习在现实世界中的效果如何。
机器学习的理论障碍，来自因果革命的七个火花，作者：Judea Pearl，Arxiv 2018。（[1801.04016]机会学习的理论障碍与因果革命的七个火花）。在我看来珍珠是人工智能的艾萨克牛顿。他开发了广泛的图形模型概率框架，在20世纪90年代至2010年代主导了人工智能。他随后对因果模型的研究走向了一个不同的方向，现在认为概率是“一种附带现象”（或表面属性，更深层次的因果关系）。Pearl在因果模型方面的工作尚未获得与人工智能相同的牵引力，因为他早期的图形模型工作（这是AI和ML的主要子领域）。很大程度上，原因与因果模型非常适合的应用程序有关。Pearl专注于医疗保健，教育，气候变化，社会模式等领域，需要采取干预措施来改变现状。在这些非常重要的实际应用中，他认为描述性统计不是最终目标，而是因果模型。他2009年的第二版因果关系仍然是该主题最明确的现代处理方式，非常值得收购。
前景理论：风险决策分析，Daniel Kahneman和Amos Tversky，Econometrica，第263-291页，1979年.Daniel Kahneman与他的合作者Amos Tversky（他悲伤地死了，并且，无法分享奖品）。在这项开创性的工作中，他们问自己一个简单的问题：人类如何在不确定的情况下做出决策？他们是否遵循最大化预期效用的标准经济模型？如果我给你两种结果之间的选择：选择门1，概率为50％，你就没有现金奖励，或者你得到300美元;或者，如果您选择2号门，您将获得100美元的保证奖金。许多人选择2号门也许不会让你感到惊讶，即使通过预期的效用理论显示你应该选择1号门（因为预期的效用是150美元，远高于2号门）。这是怎么回事？那么，人类往往会厌恶风险。我们宁愿有100美元肯定，而不是冒险与门1没什么关系。这篇美丽的论文被引用了超过50,000次，在一些美丽的简单实验中探讨了这些问题，这些实验在全世界都有重复，结果相似。好吧，这就是问题。人工智能中现代概率决策和强化学习的大部分理论都是基于最大化期望效用（马尔可夫决策过程，Q学习等）。如果KT是正确的，那么现代人工智能的大部分都在咆哮错误的树！如果您关心人类如何做出决定，您是否应继续选择不正确的方法？你的选择。阅读本文并做出决定。
面向永无止境的语言学习架构，Carlson等人，AAAI 2010.人类学习了几十年，但大多数机器学习系统在更短的时间内学习，通常只是一项任务。由我的前博士生导师Thomas Mitchell领导的CMU工作探索了机器学习系统如何在很长一段时间内学习，通过探索网络和学习数百万有用的事实。您可以在线与实际的NELL系统进行交互卡内基·梅隆大学。NELL是一个有趣的例子，说明现代计算机技术的工具，即万维网，如何能够设计出可以永久运行的ML系统。NELL的寿命可能比我们任何人都长，而且不断获取事实。当然，最近争议的核心问题是“假新闻”。NELL如何知道它所学到的是真的？网络上充斥着虚假的断言。NELL目前使用人工审查方法来决定它学到的哪些事实真的值得信任。类似的系统可以设计用于图像标记，语言交互以及许多其他系统。
拓扑与数据，作者：Gunnar Carlson，美国数学学会通报，2009年4月（HTTP：//www.ams.org/images/carlss ...）。许多研究人员有兴趣知道答案的问题是：ML将在未来十年内走向何方？这位着名的斯坦福大学数学家正在争论使用更复杂的拓扑方法，这是一个研究形状抽象属性的发展良好的数学领域。拓扑是数学家用来决定咖啡杯（带把手）和甜甜圈基本相同的东西，因为一个可以平滑地变形到另一个而不需要切割。拓扑具有很大的优势：即使无法在ML中进行标准平滑度假设，它也可用于分析数据。毋庸置疑，这里所需的数学复杂程度非常高，但卡尔森不会深入研究技术主题，而是提供大部分高级实例，说明使用计算拓扑工具可以推断出什么样的结构。
2001年：“太空漫游”，亚瑟·C·克拉克的书，斯坦利·库布里克的电影。我的下一个也是最后一个阅读选择 - 这已经持续了很长时间，你和我现在都有点累了 - 不是AI论文，而是电影和相关书籍。Kubrick的电影2001中的计算机HAL在我看来是基于AI的智能系统的最佳范例，很快就可以实现。2001年是在1968年发布的，恰好在50年后，它的成立50周年纪念日。我发现，我的许多学生和同事都没有见过2001年。这确实是一种亵渎神灵。如果你们都对AI或ML感兴趣，那么你应该看看这部电影，或者阅读这本书，最好是两者兼顾。在我看来，它是有史以来制作的最聪明的科幻电影，它让所有后来的电影都感到羞耻（不，这里没有愚蠢的激光剑打架或假爆炸或达斯维达！）。相反，斯坦利·库布里克（Stanley Kubrick）设计的这部电影与20世纪60年代的技术一样逼真，即使在今天，这部电影仍具有惊人的现代感。HAL当然是他的声音传奇（“我很抱歉Dave”现在可以作为许多手机的铃声）。但是，HAL也是现代AI如何与人类合作的一个很好的例子，并且有助于协助许多功能。许多长途航行进入太空，例如火星或其他地方，不能用HAL来完成，因为人类将不得不睡觉或休眠以节省食物储存等。有一本很好的书由Stork按场景进行电影中的HAL分析，人工智能处于21世纪。这本书也值得收购。