AI Alignment播客：与Stuart Armstrong合成人类的偏好为实用功能

2195 人阅读 | 时间：2019年09月19日 09:26

在他的研究议程v0.9中：将人类的偏好综合到效用函数中斯图尔特阿姆斯特朗开发了一种生成友好人工智能的方法。他的对齐建议可以广义地理解为一种逆强化学习，其中推断人类偏好的大部分任务都留给了AI本身。我们有责任在AI系统中构建正确的假设，定义，偏好学习方法和综合过程，以便能够有意义地学习人类偏好并将其合成为适当的效用函数。为了做到这一点，他的议程着眼于如何理解和识别人类的偏好，如何最终将这些学到的偏好综合成“适当的”效用函数，开发和估计人类效用函数的实用性，以及如何议程可以协助其他人工智能调整方法。

本集讨论的主题包括：

斯图亚特研究议程的核心方面和思想
人的价值观是可变的，可操纵的，矛盾的和不明确的
该研究议程涉及更广泛的AI对齐环境
拟议的合成过程是什么样的
如何识别人的偏好
为什么实用功能呢？
理想化和反思均衡
开放式问题和潜在问题领域

最后一次短暂（4分钟）调查分享您对播客的反馈的机会。

斯图亚特的要点：

“本研究项目主要有两个核心部分。第一部分是识别人类的内部模型，弄清楚它们是什么，我们如何使用它们以及我们如何让人工智能来实现正在发生的事情。所以那些给我们提供了一些偏好，我们构建我们的一般偏好的部分。第二部分是将所有这些部分组合成一个对任何特定个体的整体偏好，其工作方式相当好，并尽可能地尊重个人的不同偏好，元偏好等。该项目的第二部分是人们倾向于有强烈意见的项目，因为他们可以看到它是如何工作的以及构建块如何组合在一起以及他们更喜欢以不同的方式将它们组合在一起等等但实质上，
“因此，当我说人类的价值观是矛盾的，可变的，可操纵的和未定义的时候，我说前三个相对容易处理，但最后一个不是。大多数时候，人们没有考虑过他们或世界或其他任何问题所处的整个情况。没有任何情况与另一种情况完全相似，因此您必须尝试将其纳入不同的类别。因此，如果某个人怀疑在一个国家当选并开始做非常专制的事情，那么这是否适合应该被抵制的暴政框架，或者这是否适合民主框架的正常过程，在这种情况下它应该通过民主来忍受和处理手段。通常情况下，它会有两者的特征，因此，它可能不适合放在任何一个盒子中，然后有一个多种多样的人可能是虚伪或选择一方或另一方但是有这么多种可能性的原因是因为这种情况并不完全之前面对的是人们实际上没有偏好。他们对这种情况没有偏好，因为它不是他们曾经考虑过的......我实际上在研究议程中的某个时刻认为这是一个确保我们离得太远的论据。人类基线正常进入异国情调的事物，我们的偏好没有明确界定，因为在这些地区，存在大的负面的可能性似乎高于存在大的正面的机会......所以，当我说不太远时，我并不是说没有拥抱一个巨大变革的未来。我说没有接受一个巨大变革的未来，我们的道德范畴开始崩溃。“
“寻找效用函数的一个原因是寻找一些不会随时间变化的稳定的东西，并且有证据表明一致性要求会将任何形式的偏好函数推向效用函数，如果你没有一个效用函数，你只是失去价值。因此，将其置于效用函数中的愿望并非出于对效用函数本身的钦佩，而是我们希望获得不会进一步改变或不会进一步朝着我们无法控制的方向漂移的东西。不知道。另一个原因是，当我们开始更好地控制自己的偏好并拥有更好的操纵自己思想的能力时，我们将把自己推向效用函数，因为同样的压力基本上没有毫无意义地失去价值。
“反射均衡基本上是你改进自己的偏好，使它们更加一致，将它们应用到你自己，直到你的元偏好和你的偏好都很平滑地相互对齐。我正在做的是一个更混乱的综合过程，我这样做是为了尽可能地保留人类的实际偏好。例如，通过具有完全平坦的偏好或非常简单的偏好，很容易达到反射平衡，这些倾向于非常反射地与其自身平衡，并且在我看来，推动这一事物是过度简单的过程。失去宝贵偏好的巨大风险。在我看来，失去宝贵偏好的风险比在简单或优雅方面获得的风险高得多。没有理由认为人类的大脑及其优先选择的混乱应该会导致一些简单的反思均衡。事实上，你可以说这是一个反对自反均衡的论据，因为它意味着许多不同的起点，许多不同的头脑具有非常不同的偏好会导致类似的结果，这基本上意味着你丢掉了很多细节。你的输入数据。“
“想象一下，我们已经达到了一些积极的结果，我们已经达成一致，我们还没有通过一个技巧达到它，我们还没有通过工具AI或软件作为服务或那些方法达到它，我们达到了实际的一致性。因此，在我看来，我列出的所有问题或几乎所有问题都必须得到解决，因此，从某种意义上说，这个研究议程的大部分需要直接或间接地完成才能实现。任何形式的明智对齐。现在，这个术语直接或间接地在这里做了很多工作，但我觉得这很多都需要直接完成。“

重要时间戳：

0:00介绍

3:24进化的故事（鼓舞人心的故事）

6:30你的“鼓舞人心的故事”如何帮助告知这个研究议程？

8:53研究议程的两个核心部分

10:00如何在AI对齐环境中对此研究议程进行背景化

12:45研究项目背后的基本思想

15:10什么是偏好？

17:50为什么反身的自我一致性还不够

20:05人类如何矛盾，这对议程的难度有何影响？

25:30为什么人的价值观被低估是最大的挑战

33:55扩大合成过程

35:20如何提取人的部分偏好

36:50为什么实用功能？

41:45除了效用函数之外，是否有替代目标排序或动作生成方法？

44:40扩展和规范部分偏好并涵盖第2部分的其余部分

50:00进入第3节，在实践中综合实用功能

52:00为什么这个研究议程对其他对齐方法有帮助

55:50议程和其他问题的限制

58:40合成一个物种范围的效用函数

1:01:20对包含泄漏抽象的对齐方法的担忧

1:06:10反思均衡和议程不是哲学理想

1:08:10我们可以检查合成过程的结果吗？

01:09:55圣雄阿姆斯特朗的理想化过程是如何失败的？

时间01:14:40 AI对齐社区的任何澄清？

作品参考：

研究议程v0.9：将人类的偏好综合到效用函数中

关于斯图尔特阿姆斯特朗“研究议程v0.9”的一些评论

圣雄阿姆斯特朗：已经死了

苦涩的课程

我们希望您继续加入我们的对话，方法是关注我们或订阅Youtube，Spotify， SoundCloud，iTunes，Google Play，Stitcher， iHeartRadio或您首选的播客网站/应用程序中的播客。您可以在此处找到所有AI Alignment Podcast。

您可以收听上面的播客或阅读下面的成绩单。

Lucas：大家好，欢迎回到Life of Life Institute的AI Alignment播客。我是Lucas Perry，今天我们将与Stuart Armstrong谈论他的研究议程0.9版本：将人类的偏好合成为效用函数。斯图亚特在这里向我们介绍了这个研究议程背后的基本思想，将人类偏好综合成效用函数的过程看起来如何，进步所需的关键哲学和经验洞察力，人类价值观如何变化，可操纵，定义不足和矛盾，这些事实如何影响产生人类价值的充分合成，这一点都适合于对齐环境以及它如何为协调的AI系统提供其他方法。

如果您发现此播客有趣或有用，请考虑与朋友，社交媒体平台，论坛或您认为可能被认为有价值的任何地方分享。我还想对本轮SurveyMonkey民意调查和反馈发出最后的电话，所以如果您有任何意见，建议或任何其他想法，您想与我分享关于播客，潜在客人或其他任何事情，可以通过SurveyMonkey民意调查链接随时进行此操作，该链接附加到您可能找到此播客的任何位置的说明中。我很乐意听到你的消息。对于我们为每个播客节目创建的页面，似乎也缺乏一些知识。你也可以在描述中找到一个链接，它包含一集的摘要，讨论的主题，来宾的要点，重要的时间戳，如果你想跳过，

斯图尔特阿姆斯特朗是人类未来研究所的研究员，专注于人工智能的安全性和可能性，如何定义人工智能的潜在目标，并将人文部分定义的值映射到人体智能中，以及跨越可达宇宙的智能生命的长期潜力。他一直与FHI和其他组织（如DeepMind）的人员合作，在一般模型中正式确定人工智能需求，因此AI设计人员可以将这些安全方法纳入他们的设计中。他与DeepMind在“中断性”方面的合作已在100多篇媒体文章中被提及。斯图亚特过去的研究兴趣包括比较存在风险，包括它们的概率和相互作用，人为概率，我们存在的事实如何影响围绕该关键事实的概率估计，

我们今天在这里讨论您的研究议程版本0.9：将人类的偏好合成为效用函数。我们从这里开始的一个美妙的地方就是这种进化的故事，你称之为一个鼓舞人心的故事，所以从这开始，我认为这将有助于我们对人类的地位进行语境化和什么人类就像我们在这个价值对齐问题的开始时发现自己一样。我将继续在这里阅读，让听众开始发展历史背景和叙事。

所以，我在这里引用你的话。你说，“这是一个关于进化如何创造人类偏好以及这些偏好的本质的故事。从准确的角度讲，故事并非如此。相反，它旨在为这个研究议程的方向提供一些灵感。最初，进化创造了本能驱动的代理人。这些代理人没有偏好或目标，他们也不需要。他们就像Q学习代理人。他们知道在不同情况下采取的正确行动，但就是这样。考虑出生时走向光明的小海龟，因为传统上，海洋比陆地轻。当然，这种行为在人工照明时代使它们失败了，但是进化具有很小的带宽，每代一次，所以它创建了能够规划的代理，找出不同的方法，而不是必须遵循本能。这在不同的环境中非常有用，因此演变将很多工作卸载到规划代理上。“

“当然，为了任何用途，规划代理人需要能够在一定程度上对他们的环境进行建模，否则他们的计划就无法运作，必须有偏好，否则每个计划都和其他计划一样好。因此，在创建第一个规划代理时，evolution创建了具有首选项的第一个代理。当然，进化是凌乱的，无向的过程，所以过程并不干净。规划代理人仍然充满直觉，环境建模是情境化的，用于需要时而不是一致的整体。因此，这些代理人的偏好未定义，有时相互矛盾。最后，进化创造了能够自我建模和在物种中建模其他物质的物质。这可能是因为当代理人学会撒谎和发现谎言时，竞争的社会压力。当然，

“作为一个副作用，我们开始有更高的秩序偏好，关于什么样的规范和偏好，但本能和矛盾仍然存在。毕竟这是进化，进化看着这个可怕的混乱，看到它是好的。对于进化是有益的，但是如果我们希望它对我们有益，我们就需要在某种程度上理顺这个混乱。“在这里，我们到达斯图尔特，经过数亿年的进化，处于人类状态。那么，鉴于你在这里写过的人类进化的故事，为什么你对这个故事如此感兴趣？为什么你要研究这个混乱以更好地理解人工智能的对齐和发展这个研究议程？

斯图尔特：这可以追溯到我为NuerIPS共同编写的一篇论文。它基本上发展了逆强化学习的概念，或者更广泛地说，你能通过观察他们的行为来推断出代理人的偏好。人类并不完全理性，所以我所关注的问题是你能否通过观察他们的行为来同时推断出一个代理人的理性和偏好。事实证明，这在数学上是完全不可能的。我们无法在不对假设进行假设的情况下推断偏好，在不对偏好做出假设的情况下我们无法推断出合理性。这是一个严谨的结果，因此我对人类进化的看法基本上是绕过这个结果，从某种意义上说，做出正确的假设，以便我们可以提取实际的人类偏好，因为我们不能通过观察行为来做到这一点。

卢卡斯：那么，你从这个人类进化的过程中看到了什么，并看到这个人是多么的混乱？

斯图尔特：嗯，这里有两个关键的见解。第一个是我位于人类偏好所在的位置，或者我们可以假设人类偏好所在的地方，以及人类的内部模型，我们如何模拟世界，我们如何判断，这是一件好事还是我想要那样或者哦我真的对此感到尴尬，所以在这个项目中定义了人类偏好，或者至少人类偏好的构建块被定义为人类在结果状态标记为好或坏的这些内部模型中。带来进化的另一点是，因为它不像一个干净的过程，它不像我们有一个明确标记的偏好的一般模型，然后其他一切从那里流出。它是在不同情况下的情景模型的混合，具有明显不同的标记为好或坏的事物。所以，正如我在偏好中所说的那样，是矛盾的，可变的，可操纵的和未定义的。

因此，本研究项目主要有两个核心部分。第一部分是识别人类的内部模型，弄清楚它们是什么，我们如何使用它们以及我们如何让人工智能来实现正在发生的事情。所以那些给我们提供了一些偏好，我们构建我们的一般偏好的部分。第二部分是将所有这些部分组合成一个对任何特定个体的整体偏好，其工作方式相当好，并尽可能地尊重个人的不同偏好，元偏好等。

该项目的第二部分是人们倾向于有强烈意见的项目，因为他们可以看到它是如何工作的以及构建块如何组合在一起以及他们更喜欢以不同的方式将它们组合在一起等等但实质上，第一部分是最重要的部分，因为它从根本上定义了人类偏好的部分。

卢卡斯：在我们深入研究您的议程细节之前，您是否可以在人工智能调整思想的演变过程中对其进行背景化，以及它如何适应更广泛的研究领域？

斯图尔特：所以，这只是我对人工智能对齐方式的看法。有一系列不同的方法可以解决对齐问题的不同方面。其中一些，MIRI正在进行大量工作，是如何确保目标的稳定性和其他类似思想的技术性事项，这些思路应该是任何方法所必需的。其他人的开发是关于如何间接地使AI安全或使自己完全对齐。所以，第一类是软件即服务。我们是否可以将超级智能能力集成到一个系统中，该系统不允许说具有恶劣目标的超级智能代理。

我过去研究的其他人都是低影响力的代理人或者神谕，这个想法是我们有超级智能，我们不能将它与人类的偏好联系起来，但我们可以用它来完成一些有用的工作。然后有一些方法，旨在解决整个问题，并获得实际的对齐，曾经被称为友好的AI方法。所以在这里，它不是一个以任何方式受到约束的人工智能，它是一个本质上有动力去做正确事情的人工智能。有各种不同的方法，有些比其他方法更严重。保罗克里斯蒂亚诺有一个有趣的变体，虽然我很难说，他有点混合价值对齐和约束AI在某种意义上可以做什么，但它非常相似所以这是获得对齐的最后一种类型

在那个领域，有一些我称之为间接代理的东西。这是你把Nick Bostrom放在一个房间里500年或者虚拟版本的想法，希望你能在最后得到一些东西。有直接的方法，这是基本的直接方法，在某种意义上做所有事情，但定义了需要定义的所有内容，以便AI可以从所有数据中组合对齐的首选项功能。

卢卡斯：很棒。因此，您之前对本研究议程的不同部分给出了一个很好的总结。您想对这个特定研究项目背后的“基本理念”进行一些扩展吗？

斯图尔特：有两个基本思想不太难以表达。首先，尽管我们所说的偏好可能是错误的，尽管我们所说的偏好可能是错误的，但我们的实际偏好至少在一瞬间就是我们在脑海中建模的东西，我们认为这是更好的选择。正如我所说，我们可能会在政治或法庭或社会上撒谎，但一般来说，当我们知道我们撒谎时，这是因为我们所说的内容与我们内部建模之间存在分歧。所以，正是这个内部模型，我认为它是我们偏好所在的地方，然后是其他所有的模型，整个复杂的综合项目基本上就是我们如何把这些基本的部分组合起来，以一种似乎不会导致灾难性的方式并且尊重人类偏好和元偏好的方式将它们结合起来，这是一个关键的事情，实际上达到了一个结果。这就是为什么研究项目的目的是在很多情况下进行大量的默认操作。

就好像这个人没有强烈的元偏好一样，那么如果你想要GDP上升，那么你有一个完整的程序，你如何结合关于世界的偏好和对你的身份的偏好，默认情况下，以不同的方式组合，这是对世界的偏爱。如果你自己想要相信某些东西或只相信真相，那么这就是你对自己身份的偏好。它往往是身份偏好更脆弱，所以默认是关于世界的偏好只是加在一起，这克服了大多数矛盾，因为很少有人的偏好完全是反对的，而身份偏好则更加平滑地结合在一起过程，这样你就不会对它们造成任何损失。但正如我所说，这些是默认程序，并且它们都被定义为我们得到了答案，但是这个人的元偏好也有很大的能力来覆盖默认值。同样，采取预防措施以确保实际达到答案。

卢卡斯：你能解开一下偏好的偏好吗？您的偏好是什么意思以及它们如何在人类心智模型中进行语境化？

斯图尔特：我所说的部分偏好主要是指人类拥有世界上某个地方的小模型，比如说他们要去看电影，他们宁愿邀请他们喜欢的人跟他们一起去。在这个心理模型中，有电影，他们自己以及另一个人的存在与否。所以，这是一个非常狭隘的现实模型，实际上是整个世界的其他部分，当然，整个宇宙的其余部分都不会影响这一点。它可能是非常不同的，不会改变这一点。所以，这就是我所说的偏爱。你不能从这个到一般规则，在这种情况下，这个人想要做什么，但这是一个狭窄的有效偏好。部分偏好指的是两件事，首先，它不包括我们所有的偏好，其次，

您可以对此进行一些修改。这是第二部分的重点，如果该方法有效，合成项目的变化实际上不应该产生灾难性的结果。如果合成过程稍微改变会导致灾难，那么整个方法出现了问题，但是你可以添加一些限制，例如寻找一致的偏好，但我开始基本上就是基本的东西就在那里是这种心理模型，有一个明确的判断，一件事比另一件更好，然后我们可以从很多方面去那里。这种方法的一个关键部分是没有单一的基本合成过程可行，

任何方法都必须做出很多选择，因此，我正在明确地写下我必须做出的许多选择，以便其他人可以看到我看到的过程所带来的。我非常警惕那些寻求反思性自我一致性的事物，因为从某种意义上说，如果你将理想体系定义为一种反思性自我一致的体系，那么这就是一种局部条件，即道德通过自己的评估来判断自己这意味着你在理论上可以在优先级空间中任意远离你之前。我不希望这个刚刚定义的东西达到反思均衡，这种道德综合现在是自我一致的，我想要一些自我一致的东西，它离它开始的地方不太远。所以，

卢卡斯：我明白了，所以出发点是我们试图让它接近的评价道德？

斯图尔特：是的，我不认为你可以说任何合成的人类偏好本质上是错误的，只要它反映了输入它的一些偏好。但是，我认为你可以说，从人类的角度来看，如果它与他们想要的东西强烈对立则是错误的。从我的起始位置出发的分歧是我认为与最终结果非常相关的事情。这里有一点挑战，因为我们必须避免说出基于不准确事实的偏好。因此，一些偏好不可避免地会被删除或改变，因为它们基于事实上不准确的信念。试图使一致的非常模糊的其他一些过程也会导致一些偏好被超越。所以，

卢卡斯：那么，在这里反映这个议程的难度以及人类如何包含矛盾的偏好和模型，你能否扩展一下我们如何遏制这些内部矛盾以及这如何导致议程的难度？

斯图尔特：我的意思是人类在其中包含许多矛盾。我们的心情转变。我们着名的是虚伪地支持我们自己，反对其他人的弱点，我们基本上重写叙事，让我们自己永远是英雄。任何有过某种人类经验的人都知道他们什么时候决定某种方式或决定其他方式或者认为某些事情是重要的而其他事情不是，而且往往是人们只是想出什么理由无论如何，他们都想做，特别是如果他们处于社交场合，然后有些人可以坚持这种理由并将其融入他们的道德中，同时在其他方面表现不同。最简单的例子是一些政治伪君子。和其他男人一起睡觉的反同性恋传教士是一种刻板印象，但这不仅仅是那种程度上的矛盾。基本上，我们表达偏好的大多数类别并不是特别一致。

如果我们在这里抛出一个可能强大的AI，这可能会彻底改变世界，我们可能会在我们的偏好中找到最终的东西。例如，假设有人创建或想要创建一个被培育为奴隶种族的人类亚种。现在，这场比赛并不特别喜欢成为奴隶种族，但他们想要非常强大地成为奴隶。在这种情况下，我们的许多直觉都在崩溃，因为我们知道奴隶制几乎总是非自愿的，并且受到强制的支持。我们也知道，即使我们的偏好和我们的享受有时会分开，但它们通常不会分开那么多。所以，我们现在面临着一种新的情况，即我们的很多直觉都在相互推动。

你也有像民族主义这样的东西。有些人对自己的国家有强烈的民族主义情绪，有时候他们的国家有变化，在这种情况下，看起来很简单，是的，我会遵守我国的法律，例如，我的整个概念变得更加复杂国家开始崩溃。这是我看到偏好被定义不足的主要方式。它们是根据概念来表达的，这些概念不是普遍的，它们将许多不同的概念联系在一起。

卢卡斯：因此，在任何特定时刻，就像我此时此刻一样，问题在于有一个很大的分支因素，即未来有多少可能存在的Lucase。在这个时候，当你在你的论文中探讨这个时间的当前和可能是一个短暂的间隔，我的部分偏好的总和以及包含这些部分偏好的部分世界模型。这些偏好和模型的表达可以用不同的方式表达，并根据询问问题的方式，问题的顺序进行黑客攻击和改变。我就像一个万面的东西，我可以向你展示我的许多面孔中的一个，这取决于你如何按下我的按钮，并且取决于我将来获得的所有外部输入，我将表达并可能变得更多在许多不同的路径之一理想化。

说我的核心价值是快乐或某些有意识的体验超过他人，而我所有的评估这个分支的事情就是现在说这个偏好现在可以在未来改变，谁知道呢？我将创造新的叙事和故事，证明我是新人，并理解我追溯的新价值观和偏好，就像我现在实际上不会批准的东西，但我的新的，可能更邪恶的版本我自己会赞同并追溯创造一个新的叙事。这有助于阐明和描绘为什么人类如此混乱的画面吗？

斯图尔特：是的，我们需要把它分成两部分。首先，我们的价值观可以由其他人经常操纵，在此过程中由人工智能本身操纵，但这可以在一定程度上加以对抗。我有一篇关于如何减少人工智能对其可以操纵的学习过程的影响的论文。这是一个方面。另一个方面是当你面对一个新的情况时，你可以进入多个不同的方向，这些事情都没有定义。所以，当我说人类价值观是矛盾的，可变的，可操纵的和不明确的时候，我说前三个相对容易处理，但最后一个不是。

大多数时候，人们没有考虑过他们或世界或其他任何问题所处的整个情况。没有任何情况与另一种情况完全相似，因此您必须尝试将其纳入不同的类别。因此，如果某个人怀疑在一个国家当选并开始做非常专制的事情，那么这是否适合应该被抵制的暴政框架，或者这是否适合民主框架的正常过程，在这种情况下它应该通过民主来忍受和处理手段。通常情况下，它会有两者的特征，因此，它可能不适合放在任何一个盒子中，然后有一个多种多样的人可能是虚伪或选择一方或另一方但是有这么多种可能性的原因是因为这种情况并不完全之前面对的是人们实际上没有偏好。他们对这种情况没有偏好，因为这不是他们曾经考虑过的。

他们如何开发一个是由于你说的很多，信息的呈现顺序，它似乎最适合的类别，等等。我们来到这里是因为非常轻微的不确定性。自愿的奴隶种族是我试图将它推向某种奇怪的东西然后如果你考虑一个强大的人工智能能够创造大量的智能实体，例如，重塑社会，人体和人类的思想巨大变革的方式，我们将进入一种非常奇怪的情况，我们所有的起始本能几乎都是无用的。我实际上在研究议程中的某个方面论证，这是一个论证，以确保我们不会偏离人类基线正常到我们的偏好没有明确界定的异国情况，因为在这些领域，

现在，我正在讨论的事物在我们的类别方面是非常遥远的，就像“星际迷航”世界从这个角度来看就是人类世界，因为即使他们拥有科幻技术，他们所阐述的所有概念和决定都是如此。围绕我们非常熟悉的概念，因为它现在是我们写给我们的一部小说。所以，当我说不要走得太远时，我并不是说没有拥抱一个巨大变革的未来。我说没有拥抱一个巨大变革的未来，我们的道德范畴开始崩溃。

卢卡斯：在我看来，有两种感官。在某种意义上，我们拥有这些模型用于事物，并且我们拥有所有这些必要且充分的条件，可以将某些东西与某种概念或事物进行模式匹配，并且我们可以遇到许多不同事物存在条件的情况。以一种新的方式包含在上下文中，这使得善良或正义之类的东西在奴隶制案例中未被定义，因为我们最初并不真正知道这件事情是好还是坏。在这个意义上，我认为这个定义不明确。另一种意义可能是我的大脑是许多神经元的神经结构聚合体的感觉，其发射统计和特定神经通路的总和可以被潜在地识别为包含在其中某处的偏好和模型。

斯图尔特：我不同意它在第二种意义上是未定义的。

卢卡斯：好的。

斯图尔特：为了解决第二个问题，你需要解决人类的符号接地问题。你需要证明符号或神经模式发射或神经元连接或大脑内部的东西对应于外界的某些概念。这是我的一个侧面研究项目之一。当我说侧面研究项目时，我的意思是我写了几篇博客文章，指出我如何处理它，并指出你可以用非常经验的方式做到这一点。如果你认为某种神经激发模式指的是一只兔子，你可以看出这种在大脑中射击的东西是否可以预测外面世界的兔子或预测这个人将很快开始谈论兔子。

在模型理论中，赋予符号意义的实际内容超出了数学理论的范围，但如果符号与外部世界之间存在潜在联系，则可以检查这个理论是好的还是可怕的。如果你说这对应于饥饿而且那个东西似乎只是在某人发生性行为时触发，例如，我们可以说，好吧，你的模型认为这与饥饿相对应是可怕的。这是不对的。我不能用它来预测这个人会在世界上吃东西，但我可以用它来预测他们正在做爱。因此，如果我将其建模为与性有关，那么这是该符号的更好基础。

当我说事情不明确时，我的意思是它们是根据世界上所有可能性中未定义的概念来表达的，而不是这些概念可能是任何东西，或者我们不知道它们的含义。我们的心理模型对应于某些东西这是过去经验的集合，我们大脑中的概念将我们所拥有的各种经验联系在一起。它们可能不是很清脆。它们可能没有明确的定义，即使你看到宇宙的整体，但它们对应于某些东西，对某些重复的经验，对我们已经拥有的一些思维过程的一些概念，以及我们从中提取了这个想法。当我们在实践中这样做的时候，我们将在其中注入一些自己的判断，因为人类在我们如何相互理解以及如何分解许多概念方面非常相似，我们这样做并不一定特别糟糕，但我强烈不同意这些是任意概念，这些概念将被手工制作。一旦你有一些标准来跟踪大脑中发生的事情，将它与外界和那些事物进行比较，它们将成为主要的识别对象。

我的概念，也许是电影不是一个客观明确的事实，但我认为是一部电影院，我在电影院里所期待的，以及我在电影院里没有想到的东西，比如我希望它会变暗，投影机和那样的事情。我不认为这将是在阳光下的撒哈拉沙漠中一个完全开放的空间，没有座位，没有声音也没有投射。我很清楚，这些东西中的一个比另一个更像电影院。

卢卡斯：你想在这里扩展一下这个合成过程吗？

斯图尔特：主要的想法是努力确保不会发生灾难，可能导致灾难的主要因素是某些偏好优先于其他偏好。还有其他的灾难途径，但这似乎是最明显的。合成过程的另一个重要部分是它必须达到一个结果，这意味着模糊的描述是不够的，所以这就是为什么它的表达方式是你综合首选项的默认方式。这种方式可以通过某些元偏好来修改。元偏好必须可以简化为某种不同的综合偏好的方式。

例如，合成并不特别超重长期偏好与短期偏好。它将优先考虑长期偏好，但不排除短期偏好。所以，我想要瘦，不一定要优先考虑我现在想要吃的那块美味的蛋糕，例如，人类的元偏好往往优先考虑长期偏好而不是短期偏好，所以这是将被包括在内，这将改变默认的长期偏好平衡。

卢卡斯：那么，为综合过程提供动力，我们如何从人身上提取部分偏好及其权重？

斯图尔特：正如我所说，这就是项目的第一部分，而且更具实证性。这将更多地关注神经科学所说的内容，甚至可能是算法理论所说的，或者算法的建模是什么，以及大脑中物理上发生了什么，以及它如何与内部心智模型相对应。可能会有人注意到他们正在思考的东西，将其与大脑的变化联系起来，这是一个更加经验的方面，可以基本上独立于合成产品进行。

卢卡斯：那么，更先进的神经科学在这里会有益吗？

斯图尔特：是的，但即使没有这个，也有可能通过人工智能间接推断其中的一些事情，如果人工智能很好地解决了不确定性，这不会导致灾难。如果它知道我们真的不喜欢失去对我们的价值观有重要意义的东西，即使它不完全确定什么是重要的东西，它自然会以这种动机，以谨慎的方式行事，试图保留任何东西。可能是有价值的，直到它在这个模型中更好地找出我们想要的东西。

卢卡斯：所以，在你的论文的第二部分，综合偏好效用函数，在本节中，你注意到这不是构建人类效用函数的唯一方法。那么，你能指导我们通过这个更理论化的部分，首先讨论什么样的效用函数以及为什么效用函数首先起作用？

斯图尔特：寻找效用函数的一个原因是寻找一些不会随时间变化的稳定的东西，并且有证据表明一致性要求会将任何形式的偏好函数推向效用函数，如果不这样做有实用功能，你就失去了价值。因此，将其置于效用函数中的愿望并非出于对效用函数本身的钦佩，而是我们希望获得不会进一步改变或不会进一步朝着我们无法控制的方向漂移的东西。不知道。另一个原因是，当我们开始更好地控制自己的偏好并拥有更好的操纵自己思想的能力时，我们将把自己推向效用函数，因为基本上没有毫无意义地失去价值的压力。

你可以在一些投资银行家身上看到这种情况，他们在很大程度上构建了他们自己的偏好，成为一个范围内预期的货币最大化者，看到但人类有能力将自己推向这一点是非常令人惊讶的，这就是反复接触不同的投资决策往往对你有所帮助，在最大化资金方面这是正确的做法，这是对人类的一般压力与人类自我修改能力相结合的事情，我们可能会在未来，所以这一切都将推动我们走向效用函数，所以我们也可以一路走下去直接获得效用函数，而不是被推入它。

卢卡斯：那么，这里的观点是，即使人类离效用函数很远，我们选择效用函数的原因在于，当在世俗场景中优化我们的选择时，它还在推动我们朝这个方向发展吗？

斯图尔特：在某种程度上我的意思是效用函数可以是任意复杂的，并且可以与任意复杂的行为一致。很多人在想到效用函数时，往往会想到简单的实用函数，而简单的实用函数显然是简化，不会捕获我们重视的所有东西，但复杂的实用函数可以捕获尽可能多的价值。往往会发生的事情是，当人们说出不一致的偏好时，他们会被推动使它们按照事物的呈现情况保持一致，就像你可以从巧克力慕斯开始，但如果提供樱桃馅饼的交易，去樱桃馅饼，然后如果提供枫叶馅的交易，去枫叶馅饼但是你不会回到巧克力，即使你这样做，

因此，我们决定何时没有效用函数往往取决于遇到事物的顺序和偶然的事情，正如我所说，非效用函数往往本质上不太稳定，因此可能会漂移。因此，出于所有这些原因，最好从一开始就确定效用函数，这样你就不会有进一步的漂移，而你的偏好不是由你遇到事物的顺序决定的。

卢卡斯：虽然这部分是一种规范的偏好，对吧？使用实用程序功能，以免被这样推。也许人们可以根据他们遇到事物的顺序来表达他们的偏好的元偏好。

斯图尔特：你可以拥有那种强烈的元偏好，是的，即使你可以通过实用函数捕获它，如果你想这样做的话。实用函数可以捕获几乎任何形式的首选项，甚至是那些看似荒谬不一致的首选项。所以，我们实际上并没有因为坚持它应该是一种效用函数而在理论上失去任何东西。在实用功能的构建中，我们可能在实践中失去了一些东西。我只是说，如果你没有与效用函数同构或者非常接近的东西，你的偏好会随意受到许多偶然因素的影响。您可能想要这样，在这种情况下，您应该明确地而不是隐式地将它放入，如果您明确地将它放入，它可以被一个以您看到的东西为条件的效用函数捕获，

卢卡斯：所以，综合的人工智能服务和其他类似工具的人工智能AI方法，我想避免一些具有效用函数的强大的年龄AI产生的焦虑。除了效用函数之外的代理中是否存在替代目标排序或动作生成方法，这些函数可能具有我们期望的实用函数的属性，或者是实用函数的类别是如此之大以至于它封装了数学上严格且简单的大部分内容？

斯图尔特：我不完全确定。替代目标结构往往是非常临时的，并且在我的实践经验中受到限制，而实用功能或奖励功能可能或可能不是同构的，似乎是普遍的。例如，如果您获得包含自己偏好的自引用效用函数，则实用程序函数本身可能存在不一致，但MIRI的工作应该希望澄清这些方面。我提出了另一种目标结构，它基本上是效用函数的等价类，在效用方面不等同，这可以成功地模拟一个代理人的偏好是由选择事物的顺序决定的，但我把它们放在一起作为玩具模型或思想实验。我永远不会认真地建议那样做。所以，目前似乎只是

这可能意味着我们可能失去实用功能的一些优雅属性的方式，我们通常假设像道义论可以通过实用函数捕获，该实用函数指定一个遵守所有规则而零违反其中任何一个，这是一个完全有效的效用函数，然而，在预期效用方面并没有多少。它的行为几乎与行为约束完全相同，从不选择任何违反规则的选项。即使技术上是一种效用函数，这种事情也可能不像我们习惯于在实践中使用效用函数那样。因此，当我说它应该被捕获为效用函数时，我的意思是它必须以这种方式定义，但非正式地，它可能没有我们非正式期望的效用函数的属性。

卢卡斯：很棒。这是你画的真实画面。你能讨论扩展和规范部分偏好吗？带我们完成关于合成效用函数的第二部分的其余部分。

斯图尔特：例如，扩展基本上就是你喜欢与朋友一起去电影院而不是去那个没有那个朋友的电影院。这是一个令人难以置信的狭隘偏好，但你也喜欢看电影一般，与朋友一般，所以这些事情应该尽可能多地结合在一起判断你喜欢看什么，你喜欢谁在什么情况下观看。这就是概括。扩展基本上是试图超越典型情况。所以，如果有一种虚拟现实，这真的让你感觉到其他人和你在一起，当前的虚拟现实并不倾向于，那么这就算与你的朋友在一起了。与您的朋友在一起计算需要什么级别的互动？嗯，这是一种延伸。

归一化基本上是这样一个事实，即效用函数被定义为缩放，直到乘以某个正实常数。因此，如果您想要将实用程序一起添加或以平滑最小值组合它们或以任何方式组合它们，您必须扩展不同的首选项，并且有各种方法来执行此操作。我没有找到一种本质上很好的方法，它具有你想要的所有漂亮的形式属性，但有各种各样的方法可以做，所有这些都是可以接受的。我目前使用的是平均最大标准化，即最佳可能结果获得1的效用，并且平均结果获得零效用。这是缩放。

那么这些偏好的重量就是你对它的强烈感受。你喜欢和这位朋友一起去看电影吗？你有巧克力的压倒性欲望吗？一旦它们正常化，你就称重它们，然后将它们组合起来。

卢卡斯：你能不能带我们完成第二部分的其余部分，如果这里还有其他你认为值得一提的东西？

斯图尔特：我想指出，这是为了与你指出过程的任何特定人类合作，所以我从非道德现实主义者做出了许多假设，担心过度简化和其他的东西。这个想法是，如果人们自己拥有强大的元偏好，那么这些将超过我所做的默认决定，但如果人们没有强烈的元偏好，那么它们就会以我认为的方式合成。最好不要失去任何重要的人类价值。还有关于什么会构成灾难的判断，或者我们如何判断这是一个灾难性的错误，这些是重要的，需要更多地充实，因为其中许多不能在这个系统中被完全捕获。

另一件事是结果可能会非常不同。选择一个愚蠢的例子，如果你是50％的总功利主义者而不是50％的平均功利主义者，或者如果你是45％，55％的任何一种方式，结果将会非常不同，因为对未来的压力会有所不同而且因为人工智能会有很大的力量，它会产生截然不同的结果，但从我们的角度来看，如果我们把50/50的总功利主义和平均功利主义放在一起，那么我们大多数时候都不是50/50 。我们有点......是的，他们差不多。因此，45,55不应该导致灾难，如果50/50没有。

所以，即使从这三种混音的角度来看，45 / 55,50 / 50,55 / 45，这三种混音会看一些优化其他两种混音中的一种，并说从我的角度来看非常糟糕，但是更人性化的观点，我们说所有这些都非常好。好吧，我们会说它们都不是很好，因为它们没有包含我们的许多其他偏好，但我们的想法是，当我们将所有偏好结合在一起时，如果它有点模糊，那就不重要了。因此，即使我们稍微改变一下，结果也会发生很大变化，结果的质量不应该发生很大变化，这与我在第三部分中提出的一个观点有关，即不确定性可能会改变结果很多，但又一次，

卢卡斯：那么，在这里进入第三部分，你能告诉我们在实践中人类效用函数的合成吗？

斯图尔特：所以，首先，有......好吧，让我们做这个项目，让我们完成它，但我们没有完美的人脑模型，我们没有基于所有的符号，我们将如何做伟大的不确定性。因此，有人认为，即使有不确定性，这种方法也比没有好，你应该期待它非常安全，即使有很大的不确定性也是如此。另一部分是我展示了如何用人类心理模型来思考如何帮助纠正和改进其他一些方法，比如显示的偏好，我们所陈述的偏好，或者将哲学家锁在盒子里一千年。所有方法都失败了，我们实际上有一个非常明确的想法，当它们失败时，显示偏好失败，因为我们没有很好地模拟有限理性，即使我们这样做，我们知道有时候我们的偏好与我们揭示的不同。例如，在有强烈动机不说实话的情况下，陈述的偏好会失败。

我们可以通过添加特殊情况的所有计数器示例来处理这些，或者我们可以添加计数器示例作为要学习的内容或我建议的是我们将它们添加为要学习的东西，同时说明原因这是一个反例，就是我们测量的东西和人类的内部模型之间存在分歧。我们的想法是，当您有错误理论而不仅仅是错误示例列表时，更容易概括。

卢卡斯：对，所以这里也有这样的观点，你认为这个研究议程和观点对于诸如可融合性和低影响力研究以及克里斯蒂亚诺的蒸馏和放大等事情也可能非常有用，你声称它们似乎都是方法这需要人工效用函数的一些简化版本。因此，您认为通过此研究议程产生的任何形式的概念见解或系统见解似乎都能够为其他研究议程做出重大贡献，而这些议程并未特别考虑到这一点。

斯图尔特：我觉得即使是可以融合的东西也可以从中受益，因为根据我的经验，诸如低收益率之类的东西必须在某种程度上定义什么是重要的，什么可以归类为不重要的。一个低影响人工智能不能与我们的偏好无关，它必须知道核战争是一个高影响的事情，无论我们是否喜欢它，而打开一个不会去任何地方的橙色光是一个低影响的事情，但是没有真正的内在措施，一个是高影响力，另一个是低影响力。他们俩都在宇宙中涟漪。所以，我认为我把它称为希特勒，甘地和Thanos都知道什么是低影响的AI，都知道什么是oracle AI，或者知道从中得到的行为。所以，这意味着我们需要获得一些人的偏好，

卢卡斯：所以，它适用于这些其他方法，它也是你的信念，我在这里引用你，你说，“我有10％的机会以这种方式可能，这意味着通过这个研究议程和95％的可能性，这些想法中的一些对于其他对齐方法非常有用。“所以，只需在此处添加，作为您将本研究议程中的见解应用于AI对齐的其他领域的技巧。

斯图尔特：从某种意义上说，你可以反过来考虑这个研究议程。想象一下，我们已经达到了一些不是一些积极结果的结果，我们已经达成一致，我们还没有通过一个技巧达到它，我们还没有通过工具AI或软件作为服务或那些达到它各种方法，我们达到了实际的一致性。因此，在我看来，我列出的所有问题或几乎所有问题都必须得到解决，因此，从某种意义上说，这个研究议程的大部分需要直接或间接地完成才能实现。任何形式的明智对齐。现在，这个术语直接或间接地在这里做了很多工作，但我觉得这很多都需要直接完成。

卢卡斯：是的，我认为这很有道理。对于我们对这个人的理解以及对齐中包含的更广泛的定义而言，这个人似乎很困惑并且很难理解我们在这里的含义。鉴于你在这里所说的这种乐观主义围绕着这个研究议程在将人类的偏好综合到效用函数中的适用性，你能说出这种方法的局限性吗？在这里注入任何悲观情绪？

斯图尔特：所以，我有一个第四部分，它被标记为我没有解决的问题。其中一些实际上有点狡猾，如关于如何结合不同人的偏好的部分，因为如果你阅读该部分，它基本上提出了结合不同人的偏好的方法。但我已经说过，我不想在这个研究议程的背景下讨论这个问题，因为我认为这只是偏离了这里的重要工作，而且有一些这些要点，但有些它们是真实的东西，我认为是问题，而最大的事实是，人类对自己的偏好有一种非正式的Godel声明。有多少人会接受计算机合成他们的偏好并说是，这是我的偏好，特别是当他们可以探索一下并找到反直觉位时？我希望人类一般拒绝AI指定的合成，无论它是什么，几乎只是因为它被合成然后给它们，我希望它们拒绝或想要改变它。

我们自然不愿意接受其他实体对我们自己道德的判断，这是大多数人所拥有的非常好的元偏好，我认为所有人都有某种程度的，我无法在系统内捕获它。从某种意义上说，它基本上是一个Godel声明。最好的合成过程是未使用的过程。另一件事是人们希望继续道德学习和道德改进，我试图将道德学习和更多改进分解成不同的东西，并表明即使你有一个完全合成的道德改良和道德学习的某些形式将继续效用函数，但我知道这并没有捕捉到人们所说的一切，我认为它甚至都没有捕捉到我所说的一切。所以，再次，

还有其他一些技术性更强的漏洞，比如无限的效用，价值的稳定性和其他一些东西，但从概念上讲，我最担心的是这两个方面，你会拒绝你分配的值事实上，你想要继续改进，我们如何定义持续改进，而不仅仅是你的价值可能随机漂移。

卢卡斯：你在这里有什么想法？随意扩展应用于人类的实际和理论上的困难，并将其汇总到单一的人类物种范围内的效用函数中。

斯图尔特：那么，实际困难基本上是政治，如何在不同群体之间达成协议。人们可能想要依靠他们的资产或他们的优势。其他人可能想要更强的平等。每个人都有广泛的原则来吸引。基本上，对于各个公用事业的不同权重，将会有很多争吵。希望有一个，特别是有强大的人工智能，优势可能足够高，即使收益不均衡，也更容易做一些事情，而不是谈论如何划分固定大小的馅饼。理论问题主要是我们如何处理反利他偏好。我不是在谈论自私的偏好，那些很容易处理。这只是对公用事业的竞争，对于资源来说，

在某种意义上，你应该从利他主义的偏好中剔除并将其置于人性中，并允许他们自己的个人偏好有一些额外的重量，但反利他的偏好是一个挑战，特别是因为它并不十分清楚边缘在哪里。现在，如果你想让某人受苦，这是一种反利他的偏好。如果你想赢得一场比赛，那么你对比赛的一部分享受就是其他人输了，这究竟就是谎言，这是一种非常自然的偏好。你可能会成为一个非常不同的人，如果你没有从其他人失去一些至少温和的享受或从地位提升有点棘手。你可能只是对它们进行调整以使温和的反利他偏好完全正常，所以如果你想让某人在国际象棋中失去你的出色战略，

另一个重要问题是人口伦理。我们如何处理新实体以及我们如何处理世界各地其他有意识或不太有意识的动物，那么谁将被视为全球效用函数的一部分？

卢卡斯：所以，我很想知道关于这个对齐故事的各个方面的问题，或者任何涉及大量泄漏抽象的对齐故事，比如Rich Sutton的短篇小说“苦涩的课程”，他讨论了计算机科学的痛苦教训是怎样的利用针对人类特定领域的聪明才智的计算对于培育非常强大的结果已经更加有效。我们似乎有这种趋势或偏袒试图灌输人类的智慧或知识或独特的技术或类型的技巧或特定领域的洞察力，以特定的方式构建算法和对齐过程，而可能只是扔了大量的计算的东西已经历史上更富有成效。对于漏洞抽象概念的关注，您对此有何回应，

斯图尔特：嗯，从某种意义上来说，这是研究项目的一部分，也是为什么我警告我不要在远方的话语中说出内容，内涵网络崩溃了，在你的措辞中，抽象变得过于漏洞，这也是部分为什么尽管第二部分完成就好像这是理论上的做法，我也认为应该有很多实验方面来测试它的发展方向，它出乎意料地错误或出乎意料的正确，第二部分，虽然它只是基本上是这个算法，但它应该进行测试和检查，以便看看它是如何进行的。对于The Bitter Lesson，我认为差异在于The Bitter Lesson，我们知道我们要做什么。

我们的目标是赢得比赛，是否成功分类图像，是否成功分类其他功能，我们有一些成功的标准。我手工制作的限制并不是试图融入人类的智慧或斯图尔特的智慧。其中有一些是尝试避免灾难，而且不能通过更多数据来避免灾难。你可以从数据中获得许多不同的点，我正试图去掉它们中的很多。例如，不要过度简化。所以，回到The Bitter Lesson，你可以说你可以调整你的正则化器，我所说的是有一个非常弱的正则化器，例如，这不是The Bitter Lesson适用的东西，因为在现实世界中，关于苦涩课程适用的问题，

因为你无法将它与你想要的东西进行比较，因为如果我们知道我们想要什么，我们就会解决它，我在这里说的是不要因为这些原因而放置一个强大的正则化器。数据无法告诉我，我需要一个更强大的正则化器，因为如果你想要的话，数据没有意见。没有理想的结果可供比较。可能存在一些问题，但问题是，如果我们的偏好看起来不像我的逻辑或者像我们的逻辑，这指向方法失败，而不是方法需要更多数据和更少限制。

卢卡斯：我的意思是我确信这个研究议程的一部分还在进一步澄清和改进所使用的分类和类别，这可能会被神经科学的进步所阐明。

斯图尔特：是的，有一个原因，这是0.9版本，还没有版本1.我得到了很多反馈，并在尝试将其作为版本1推出之前进行优化。它处于alpha或beta版本时刻。这是一个预发布议程。

卢卡斯：嗯，希望这个播客能引起更多关于这个研究议程的兴趣和知识，所以希望我们能够进一步为改善它做出贡献。

Stuart：当我说这是alpha或beta时，这并不意味着不批评它，批评它，特别是如果这些可以导致改进，但不要只是假设这完全是一成不变的。

卢卡斯：是的，因此，考虑到认知的谦逊和改变的意愿，这就构成了整个对话。那么，还有两个问题，然后我们将结束。那么，反思均衡，你说这不是一个哲学理想，你能否在这里扩展你对反思均衡的看法以及这个过程不是一个哲学理想？

斯图尔特：反射均衡基本上是你改进自己的偏好，使它们更加一致，将它们应用到你自己，直到你的元偏好和你的偏好都很平滑地相互对齐。我正在做的是一个更混乱的综合过程，我这样做是为了尽可能地保留人类的实际偏好。例如，通过具有完全平坦的偏好或非常简单的偏好，很容易达到反射平衡，这些倾向于非常反射地与其自身平衡，并且在我看来，推动这一事物是过度简单的过程。失去宝贵偏好的巨大风险。在我看来，失去宝贵偏好的风险比在简单或优雅方面获得的风险高得多。

事实上，你可以说这是一个反对自反均衡的论据，因为它意味着许多不同的起点，许多不同的头脑具有非常不同的偏好会导致类似的结果，这基本上意味着你丢掉了很多细节。你的输入数据。

卢卡斯：所以，我猜两件事，一件是这个过程澄清并改善了人的错误信念，但它没有反映出你或我可能称之为道德错误的东西，所以如果某些人是邪恶的，那么合成的人类效用功能会反映出邪恶。所以，我的第二个问题是，理想化过程对我来说非常诱人。是否有可能合成人工效用函数，然后在AI内部运行它，然后看看我们到底得到了什么，然后检查这是否是好事？

斯图尔特：是的，在实践中，这整个事情，如果有效的话，将是非常实验性的，我们将会检查结果，并且想要成为自己的理想化版本并没有错。我所拥有的，特别是如果它只是一个理想化的，它是你理想化版本的理想化版本理想化版本的理想化版本的版本，等等，你自己很有可能失去自己和输入那里。这就是我有一个理想化的过程，我开始想要更富有同情心，并在每一步将我的同情心传播到越来越多的东西，最终变得像人类一样珍惜昆虫，然后在下一步，重视岩石的价值作为人类，然后因为他们可以对山脉造成的伤害而移除人类，

你理想的自我非常接近自己。理想化，理想化的自我等三重理想化版本开始变得远离你的起点，这是我担心过于简单或试图以牺牲其他品质为代价达到反思均衡的那种领域。在这些地方，我担心这会推动。

卢卡斯：你能否更清楚地说明，在圣雄阿姆斯特朗变成一个完全负面的功利主义的理想化过程中，我们的观点是否失败？

斯图尔特：它甚至没有变成负面的功利主义者，它只是变成了一个重视岩石的人，因为他们重视人类，因此在功利主义的基础上消灭人类，以便保护岩石或保护昆虫，如果你想降低一个级别的信誉。这一点的重点在于，这是一个想要更富有同情心的人的结果，不断想要创造更多富有同情心的版本，他们仍然希望更富有同情心等等。它距离它开始的地方太远了。这是许多可能的叙述之一，但关键是抵制这种事情的唯一方法是将更高层次与起点联系起来。更好的事情可能会说我想成为自己认为好的东西，我理想化的自我认为是好的，理想化的是什么，理想化的自我会认为是好的等等。所以这种事情可以发挥作用，但只是理想化，而不是将其重新回到起点，同情心对第一个实体意味着什么，而不是它对第n个实体的意义是我在这里看到的问题。

卢卡斯：如果我考虑到我自己的所有可能版本并且恰好是其中之一，这似乎只是偏向于我现在碰巧的那个偏好的元偏好，对吧？

斯图尔特：我们必须决定采取什么样的偏好，我们现在也可以采取行动，因为如果我们尝试考虑到我们未来的偏好，我们就会开始采用我们偏好的可操作方面。这些可能实际上是任何事实。有一个未来的斯图尔特可能是纳粹，因为你可以施加一定的压力来改变我的偏好。我现在不想赞同他们的偏好。有未来的Stuarts是圣徒，我可能赞同他们的偏好。因此，如果我们决定我们接受哪种未来偏好，我们必须根据至少属于我们现在所拥有的标准和标准来决定。

如果我们有点说我希望对未来有合理的体验，定义合理的手段然后用我们合理的未来偏好平均我们当前的偏好，如果我们能够通过合理的定义我们的意思那么我们可以按照我们预期的未来自我，是的，我们可以做到这一点。这是我们唯一的做事方式，如果我们这样做，它很可能是非灾难性的。如果以我们目前的偏好进行综合过程是非灾难性的，那么以我们未来合理偏好的平均值来做这件事也将是非灾难性的。这是您可以选择加入流程的选择之一。

卢卡斯：是的，所以我们在这里可以注意到，我们会对合成过程本身有很多元偏好。

斯图尔特：是的，你可以把它作为一个元偏好，或者你可以明确地把它放在过程中，如果这是你喜欢的方式。整个过程的设计都是围绕这个过程得到答案，所以，是的，我们可以做到这一点，让我们看看我们是否可以在短时间内为一个人做这件事然后我们可以谈谈我们如何采取考虑到这样的考虑，包括我说的，这可能在元偏好本身。这基本上是道德学习的另一个版本。我们的价值观有所改变，但我们的价值观随意转移，我们没有意义。我们真的不希望我们的价值观完全摆脱我们现在所拥有的，尽管有些方面我们对它们的改变更加正常。这是复杂的一部分，你如何做道德学习。

卢卡斯：好吧，美丽，斯图尔特。考虑所有这一切真的非常吸引人，我只想一般来说，人类有更多的思考和自我反思，以使这个过程真正正确，我认为这个对话真的有助于阐明这一点对我和所有在我的部分和有时是错误的心理模型的背景下，我的矛盾的偏好和我的群众，反映在那也让我感觉可能稍微去个性化和有点本体论空洞但它是美丽和迷人的。你有什么想在AI调整社区明确这个研究议程吗？你想说的最后几句话还是要澄清一下？

斯图尔特：有些人不同意这个研究议程，其中一些非常强烈，其中一些人有其他方法。我喜欢他们正在研究其他替代品的事实。如果他们不同意议程并希望参与其中，那么我能看到的最好的参与是指出为什么议程的一部分是不必要的或者替代解决方案如何起作用。你也可以指出，也许不可能这样做，这也是有用的，但如果你认为你有解决方案或解决方案的草图，那么指出你解决的议程的哪些部分将是一个非常有价值的运动

卢卡斯：在参与方面，您更喜欢人们在AI Alignment论坛或Lesswrong上撰写回复

斯图尔特：给我发电子邮件也很好。我最终会回答每一封非疯狂的电子邮件。

卢卡斯：好的，太好了。我非常感谢你在这个研究议程上所做的所有工作，以及你所有的写作和思考。你正在用人工智能帮助创造美好的未来，你会非常感激。

如果您喜欢这个播客，请订阅，给它一个，或在您偏好的社交媒体平台上分享。我们将很快再次回归AI Alignment系列中的另一集。

AI Alignment播客：与Stuart Armstrong合成人类的偏好为实用功能

评论专区

搜索

作者介绍

30天热门

热评文章

最近发表

标签列表

AI Alignment播客：与Stuart Armstrong合成人类的偏好为实用功能

评论专区

相关文章

搜索

作者介绍

30天热门

热评文章

最近发表

标签列表