文摘

在可替换主体系统,社会困境常常出现每当有竞争有限的资源。的主要挑战是建立智能虚拟代理合作解决社会难题的情况下。在人类中,人格和情绪的主要因素是带领他们走向一个合作的环境。让代理合作,他们必须变得更像人类,也就是说,可信。因此,我们假设情绪根据人格生可信度,如果可信度引入代理通过情绪,提高其存活率在社会两难的情况。现有的研究介绍了不同计算模型引入情感在虚拟代理,但是他们缺乏情感通过神经递质。我们已经提出了一个neurotransmitters-based深q学习的计算模型可替换主体情感建模和一个合适的选择,因此,可信度。该模型控制代理的情绪通过控制虚拟神经递质(多巴胺和催产素)根据代理的个性。代理的性格介绍使用海洋模型。评估拟议的系统中,我们模拟一个生存场景有限的食物资源在不同的实验。 These experiments vary the number of selfish agents (higher neuroticism personality trait) and the selfless agents (higher agreeableness personality trait). Experimental results show that by adding the selfless agents in the scenario, the agents develop cooperation, and their collective survival time increases. Thus, to resolve the social dilemma problems in virtual agents, we can make agents believable through the proposed neurotransmitter-based emotional model. This proposed work may help in developing nonplayer characters (NPCs) in games.

1。介绍

人工智能领域的代理正在使用机器人(1)、游戏(2)、娱乐(3)、教育(4)、医疗(5)、客户服务(6),和许多更多。多重代理系统(MAS)是一组自治代理交互在相同的环境中实现一个共同的目标(7]。在这些可替换主体系统(质量)、社会困境的情况经常出现。剃须刀(8)定义,社会困境意味着从一组个人,社会,或文化竞争使用有限的公共产品(9)之间共享它们。社会困境的案例发生在许多计算问题,如在竞争结构在p2p文件共享系统(10),在模拟有限的食物资源,他们的高消费生存场景(11)、共同所有节点之间共享介质在电信系统带宽分配(12]。

解决社会难题的能力问题整个社区的长期好处。例如,在哈丁的“公地悲剧”(13),社会在生存困境的情况下,一个社区中共享一个共同的牧场,牧民放牧绵羊。如果每个牧民都有少量的羊,草的牧场提供足够所有牧民的动物,这是有利于社区从长远来看。然而,如果每个牧民为他的利益,增加他的羊的数量很快就稀缺的牧场的草地上。文献表明,合作是必要的人们解决社会困境中14- - - - - -16]。因此,解决社会难题玩家虚拟代理,这些代理必须有可信度之间的合作和协调发展,从而他们(17]。

可信度的总体想法在现实和虚拟代理人形角色在虚拟世界中。Bogdanovych et al。18)定义一个可信的虚拟代理是一个自治代理的行为,个性,不同的情绪状态,内部目标和信念。这个定义解释说,性格,情感,动机,和社会关系的主要特点是可信的代理。它表明,智能代理可以有效地处理社会两难问题当配备一个善解人意的性格通过积极情绪,内部动机和能力改变他们的决定后,观察环境和其他代理的需求。

在文献中,可信度一直探索最初虚拟代理,但只局限于他们的视觉外观19]。这些作品集中在面部表情(20.,运动控制21,头发22),和衣服23)仿真的虚拟代理。之后,许多研究人员认为,只有代理商的物理性质是不足以引入可信度,可引入了代理原理使面向目标的决策(10]。因此,重点是转向理性行为者模型效用最大化的发展(24]。

rational代理不适应复杂的环境,因为他们往往以自我为中心的决策(25]。因此,这些代理必须装备的情绪,因为情绪可以影响他们的目标(26),进而改变他们的行为,从而发挥决策能力的重要组成部分。神经学的研究表明,情感思维决策有重大贡献的过程(27]。因此,情感必须是包含在rational活性模型创建可信的人工智能代理(25]。文献也表明,与用户相关的元素,如人格(28,29日和心情30.),也会影响情感的处理机制。因此,还需要模型的影响人格的情感处理机制创建可信虚拟代理。

在过去的十年中,出现了一个巨大的进步在情感计算通过引入各种情感模型(31日- - - - - -39虚拟代理,但这些模型在社会困境失败场景。在我们看来,没有人工智能代理之间的合作,所有代理的生存作为一个社区,是不可能的。然而,简单的基于规则的情绪是不够的可替换主体同时考虑社区的集体生存38]。人类的神经传递素的化学物质控制情绪。开发智能代理的虚拟神经递质可以调节情绪,帮助提高代理人的决策能力。我们认为neurotransmitter-based情感建模在智能代理可以介绍可替换主体之间的合作和协调,提供社区的集体生存在一个虚拟的世界。更具体地说,本文地址以下研究问题。(我)情感引入可信度如何在虚拟代理吗?(2)情绪增加代理之间的合作怎么样?(3)并通过控制和调节情绪的引入虚拟神经递质提高决策能力的代理?

本文的主要贡献是neurotransmitter-based深q学习的情感建模模型在虚拟代理。根据海洋模型,建立了无私的和自私的性格在虚拟代理通过宜人性和神经质人格特质。可信度基于情绪调节通过多巴胺和催产素专门介绍了代理的个性。社会困境的解决方案可替换主体在生存场景中,合作是建立在代理使用提出neurotransmitter-based深q学习模型。

我们已经测试了该模型通过仿真执行在一个网格的世界环境在Unity3D开发平台。实验是由不同数量的无私和自私的代理,和代理学会保持他们的神经递质在所需的范围内根据他们的个性。代理执行特定操作以获得最大的回报,最适合他们的个性。当我们增加无私的代理高宜人性人格特质,他们开始与他人合作通过调节他们的积极情绪的神经递质根据他们的个性,从而提高员工的社会困境。

剩下的论文结构如下。部分2提供了一个详细的文献调查之前的工作在这一领域。部分3提出建议的解决方案讨论模型的建筑理念和情感代理的工作环境。部分4描述了实验的评估建议的解决方案。部分56由结果和讨论。部分7总结了纸。

2.1。的历史情感模型可信的代理

基于感性可信虚拟代理领域的繁荣后,贝茨的研究工作(40和他的学生41]。他们建造了情感代理Oz项目配备反应能力和记忆。此外,他们还与社会关系和情感模型引入基于Ortony,丁香,柯林斯(OCC)情绪理论42]。这项研究只关注从艺术的视角(即代理。外貌)。可信代理的内部和外部的影响没有考虑其情绪和行为动机。斯洛曼[43)试图把软化的缺陷模型通过引入“广义”情感模型。他提出了一个基于设计方法来开发智能和激励代理人。同时进行进一步的研究开发一种更灵活的自治代理架构,斯洛曼发明了一种工具包名叫SIM_AGENT [44为代理发展)。许多互动机制的代理,处理不同的动机,根据情况选择动机,然后作用于它,包含在工具包。

模拟的狗和其他动物,一个自治代理架构提出了布伦伯格(45]。创建代理的行为作为独立的对象,和一个特定的行为是通过切换代理的目标。因此,代理将在一个情绪状态,但这种架构未能解决埃克曼的复杂、令人信服的、全面的行为模型(46]。

全神贯注是产生情感的情感计算模型及其控制代理人的行为提出的委拉斯开兹et al。47]。虽然,这个模型集成的认知和非认知素质的倡导者的情感,它没有考虑个性的情感变化的影响。然而,这种模式打开新的和多才多艺的路径实现情感的代理。

Loyall [48)认识到人格和情绪都是必要建立可信的代理。他建议广泛的计算引入情绪也必须是可信的。El-Nasr et al。49]提出PETEEI与发展情商(pet)。该体系结构通过强化学习模型的宠物狗的行为。这个模型提供了代理的反馈机制,允许代理适应其行为在借鉴其经验。

同样,El-Nasr et al。34]给出了模型火焰(模糊逻辑自适应模型的情感)。这个模型也是基于Ortony,丁香,柯林斯(OCC)理论的情感。归纳学习系统是用于事件中发现隐藏的模式和对象之间的关系。情感评价的基础上创建事件根据模糊规则。这个模型是一个重要一步决定情绪如何改变代理人的行为。PETEEI和火焰是为虚拟宠物;因此,人格没有包含在这些模型。

此外,为了提高军事仿真,可信度自主虚拟人代理也被探索。为此,西尔弗曼et al。50)编制的人类行为模型(hbm) /性能主持人函数(及),过滤成百上千的人类行为模型有助于实现可信虚拟人的行为模型。

西尔弗曼et al。51)和西尔弗曼,约翰,et al。52)提出了一个模型,侧重于认知的影响,压力,知觉,情感上和社会进程和虚拟决策代理。此外,他们还探索各种方法实现游戏引擎中现有的行为模型。

最近,杨et al。53]扩展西尔弗曼提出的模型等。51)和西尔弗曼,约翰,et al。52通过引入社会学习组件。这种扩展的模型促进学习代理之间的关系。因此,虚拟代理的决策能力提高了使用这些信息。以同样的方式,你和Katchabaw [54)提出了一个模型,集成了不同的心理社会模式。

2.2。通过强化学习引入合作和情感

Diallo et al。55)提出,深入强化学习算法可用于两个代理之间的合作来实现一个特定的任务。完全可观测的乒乓球场景测试不同深度合作强化学习算法的两个代理玩硬编码的球员。结果表明,深Q-network双q学习给最好的结果乒乓球场景由两个代理的总回报最大化。合作在一定程度上实现了,但没有代理之间的通信。

Broekens et al。56)提出了一个情感模型,欢乐,痛苦,希望和恐惧使用强化学习一个代理在迷宫场景中。他们绘制了RL原语这四种情绪。恐惧和希望的值映射到美国,而快乐和痛苦都映射到误差函数。他们推测,学习适应性行为,代理必须从环境中复杂的情感反馈。实验是在JAVA中迷宫场景模拟。结果表明,情感的功能是有用的适应性行为的代理。

Sequeira et al。57)提出了一个内在动机的强化学习框架,克服代理的知觉限制通过隐式编码信息。奖励功能进化通过遗传编程的适应度函数,并采用最适合功能最大化回报。许多实验都做在世界电网觅食环境和吃豆子的场景。结果表明,情感评价信号提高了代理的决策能力。

2.3。引入合作处理代理的社会困境

引入可替换主体之间的合作行为一直是一个主题感兴趣的研究人员为解决社会难题。研究人员调查了引入两个代理之间的情感建立合作在社会两难情景(11,58,59]。

Yu et al。58)提出了一种双层框架与情感可替换主体强化学习,为代理商提供了情感与认知能力产生合作。内在报酬是用来学习的内层框架,其中一个情绪成为主导因素的情感流程代理。外层的框架,紧急情感作为偏见强化信号学习相关的认知和行为变化。实验结果表明,代理的异构性问题和不同的网络拓扑也有一个值得注意的对代理的学习行为的影响。

黄等。59)建模的动态网络权重进化与游戏建模的策略合作的影响。假设是不同的代理感知社会困境的难题是不同的。测试在两个空间进行游戏(的囚徒困境和雪堆博弈)。结果显示,对于游戏里的一个小缺陷的诱惑,网络演化强度高需要合作。亦然也是正确的。

Leibo et al。11]介绍了连续的社会困境分析的动态代理的学习策略使用Q-network深处。以前,在矩阵游戏像囚徒困境选择缺陷或被当作一个合作行动。然而,在现实的社会困境,合作后可以学到整个政策制定。为此,作者在两场测试他们的假设(水果收集和狼群狩猎游戏)。实验结果表明,合作政策容易学fruit-gathering比狼群狩猎游戏。在狼群狩猎游戏,学习需要大量的协调合作的政策。在这个研究中,人格和情绪的代理没有考虑。

研究矩阵比较相关的工作表1,我们分类现有工作的基础上,强化学习,MAS的社会困境,用情感的社会困境,可替换主体的合作。

3所示。提出的方法

3.1。建筑哲学

建议的解决方案是基于哲学如图1

在人类大脑中神经递质被称为化学信使。不同级别的这些化学物质控制情绪。然而,情感表达取决于特定的人类性格。同样,通过不同代理的虚拟神经递质水平,特定的情绪可以获得根据代理商的个性。这些personality-specific情绪将导致可信度在虚拟代理,这是必要的和有限的资源解决社会难题。

3.2。代理的工作环境

模型的架构图(图2)是受Barto et al。29日)的概念,在强化学习外在和内在动机的特工。

根据架构图(图2),情感代理可以观察环境。收到环境的知识后,代理执行特定操作的环境和它的状态改变。执行这些操作,代理接收到一些奖励根据外在和内在动机基于代理的状态。计算累积奖励结合奖励基于外在和内在动机。这种累积奖励也送入代理的大脑,以及环境的状态。大脑处理这些信息,并决定最好的代理采取行动的环境。这个过程继续下去,和代理试图最大化其奖励表现最好的操作环境。

3.3。情感上的代理
3.3.1。情感上的代理

环境是一个完全可观测的网格组成的世界某些虚拟代理与不同个性和水库收集食物。关于环境的信息传递给大脑的代理状态空间的形式。状态方程包括所有食品水库的位置,可用食品在这些水库,活着的总数代理环境中,这些代理的位置,食物,所有这些代理,和在环境中时间的流逝。代理的内部信息,其食品级别和水平的神经递质,也状态空间的一部分。

3.3.2。代理行为

每个代理允许某些特定的行为,它可以执行环境中。的行动上,下,左,它可以移动环境中或在其位置不行动。它还可以吃的食物水库和分享食物与其他代理。简而言之,一个代理可以执行任何一个总数的7操作动作列表中可用。动作列表是{没有行动,上,下,左,右,吃饭,和分享}。

3.3.3。基于外在激励奖励机制

在强化学习,有两种类型的奖励。(我)基于外在激励的奖励(2)基于内在动机的奖励

心理学家区分外在和内在动机。外在动机的定义是基于一些特定推动我们去做一个任务奖励的结果。而内在动机驱使我们去做一份工作,因为它本质上是愉快的。简而言之,行为由外部奖励是外在动机,而内部的奖励是内在动机的行为驱动。外在动机出现后观察奖励在环境。人类出现的内在动机的人的性格(60)和神经网络和多巴胺能系统存在于人的大脑61年]。因此,内在动机的代理,有必要引入虚拟人格和情感通过控制神经递质或大脑化学物质的代理。

3.3.4。基于内在动机的奖励机制

内在动机的代理驱动理论的启发,船体在心理学62年- - - - - -64年]。代理的具体人格有一些特定的情感。这些情绪是通过平衡和控制神经递质。这种平衡的神经递质驱动器代理执行特定操作相关代理的个性。

3.3.5。个性

人格的代理是基于海洋模式(图3),也被称为大五模型(FFM)由罗伯特McCrae和保罗·科斯塔(65年]。海洋模型由五大人格特质:开放性、责任感、外向性、宜人性和神经质。

开放是一个广泛的多样性的经验,实现特殊想法,和好奇心。开放的经验,人们愿意寻求和争取新的东西,好奇的智力。

责任心是一个人孝顺的可能性,自律,和面向目标的所有措施。它可以与人们如何直接相关,调节和控制他们的刺激反应。

外向性与外向,勇于实践,并热情的人们互动和与外部和外部世界。和蔼可亲的个性品质是标有善良,善解人意,有帮助,值得信赖,自然大方。社会和平、和善的人有一个重要的问题,他们有一个乐观的观点的人。无私的人属于这一类。神经质是标志与人有负面情绪,如抑郁、愤怒和焦虑。普通情况下,小挫折威胁和无望的棘手。这种特质的发生很可能使人自私。

3.3.6。提出的人格模型

研究表明,人们有一个高水平的神经质和和蔼可亲的低水平通常是自私和以自我为中心66年]。然而,人们有一个高水平的宜人性和低水平的神经质一般的无私和善解人意67年]。作为本文的社会困境的情况,只有那些最有可能的个性需要代理自私还是无私。因此,宜人性和神经质的人格情感被认为是来自海洋模型代理。这些性格特征值保持在[0,1]的范围。

3.3.7。神经递质

边缘系统(所涉及的情感上的化学物质61年)是用来确定代理的情绪。最基本的四种情绪的化学物质(图4)多巴胺、血清素、催产素和内啡肽(68年]。

神经递质,动机和奖励化学物质多巴胺有关。它被释放的一小部分大脑,大脑的下丘脑,位于基地。驱动、集中、记忆和注意力与这种化学物质有关。

5 -羟色胺神经递质被称为快乐激素。提升和放松心情是通过正确的部分在体内的5 -羟色胺水平。下丘脑也会产生亲密感的激素称为催产素。社会行为和情感的平静和满足与此相关的神经递质。在痛苦、压力和恐惧,内啡肽释放的神经递质。这些让我们应付疼痛。

在他的书中(69年多巴胺和内啡肽),西蒙Sinek归类为自私的化学物质,而催产素和5 -羟色胺是无私的化学物质。在虚拟代理社会困境的情况下,从每个类别是多巴胺和催产素。维护神经递质在[0,10],与0和10的最低水平的最高水平。本文表明,高水平的虚拟催产素产生了爱的情感,同情心和无私。低水平的催产素产生自私的情感。多巴胺是化学的动机和目标的成就。

3.3.8。神经递质代理人行动的映射

正如前面提到的,代理可以执行任何操作动作列表中可用一次一步。在做这些动作,代理中的神经递质水平的变化。例如,如果代理是饿了,需要那些运动行为将减少对储层的距离,增加的多巴胺水平。这种程度的增加取决于代理之间的距离和水库的食物。多巴胺水平增加迅速,如果特定的行动使代理靠近热源。但这个级别降低如果一些行动让代理远离食物水库。因为运动期间,代理不互动和分享食物与其他代理商;因此,催产素的水平下降。当代理执行吃行动,多巴胺水平增加更迅速,因为它已实现了目标,但催产素水平保持不变。当代理执行共享行动,多巴胺和催产素水平增加。 It is because the agent is performing a selfless action.

3.3.9。外在动机

每个代理都有某些食物,和代理死了如果食物水平达到0。因为这项研究的目标是代理的集体生存;因此,外在激励代理人的每个代理的活力。因此,外在动机驱使代理采取行动的所有虚拟代理的生存。

3.3.10。奖励计算

根据价值的宜人性和神经质,代理可以有不同百分比的无私和自私的性格如表所示2。在这个模型中,无私的代理有0.8%的宜人性和神经质的0.2%。自私的代理亦然是正确的。

正如已经解释说,高水平的虚拟多巴胺和催产素产生了爱的情感,同情心和无私代理。低水平的催产素产生自私的情感。代理的情绪状态是下面两个函数下面所示: 下标SL代表无私和科幻小说代表了自私。胡志明市是符号函数,abs是绝对的函数。 只返回true时,神经递质达到特定水平,也就是说,多巴胺> 4和催产素> 5。 返回true只有当多巴胺> 2和催产素< 4。

奖励基于内在动机 给出如下:

这个奖励函数给出了一个更积极的奖励0.8无私和自私的代理如果他们满足他们的自然调节神经传递素的水平。

基于外在激励的奖励 任何代理死了,给出如下:

折现系数设置为0.1,这确保了奖励的范围内保持(−1,0)。这种动态奖励函数确保给更大的负奖励如果一个代理期间死亡事件和少负奖励如果代理附近死亡这一事件的结束。 给每个代理如果一个代理激励代理人集体生存死亡。以下方程给出了总累计奖励。

3.3.11。情感大脑

深Q-network (DQN),这是一个很深的强化学习方法(DRL) (70年),是用于开发每一个情感代理的大脑,因为它是一个持续的问题,没有终端状态(71年]。在离散时间与环境交互的步骤 ,情感DRL代理学习不同的政策。环境状态空间用 它包含所有可用的信息组成的内部和外部信息的代理和食物水库的位置。行动空间 一个代理可以执行由可能的行动,也就是说, R代表了奖励。在每一个时间步 ,代理观察的每一个州 并选择一个行动 作为回报,代理得到的奖励 和移动到一个新的国家 代理的目标是最大化回报通过寻找最优政策 ,即观察状态的映射和所采取的行动在这些州的代理。

为了解决DRL的任务如前所述,使用q学习的。Q-function的选择,政府行动的质量 ,对于q学习技术的成功是至关重要的。深Q-network (DQN)使用深层神经网络(款)学习Q-functions通过迭代更新基于经验。神经网络具有一个输入层,三个隐藏层和一个输出层用于近似动作值 ,在哪里 代表了神经网络的学习参数。

网络的输入环境的代理的状态包含食品水库的位置信息和其他代理,食品级别的代理,其神经递质水平,当前的仿真时间。输出的近似核反应能量是所有可能的行动,代理可以如图5。给出方程计算q值如下: 在哪里 是代理的直接奖励会选择最好的行动,让下一个状态的最大核反应能量由吗 是折扣的因素。时间差异(TD)的算法(72年]。它使代理更新其知识在每一个步伐 给出的公式如下:

用方程(6在方程()5)以下方程:

DQN是最小化均方误差的时间不同,如上所示。 代表了学习速率。

4所示。实验

本节解释了实验的基础上,提出neurotransmitter-based深q学习的计算模型。模拟环境包括四个食品水库和两种类型的代理。(我)无私的代理(2)自私的代理

网格世界环境是Unity3D开发平台的嘲骂大小10×10。食物水库和代理放置随机环境中。每集运行9分钟,完成一集后,环境重置。环境也重置当所有的代理之前死亡这一事件的时间耗尽。每个实验都是训练有素的100集。DQN大脑,在python实现,用于培训的特工。两个实验完成改变数量的无私和自私的代理和代理的检查对生存时间的影响。

4.1。食物水库

每个食物水库初始化可用级别(表43),它小于总所有代理生存所需的食物。它确保社会困境的情况出现博弈理论中所描绘的一样(73年]。自私和无私的代理都可以消耗食物从水库。它是如果代理和一个特定的水库之间的距离小于1,吃和代理执行行动。否则,行动吃没有效果。

每当代理从水库需要食物,食物的代理级别增加,而水库存储是降低了。每一分钟后,每个水库的食物是再生,可用的食物是增加了0.5。一旦食品级别小于1在一个水库,它不会提供食物的任何代理。

4.2。无私的和自私的代理

代理初始化与食物的五个水平。下面是七个无私的行动和自私的代理可以执行{没有行动,上,下,左,右,分享,和吃}。每一分钟后,食品的代理被1递减。如果食物的任何代理小于3,它是推动在一个FIFO(先进先出)需要代理的队列。这些食品的代理级别小于3,从其他代理,他们需要食物。无私与自私代理食品转移到第一个需要代理在队列中只有其食品大于3,根据马斯洛的需求层次理论描述(41]。当代理执行共享行动,其食品级别被0.5递减,和食品的代理(代理已经与之共享)增加了0.5。代理死了如果食物水平降低为0。

4.3。DQN大脑

神经网络的学习速率用于培训的代理设置为0.0001。环境状态传递给网络批32。输入层节点的数目是67。第一,第二,第三个隐藏层包含128,128,和64个节点,分别。在输出层节点的数目是7。每个代理的内存大小,记得以前的状态和相应的行动在这些州是100000。折现系数的值 是0.9。

4.4。实验1

第一个实验(图6)进行了八个虚拟代理。都是初始化一个自私的个性有宜人性和神经质价值0.2和0.8,分别。

4.5。实验2

第二个实验(图7)也进行了有八个虚拟代理。八个代理,三个特工被初始化一个自私的个性随和性和不稳定性值0.2和0.8,分别与第一个实验相同。剩下的五个代理初始化与无私的人格在宜人性和神经质0.8和0.2,分别。

5。结果

4显示代理共同作为一个社区的生存时间的实验。

数据89显示吃和分享行为由所有自私的代理在实验1。的x设在显示了没有。集,而y设在显示了执行的操作的数量在一个特定的事件。

数据1011显示吃和分享行为由所有无私的和自私的特工在实验2。的x设在显示了没有。集,而y设在显示了执行的操作的数量在一个特定的事件。

数据1213显示了吃和分享的行为由一个自私和无私的代理在第53集实验2。的x设在显示的时间间隔,以秒为单位的具体行动。然而,y设在和z设在显示多巴胺和催产素的水平,在特定的时间分别是执行特定的操作。

6。讨论

第一个研究问题在虚拟代理地址可信度的概念。可信度在虚拟代理是基于代理的个性和情感。此外,有五种人格特质,根据海洋模型。从这五个特点,宜人性和神经质是最适合社会困境的情况下在虚拟代理。这两个性格特征使代理自私和无私的从而导致可信度在虚拟代理。此外,情绪的规定根据人格取决于神经递质。多巴胺和催产素的化学物质,被归类为自私和无私的。在这项工作中,我们介绍两种化学物质引入情感和,随后,可信度。

我们进行了两个实验来评估是否该方法引入了可信度和如何有效的解决社会两难问题。在第一个实验中,所有八个代理是自私的,然而,在第二个实验中,五个特工被无私的,三人自私。代理有七个动作{没有行动,上,下,左,右,吃饭,和分享}。在执行任何操作,他们的化学物质的变化。从数据很明显89第一个实验和数据1011的第二个实验中,自私的代理执行更多的吃的行动和更少的分享行为保持高和催产素水平的多巴胺水平低(数字1213)。然而,无私的代理执行更多的分享行为来保持他们的催产素水平高(图13)。代理选择这些行为,维护他们的神经递质在所需的范围内根据他们的个性。因此,得出的结论是,我们可以引入可信度在虚拟代理通过神经递质调节情绪根据代理商的人格与强化学习技术。

第二个研究问题调查的影响情绪之间的合作代理。与有限的资源社会困境的情况下,形势恶化如果人们自私的行为。当人们把利益放到一边,无私地合作,情况变得相对有利。因此,我们相信,如果我们引入代理与善解人意和无私的人格在虚拟社会两难情况,代理之间的合作可以增加。我们也测量的总时间(表所有的代理都活着4),而食物资源保持相同的实验。在实验1中,自私的个体为自己和与他人共享较少的食物吃的食物。因此,他们只能集体生存6分钟,10秒钟(表4)。然而,在实验2中,无私的代理从水库吃食物和与穷人分享食品代理。因此,生存时间增加到7分55秒(表4)。实验2中所有代理存活1分钟和45秒超过八个自私的特工在实验1中相同的食物资源。

因此,它证明了,当我们增加无私的代理高宜人性人格特质,他们开始与他人合作通过调节他们的积极情绪的神经递质根据他们的个性。因此,社会困境的情况有所改善。

第三个研究问题的措施的影响情感上通过控制虚拟神经递质代理的决策能力。强化学习是一个不断学习的过程中,问题是建模为马尔可夫决策过程(MDP)。在我们基于强化学习方法,代理人利用其经验(在过去的行动)在未来改善决策。代理随着时间的推移发现行为给的最大奖励利用和探索。因此,代理开始采取行动q值是谁大。在我们实验报酬最大化,自私的个体学习不要分享食品而无私的代理学会分享食物需要的代理(谁都无法吃水库由于有限的食物)作为训练集。因此,通过强化学习,代理学会保持他们的神经递质在所需的范围内根据他们的个性。因此,代理人被执行的特定操作实现的最大回报,最适合他们的个性而不被明确告知。这表明代理的决策能力是提高强化学习。

在实验中,我们测量的总时间(表所有的代理都活着4),而食物资源保持相同的实验。在实验1中,自私的代理给自己吃了一些食物,如图8。吃的数量被自私的特工行动执行集体更大(图8比分享行为的数量(图)9)。由于有限的食物可以在水库、代理能够集体生存只6分10秒(表4100集的训练后)。6分钟,10秒钟后,第一个代理死于环境。然而,在实验2中,无私的代理从水库如图吃食物10。吃完食物,无私的代理商也与穷人分享食物。很明显,分享行为的数量在实验2(图11)大于实验1中执行的操作(图9)。生存时间增加到7分55秒(表4在这种情况下)。实验2中所有代理都能生存1分钟和45秒超过八个自私的特工在实验1中相同的食物资源。事实证明,当我们增加无私的代理商的数量高宜人性人格特质,他们开始执行更与他人分享行为从而合作代理。这是因为,无私的特工试图最大化回报通过调节他们的积极情绪的神经递质根据他们的个性。作为回报,社会困境的情况有所改善。

因此,我们假设我们可以介绍情绪的控制和调节虚拟神经递质在代理通过强化学习技术来增强决策能力的代理根据他们的个性。两个实验进行了不同数量的无私与自私的个体评估解决方案。两种类型的代理试图最大化回报函数通过核反应能量最高的执行操作(8)。自私的特工,多巴胺水平大于2和催产素水平低于4获得最大的回报。根据(8),核反应能量吃行动主要是大于分享行动。因此,自私的代理执行更多的吃的行为(图的多巴胺水平增加12)。

此外,他们避免分享食物,导致有一个小的值(图的催产素水平13)。类似于自私的特工,无私的代理人在第二个实验中也试图最大化回报函数。但对无私的代理人,最大的多巴胺奖励要求更高,也就是说,大于4和更高的催产素水平,即大于5。无私的特工试图保持他们的多巴胺和催产素水平高,消费的食物,然后分享它与贫困的代理。在每一集,操作的核反应能量吃更大的第一3分钟;因此,自私和无私的特工从水库(图消耗食物12)。3分钟后,核反应能量无私的行动分享更大的代理商(图13)。代理可以分享食物只有当他们水平大于3。最大化回报,无私的代理共享食物需要的代理(不能吃从水库由于有限的食物)。

因此,代理学会保持他们的神经递质在所需的范围内通过强化学习根据他们的个性。因此,实现最大的奖励执行特定的操作,最适合他们的个性。因此,他们的决策能力是改善。

7所示。结论

在虚拟代理来解决社会困境的情况,我们提出了一个neurotransmitter-based深q学习的情感建模模型代理。代理维护他们的神经递质水平,执行特定的操作,最大化的内在和外在奖励根据他们的个性。这个映射的行动神经递质改善决策能力的代理和发展合作代理。实验表明,无私的代理商合作,他们在社会两难情况1分钟和45秒多自私的代理。我们得出结论,代理的个性和情绪调节通过神经递质引入可信度在虚拟代理,和无私的代理商,在环境,有助于避免社会两难问题,改善社区的整体存活率。

这项工作开辟了一个新的维度情感建模在虚拟代理。我们选择了一个复杂的社会困境场景,看看代理行为在一个较大的环境中。对于应用程序的角度来看,这项工作可以用于开发nonplayer字符(npc)游戏。未来的发展方向扩展这项研究可以包括扩展实验使用所有四个神经递质。第二,我们可以设计方法发展的个性代理根据环境变化。

数据可用性

没有数据被用来支持本研究。

信息披露

Awais哈桑和贾汗季艾尔沙德co-first作者。授予机构没有贡献的设计研究和收集、分析和解释数据。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

Awais哈桑Maida Shahid有助于实现,验证,方法,正式的分析、调查、软件和初稿。费萨尔是,贾汗季艾尔沙德Mujtaba Hussain Jafferi, Ateeq Ur Rehman, Kalim Ullah, Seada Hussen,和哈比卜公共澡堂导致实现,验证,方法,正式的分析,调查,最初的草案。所有作者阅读和批准了最终版本。

确认

作者要感谢希娜Parveen, Mamona Zahoor, UmeHabiba萨利姆,Zuhha Azhar, Bs毕业学生计算机科学与工程系,工程技术大学拉合尔的无私奉献和辛勤工作。作者还要感谢加拿大自然科学和工程研究理事会(NSERC)和新布伦瑞克创新基金会(NBIF)全球项目的财政支持。