文摘
心理形象指导语义理论(中间)提出了一个omnisensory精神图像模型及其描述语言。这种语言是人类直觉的知识用来表示和计算的空间和可以提供多媒体与中间语义表达式在谓词逻辑描述。假设,这样的知识和语义描述由人类注意力控制世界,因此每个人类个体主观。本文描述了表达人类主观的知识及其应用的空间意识到计算机语言和图形表达之间的跨媒体经营空间语言理解。
1。介绍
严重需要更多人性化智能系统带来了老年社会的迅速增加,洪水WWW的多媒体信息,开发实用的机器人等等。例如,它是非常困难的人们利用必要的信息从巨大的多媒体内容在WWW。更很难通过查询搜索的内容在不同的媒体,例如,文本查询图像的内容。在这种情况下,智能系统促进跨媒体引用都有帮助,值得开发。在这个研究领域,到目前为止,大多数传统,概念性的内容传达语言和图片等信息媒体代表可计算的形式相互独立的和翻译通过所谓的“转移”过程通常特设和非常具体的任务域(1- - - - - -3]。
为了系统化跨媒体操作,然而,它需要开发这样一个可计算的知识表示语言,用于多媒体内容,至少要有一个好的能力代表时空的事件被人们在现实世界中。为此,精神形象指导语义理论(中间)提出了人类精神形象的模型及其描述语言(精神形象的语言描述)4]。这种语言是人类能够形式化omnisensory精神图像(等于多媒体内容,这里)在谓词逻辑,而其他知识描述模式(5,6太粗或语言(或类似英语)形式化按计划在一个综合的方法。是用于many-sorted谓词逻辑,几个版本的智能系统上实现图像(4,7),他们之间存在反馈回路共同细化与其他类似的理论(8,9]。
下面几节详细讨论,中间是严格的形式化演绎系统(10在正式的语言的明显区别于其他工作(例如,5,8])。然而,应用计算机系统是另一件事,因为逻辑公式的计算成本非常高。然而,事实上,演绎系统包含相当数量的论文或假设更容易实现命令式编程(例如,C)比在声明性编程(例如,在Prolog)因为由原子轨迹表达式规范化公式是一个非常合适的结构和操作在表所谓Hitree [11]。传统,也相信混合计算基于编程范式是比这更灵活和高效的基于只是其中之一。这也是迄今为止每个版本的图像,因此作者一直在推动声明程序替换为命令式的考虑的好处表达式。本文在混合计算的指导下表达式和3 d地图数据,这里所谓的部分象征空间(psdk)的直接知识,语言和图形表达之间的跨媒体经营空间语言理解。即静态对象之间的空间关系作为命令式编程的3 d地图数据利用的声明性编程。
本文的其余部分组织如下。部分2介绍了omnisensory精神形象模型及其关系正式语言。部分3描述主观空间知识的表示。在部分4和5勾勒出几个认知假设精神图像系统的计算。部分6描述了系统的跨媒体经营的基础上表达式。部分7给予直接的细节知识的空间。节8,由图像描述跨媒体操作的一个例子。讨论和结论给出了最后一节。
2。心理图像模型和
对应一个属性空间感觉系统和可以比作一个测量仪就像一个气压计,温度计,和基因座代表了运动的指标。一般的轨迹是由“原子轨迹”的绝对超过一定时间间隔如图1和制定(1),间隔压制,因为人们没有意识到的绝对时间(也不总是请教记时计)。 这是一个在many-sorted谓词逻辑公式,其中“”是一个谓词常数与五个类型的术语:“物质”(在“”和“”),“价值(属性)的“(””和“”),“属性”(“”),”模式(事件)”(在“”),和“标准”(“”)。一般来说,重要的变量是由“”、“,”和“。”
这个公式被称为“原子轨迹公式”的前两个参数是有时被称为“事件引起者(EC)”和“属性载体(AC),”分别在ECs通常是可选的自然概念,如不及物动词。顺便说一下,以后,在AC和标准条款往往被“_”取代的意义时分辨。参数””和““不能显式地表示为图1因为他们的角色变化极大地取决于它的解释。
直观的解释(1)给出如下。“物质” “原因属性” “物质的” “保持 或改变 其价值观暂时 或空间()在一个绝对的时间间隔,价值观” ”和“ “相对于标准” ”。”
当和轨迹指出,单调变化或不变的属性在时间域和空间域,分别。前者称为“时态变化事件”,后者,“空间更改事件”,被认为符合时间和空间格式塔心理学,分别。例如,“巴士”为代表的运动(S1)是一个时间的改变事件的范围或扩展“道路”(S2)是空间变化事件的意义或概念制定(2)和(3),分别,““表示属性“物理位置”。这两个公式是不同的只在术语“模式”。(S1)公共汽车从东京到大阪。 (S2)从东京到大阪的必经之路。
时间和空间改变事件概念之间的差异可以归因于属性载体之间的关系(AC)和观察者的注意力的焦点(FAO)。简言之,粮农组织固定在整个交流时间更改事件,但大约在交流空间更改事件。因此,如图2,巴士,粮农组织在一起的情况下(S1),粮农组织仅仅沿着马路的情况(S2)。也就是说,所有基因座在属性空间对应一个一个动作,或者更一般地,粮农组织时间变化的事件。
的位点结合tempological连词,“沙()”和“萤石()”是最常使用,站在“同时”和“连续和”,传统象征为“”和“”,分别。公式(4)指的是一个时间改变事件描绘成图3,这意味着““去一些位置然后回来”“这样的口头表达和相应的”获取从一些位置”:
很容易想象,一个事件表示比较电影电影通过一个浮动的摄像机拍摄的时间和空间扩展的事件都记录为时间序列快照,因为它必然是建立在粮农组织的运动事件。这是一个最引人注目的特点,明显区别于其他知识表示语言(KRLs)。
对人类的属性空间对应于他们的大脑的感官接受字段。目前,大约50个6属性和类别的标准已经从词典中提取关于物理世界。事件模式是最重要的对我们的方法和已经报道关于几种属性(4,7]。图4展示了几个例子的事件模式的属性空间”的物理位置()。”
3所示。表示主观空间的知识
中间可以提供人类知识块平坦表达式作为人类精神的图片,而不是关于他们是否概念指某些符号(即。、语义)。因此,这种区别并不显式地表示为以下。假定有两个主要的假设精神形象。一是心理图像一一对应与粮农组织运动如上所述。,另一个是它不是一对一的反映现实世界。众所周知,人们感知超过现实,例如,所谓的“格式塔”的心理。心理问题在这里不是一个真正的问题而是一个人类心理功能的产品,包括完形和抽象的问题如“社会”和“信息”广义上说。例如,图5问题的形成多个对象的知觉,在粮农组织所谓的“沿着一个虚构的对象想象空间区域(ISR)。”这个空间变化的事件可以被描述为(S3)使用介词“之间”,制定(5)或(6),相应的也等概念“行”和“阵容”表示属性“方向”。
用人的isr和9-intersection模型(12),所有的两个对象之间的拓扑关系都可以制定等表达式(7)或(8)(S4), (9)(S5),“,”“租”,和“说”是“内部”的值,“包含”和“分离”的属性“拓扑()“标准”9-intersection模型(),分别”。实际上,这些拓扑值给出矩阵的每个元素等于0或1,因此,例如,“在”和“租”相互转置。也就是说,。(S3)三角形和圆之间的广场。(S4)汤姆在房间里。(S5)汤姆离开了房间。
特别关注,作者分析了相当数量的空间在各种各样的英语单词,如介词、动词、副词、等等,归类为“维度”,“形式”和“运动”类的“空间”在于同义词典(13),发现几乎所有的概念空间变化事件可以定义为外办独家使用五种属性,即“物理位置()”、“方向()”、“轨道()”、“里程()”和“拓扑()。”
4所示。假设操作时精神图像
人们可以改变他们的心理图像等多种方式的心理旋转(14]。这是介绍和定义三种心理操作,即“逆转”,“复制”,和“转换”。
4.1。形象扭转
人们很容易想象的反转事件就像“崛起”与“下沉。“这里的心理操作表示为“”,并递归地定义为,在那里代表一个形象。逆转值和依赖于属性值的属性和。例如,,为;,为; ,为。
:
4.2。图像复制
人类很容易想象的重复事件就像“两次访问”与“访问一次。“这个操作也是递归地定义为,““是一个整数代表一个图像的频率。
:
4.3。图像转换
我们可以相互转换时间和空间改变事件的图片,这是对我们来说是很容易理解的原因立即等一个表达式(S2)。这里的心理操作表示为“”,并递归地定义为机器人,这将有助于应对这样一个有些奇怪的表达作为“路上跳跃点。小心!”。
: 在哪里为和为。
5。假设属性的心理图像
属性或法律的精神图像空间知识碎片在形式化了并介绍了作为一个演绎系统假设及其衍生品(10]在定理证明使用。以下是两个例子描述这样的假设,即“假设的空间变化的可逆性事件”和“假设偏爱的物质。”
5.1。假设空间变化的可逆性的事件
正如前面提到的部分2,所有基因座在属性空间是假定一个对应一个动作,或者更一般地,联合国粮农组织时间变化的事件。因此,表达的事件相比,电影摄影机记录通过浮动的事件。这就是为什么(S6)和(S7)可以引用同一场景,尽管他们的外表,什么“下沉”或“上升”是粮农组织如图6和的概念描述(13)和(14),分别,“”、“”和“方向“参考属性及其值“向上”和“向下”(实际上是3 d单位向量),分别。(S6)的路径汇小溪。(S7)的路径上升从小溪。
这样的一个事实是广义的(假设空间变化的可逆性事件)和图像及其“逆转”在一定空间更改事件,分别和他们是可替换的彼此的财产””。这个假设可以属于人民的主要推理规则之一常识性的关于地理的知识。
:
这种假定也有效这样一双(S8)和(S9)解释大约为(16)和(17),分别。这些对概念的描述称为等价的,相互搭配的句子被视为意译。(S8)路线和路线单独的城市。(S9)路线和路线满足在城市。
当然,也适用于这样的推理,“如果是正确的吗,然后左边的吗”,这是传统基于一组相当大的语言公理(18)不管时间。此外,值得注意的是,有无限的方向没有良好的通信与单个词如“正确”。
5.2。假设的偏爱
任何事都是假定(即由各部分的结构。、空间变化事件)和广义(假设)的偏爱。例如,图7显示一个ISR可以视为一个复杂的isr吗和。
:
我们经常引用的部分图像尤其是对演绎推理。例如,我们可以很容易地推断出从图7(上)这两个事实”广场左边的三角形”和“圆是左边的广场。”的逆转,我们可以将这两个部分图片合并到一个有意义的图像如图7(底部)。也就是说,是非常有用的计算静态空间关系表达的英语空间条件和传统形式化等大量的吗语言公理(20.)不管时间一样的情况。此外,值得注意的是,这些公理的逆转(例如,之间的)并不总是存在于好对应词(例如,“左”的谓词)。
除了传统的用法,在合作,可以利用翻译这样一个矛盾的句子是“安第斯山脉北部和南部。”成such a plausible interpretation as “Some part of the Andes Mountains run north (from somewhere) and the other part run south.”
6。跨媒体翻译
容易理解的它的定义,一个原子公式符合一双快照的开始和结束一个属性单调变化。从图示,时间和空间改变事件对应的动画还有图片,分别。此外,表达空间变化的事件作为粮农组织的轨迹可以相关序列的笔放下,抬笔素描。本节描述跨媒体翻译一般来说,关注文本和地图之间,一种静止画面,空间语言理解的核心。
6.1。功能需求
系统的跨媒体翻译是由函数定义(F1)——(F4)如下。(F1)源表示转化为目标的内容描述所源和目标媒体。例如,/在物理对象之间的位置关系等“中”,“。”是描述语言和图形媒体。(F2)过滤掉这些内容,描述所源中但不是目标。例如,语言表征的“口味”和“嗅觉”如“甜蜜的糖果”和“辛辣气体”无法描述所通常的图像媒体虽然他们看似描述所漫画,等等。(F3)补充的默认内容,这些内容需要描述的目标表示但没有明确描述的消息人士表示。例如,物理对象的形状是必然而不是图像表示中描述语言的。(F4)替换默认的内容通过明确的给出下面的上下文。例如,在这种背景下,“有一个盒子的左边。这个盒子是红色的。…”,盒子的颜色在一个图形表示必须改变从默认一个红色。
例如,文本等两个句子组成的“硬立方对象”和“对象是大型和灰色”可以翻译成一个静止画面以这样一种方式,如图8。
6.2。形式化
根据中,任何内容传达的信息中被认为是相关的位点在某些属性空间和反过来世界描述所每个介质可以等特点是最大的一组属性。这个关系在概念上正式的(21),Wm, ,的意思是“世界描述所的信息媒介”、“世界上的一个属性,”和“一个特定的函数确定Wm的最大的一组属性,”分别 考虑这个关系,翻译是一种跨媒体从世界描述所映射源介质(),通过目标介质(),可以定义由以下方程: 在哪里:世界最大的一组属性描述所源中女士,:世界最大的一组属性描述所目标中太:属于表达式的属性,:属于表达式的属性,和:函数转换成所谓,“套用表达功能”。
这个函数 目的是清除所有需求(F1)——(F4)推理加工的吗表达式。
6.3。套用表达功能
为了实现这个函数(F1),某一组”属性套用规则(4月),“所谓的定义在每一对源和目标媒体。函数(F2)意识到通过检测表达对属性没有任何相应的4月从每个输入的内容表示和取代他们空的事件(10]。
(F3),缺省推理是就业。也就是说,这样一个推理规则所定义的(23如果)介绍,该状态可推论的,假设是一致的吗 然后得出结论 。这个规则通常应用的实例化,,和规定(24这意味着不确定属性值” ”不确定的标准” ”不确定的事” ”由常量属性值可替换的吗” ”的恒定标准”“定事”“同样的””:
函数(F4)是很容易实现的历史记忆的应用默认推理。
6.4。属性套用规则文本和图片
五种4月对于这种情况如表所示1在哪里和是语言的表达式和相应的图形的表达的属性值,分别。进一步的细节如下。(我)APR-02特别是用于一个句子,如“盒子3米左边的椅子上。“符号,和对应于“椅子的位置”,“左”和“3米,分别产生的图形表达“框的位置”,即“。”(2)APR-03特别是用于一个句子,如“大壶。“符号和对应于“锅的形状(默认值)”和“罐的体积(“大”),”。在图形表达,一个物体的形状和体积是分不开的,因此他们只有属性的值表示“形状”,也就是说,。(3)APR-05特别是用于一个句子,如“盒子里的猫。“符号, 和对应于“办公桌的位置”,“猫的位置”和“,”分别产生两个图形表达两个物体的位置。
7所示。直接知识的空间
部分象征直接知识的空间(在短psdk)这里介绍的命令式编程是一个数据结构的图像以及Hitree [11]。psdk的是定向的地图和度量对象之间的关系而Hitree旨在成为一个完整的替代表达式。也就是说,之间的关系表达和PSDSK APR-02是形式化的表1。例如,考虑一个房间的场景图所示9构成,粮农组织形成的花盆,盒子,台灯,椅子,和猫。psdk这里并不意味着任何类型的生活形象被一个人类(或快照系统)在一个时间点,但有些抽象的3 d地图导致其识别如图10。即psdk的被定义为一组代表3 d点位置(例如,)涉及与相应的对象计算表达式,因此直接重用不承认他们与他们的生活形象的记忆或快照。
反过来,考虑psdk的冗长。在这种情况下,任何系统都必须被迫表达这个词按照现有概念和可能发出这样的一组句子(S10)——(向)。这些是生成的表达式为(25)- (28),分别为,、Fp、Ch、Bx, Lp和Ct代表ISR,花盆,椅子,箱灯,分别和猫。(S10)右边的椅子是3米的花盆。(S11)花盆是6米左边的盒子。(S12)灯挂在椅子上。(向)猫躺在椅子上。
甚至只有定向和度量两个对象之间的关系的五个对象图10可以有至少20 (=5 )用英语表达包括(S10)——(向)与等在传统逻辑公式(29日)- (32),分别。
这一事实意味着传统的声明式程序必须雇用大量论文包括公理(18)和(20.)甚至解决这个场景非常简单的问题如“盒子和花盆之间是什么?”。这个问题是传统的意思表示为(33)。然而,必须指出的是,公理(18)和(20.)不能用于断言(29日)- (32对这个问题的答案(即)。,吗?x)。
相反,它更容易搜索psdk的指定的事件模式表达式(34)的问题。这个公式,粮农组织的轨迹,可以顺序解释为命令的“发现”?x“通过扫描直从盒子到花盆”。在理解的情况下(S10)——(向),该系统是应用APR-02 (25)- (28)和合成部分场景到一个整个场景相似(不一样的)psdk的图所示10,也就是说,重建直接知识的空间:
在本节中,总结psdk的非常紧凑与传统相比,内存大小对空间和声明表达式可以系统地说明如何搜索psdk的事件模式。
8。实现
IMAGES-M,智能系统的最后版本的图片,最近采用了multiparadigm语言Python的PROLOG促进声明式和命令式编程。IMAGES-M是一种专家系统与五种用户界面除了推理引擎(IE)和知识库(KB)如下。(我)文本处理单元(TPU)。(2)语音处理单元(SPU)。(3)图像处理单元(PPU)。(iv)操作数据处理单元(ADPU)。(v)感觉数据处理单元(SDPU)。
这些用户界面可以相互转换媒体和信息表达式在协作与IE和KB和杂项其中带来各种跨媒体组合操作。更多细节关于语言之间的相互转换,图像可以发现在其他文件(例如,15,16])。
上面提到的方法实现对IMAGES-M空间语言理解。这里,区别于他人,空间之间的语言理解的定义是跨媒体操作空间语言和地图之间的相互转换和自动问答等。作者已证实,在Python中使用混合项目表达主要和psdk的配套,如图11是比以前更加灵活和高效的(4在PROLOG的空间语言表达解决问题。
这里给出了一个例子文本和图片由IMAGES-M之间的交叉。
IMAGES-M理解人类用户的断言或者问题和回答图片或单词。图12显示了人类用户和系统之间交换交易,标题“u…的地方。”和“s…。”stand for the human user’s inputs and the system’s responses, respectively. IMAGES-M can accept 3 kinds of natural language besides English, namely, Japanese (e.g., u0002, u0008 and s0029), Chinese (e.g., u0007 and s0026 in Pinyin) and Albanian (e.g., u0003, u0010 and s0035) as shown in Figure12,在那里u0002 = "猫1 m椅子下面。”u0003 = "猫是红色的。”u0008 = "椅子和锅是什么?,”s0029 =“盒子”,u0007 = "猫是红色的?”s0026 = "是的。”u0010 = "猫和灯之间的盒子吗?,”s0035 =“是的。”
在图所示的映射13是那些IMAGES-M组合的最终版本在每个用户的断言。IMAGES-M断言u0001-u0006解释到,在变成地图和psdk的(没错,重建psdk),系统更新他们断言的断言,回应s0002-s0022。文本映射的过程中,默认推理关于颜色,等等。以这种方式执行,如图8,只有地图内的对象的默认位置是psdk的重要。
另一方面,在自动问答(即。,u0007-s0035), IMAGES-M translated each of the user’s questions (i.e., u0007–u0010) into和咨询重建psdk的位置()或相应的地图表达式的其他属性,如颜色()。在这个过程中,假设和是利用程序在Python中,可以减少相当数量的公理等(18)和(20.),必然是在传统系统。
9。讨论和结论
中仍处于开发阶段,旨在提供一个正式的系统,在表示时间和空间,对自然的语义。这个正式的系统是一种应用谓词逻辑公理和公设受制于人类感知的过程组成的空间和时间,而其他类似系统在人工智能17- - - - - -19)是客观的,即独立于人类感知和不一定与自然语言保持紧密的通讯。本文表明,空间关系的表达式可以有助于了解计算导致的表征和计算成本降低部分象征直接知识的空间(psdk的),而在这一点上,一些需要进一步的量化细化。
作者已经报道,在几种语言文字之间的跨媒体经营(日本人、中国人、阿尔巴尼亚和英语)和图形模式像地图上成功实现IMAGES-M [4]。详细摘要IMAGES-M最近采用了multiparadigm语言Python的PROLOG促进声明式和命令式编程和作者已证实,在Python中使用混合项目表达主要和psdk的配套是比以前更加灵活和高效的PROLOG解决问题在空间语言表达。我们最好的知识,没有其他系统(例如,20.,21)能够进行跨媒体业务在这里描述等无缝的方式。这就导致的结论使得事件概念的逻辑表达式非常可计算的和已被证明是非常充足的系统化跨媒体业务。充分性是由于其medium-freeness及其与人类感官系统的性能良好的通信在空间和时间区段,而几乎所有其他知识表示计划ontology-dependent,计算——无意识或spatial-change-event无意识的(例如,8,9])。
作者认为意识到科学或技术仍在成熟的方法,因此,现在应该培养各种各样的方法。人类认知模型用于中间是基于陈述性知识的形式化表示符号逻辑中迄今几乎被丢弃在这个研究领域,而某些方法基于程序性知识表示已经流行。作者的意图是目前一些潜在的可能性,他最初意识到科学的理论当中。节中给出的例子8相当简单,但其中一个最复杂的空间关系可显示的这个版本的智能系统IMAGES-M因为它是程序专门检查psdk的功效。另一个扩展版的系统正在建设中,预计一些例子进一步复杂的人体系统交互的自然语言已经呈现在另一篇论文15]。
我们未来的工作将包括建立学习设备自动采集的概念从感官数据(7)和由自然语言人机交流真实环境(22]。
承认
这项工作部分资助的赠款从计算机科学实验室,福冈理工学院和教育部,文化、体育、科技、日本政府14580436号,17500132,23500195。