一些复杂系统的一个有趣的特点是宏观层面的形成结构视为有特性,无法减少微观层面成分。这种特性被认为是协同作用的联合行动的表达选民产生独特的特性不可约组分分离的行为或简单的成分。描述复杂系统协同作用,已经承认但难以概念化和量化的上下文中计算各种语言的新兴意义和概念结构。在本文中,我们提出一种新颖的测量/过程量化语义的协同作用。这种方法利用一个通用的协同作用,提出了生物学。我们验证这种方法通过提供证据的能力预测语言的语义透明性的化合物(实验<我nl我ne- - - - - -formula>
一些复杂系统的一个有趣的特点是宏观层面的形成结构视为有特性,无法减少微观层面成分。例如,我们认为水“湿”,而“湿润”并不描述氢气或氧气分子水是由。相同的新兴行为是明显的自然语言,词的意义的化合物,如热狗、不能非常减少到他们的选民或/和组合性的意义。这可能被认为是表达的特征<我t一个l我c> 协同作用我t一个l我c>的联合行动成分产生独特的特性不可约组分分离的行为或简单的成分。
各种措施的协同开发自然科学(例如,
在本文中,我们提出一种新颖的测量/过程量化语义的协同作用。这种方法利用一个通用的协同作用,提出了生物学。我们验证这种方法通过提供证据的能力预测语言的语义透明性的化合物(实验<我nl我ne- - - - - -formula>
引入语义协同的概念,我们使用语言的例子的化合物。语言化合物时形成两个或两个以上的单词,或者更确切地说“词位,”加入产生一个新词。复合句不是边际词汇的语言元素,并认为复合的第一个过程,伴随着语言的出现(
程度的成分导致化合物的意义讨论的标题下<我t一个l我c>
语义透明性我t一个l我c>(
语义的协同作用明显的热狗也很明显的情况下,复合语义透明性的要高得多。这个词复合指南评为前化合物的语义透明性(
有密集的工作理解的认知过程的理解语言的化合物。此外,有一些引人注目的尝试构建计算模型的“语义成分”(例如,
在这篇文章中,我们首先使用词化合物的情况下为了测试我们的语义的协同作用。虽然语言和计算模型化合物显示成分的贡献语义透明性的化合物(例如,
以前,我们已经提到了协同措施严重依赖这一事实互信息的概念。共同的信息化措施协同不需要处理“意义”,因为他们只关注减少不确定性。然而,任何试图开发的措施<我t一个l我c>
语义我t一个l我c>协同应该解释意义的特定意义上它依赖这种感觉的方法是嵌入在测量过程。在这里,我们采用“分布语义”的概念([
在基因相互作用的背景下,
让我们假设我们想测量这个词的语义协同化合物海鲜。我们搜索可口的搭配海鲜,海,食物和组这些搭配装进一个袋子里,词作为向量的基础。这个袋子的单词可能包括以下单词:蟹,盐,服务,虾餐厅,水,酒。
接下来,我们使用上面的袋子的话,形成一个共享<我t一个l我c>
基础我t一个l我c>上下文向量的海鲜、大海和食物。我们负载向量的值表明可能每个单词出现在目标词的上下文(即。,海鲜,海洋,和食物)。见表
在这一点上,我们可能想近似分布的海鲜(即。,它的意思)通过分布的海洋和食物。根据分布假设,海鲜的意义可以通过使用它的上下文向量。因此,近似分布的海鲜用海和食物的分布可能表明多少信息时,我们获得了修正先验分布(也就是我们的信念。海洋和食品的感官),海鲜的后验分布。如果海鲜的意义是一个协同作用的成分的产品,然后近似海鲜的意思,由其上下文向量,通过感官的成分,作为由上下文向量,表示应该涉及一些获得信息在海鲜不能完全代表的信息通过信息封装在大海和食物。增益越高,越高的协同作用。在这里,我们可以使用Kullback-Leibler散度是一个<我t一个l我c>
不对称我t一个l我c>测量两个概率分布之间的区别<我nl我ne- - - - - -formula>
我们可以使用<我nl我ne- - - - - -formula>
表
同样,我们计算散度测量对食品和海鲜。<我nl我ne- - - - - -formula>
在下面的部分中,我们介绍我们的数据集和程序申请测量语义的协同作用。
在第一个实验中,我们使用[提供的数据集
我们每个单词象征化合物<我nl我ne- - - - - -formula>
它是计算set_一样<我nl我ne- - - - - -formula>
这次,我们识别单词存在三个字的十字路口(即,<我nl我ne- - - - - -formula>
每个向量转换为向量的值为0的概率转化为0.001。在下一步中,我们生产三个措施,是基于“软”版本的Kullback-Leibler散度。这些措施的信息<我t一个l我c>
获得我t一个l我c>,因为他们给我们一个指示的信息时,我们获得了修改我们的信念的上下文向量先验分布的选民,或他们的共同的语义空间,上下文向量的化合物。这些措施的总体结构非常简单:
在哪里<我nl我ne- - - - - -formula>
第一个措施是标题<我t一个l我c>
Gain_我t一个l我c>
SemSyn =<我nl我ne- - - - - -formula>
获得的信息在近似分布的复合使用元素的先验分布共享<我nl我ne- - - - - -formula>
我们没有用过Kullback-Leibler散度的对数函数凝结的差异我们想使用为了识别协同作用的效果。当尝试的一个版本上面的函数使用<我nl我ne- - - - - -formula>
表
我们假设,如果我们的语义协同作用(即测量。,SemSyn)我年代valid, then a negative correlation should be expected between SemSyn and TRANS (Hypothesis
所有结果具有统计显著性<我nl我ne- - - - - -formula>
我们可以看到,我们的第一个假设它的各种变体已经支持。有趣的是注意到,在这些措施的化合物,反式和AoA是最高的相关性<我nl我ne- - - - - -formula>
另一种测试的主要研究假设(即。,假设
SemSyn这一事实被发现与反式不是线性相关的能力成功地分类化合物是透明的。使用SemSyn在分类任务中,通过应用机器学习程序,可能会进一步支持其有效性。因此,我们还测试了语义的协同作用的有效性衡量在一个分类任务中,在SemSyn用作分类的唯一功能语义透明性的化合物L、H。
我们假设SemSyn将为我们提供一个显著增加预测的化合物被评为低透明度。这显著增加的概率预测是通过比较来判断一种化合物是评价低透明度,因为这类(即分类器预测它。分类器的精度)。相比精度预测我们可能获得使用L的基准利率情况下在我们的数据集。在我们的数据集,50%的化合物是标记为L,因此任何测量的精度高于50%将被认为是重要的。我们使用两个机器学习分类程序:
分类和回归树(CRT)模型与一个十倍交叉验证过程
这项研究的结果发表在表
精确的比例是真正的单词的单词识别为L的病例。召回的比例情况下的分类器识别为L的L情况下在我们的数据集。精度的总体衡量分类器的正确识别L情况下(即。,compounds that were correctly identified by the classifier as characterized by low semantic transparency) and correct identification of non-L cases, out of the total cases. The measures of precision and recall refer to the success in predicting compounds with low transparency. We can see that both classifiers produced a significant improvement in prediction over the base rate (50%) with an average improvement of 20%. These results further support the validity of our measure.
在第一个实验中,我们测量验证语义协同词上下文中的化合物。高度重要的是强调这样一个事实:我们使用上下文的化合物来验证我们的测量和没有任何意图与目标预测的算法各方面竞争的化合物,如语义透明度。我们已经提到了一些这些尝试(例如,
另一个补充分析的主要研究问题可能涉及语义意义的角色优势(
回忆,我们在试图近似计算得到的信息化合物通过向量的向量的第一个词位(即。,Gain_<我nl我ne- - - - - -formula>
(即使用MANOVA LMD的因素。,Headed versus Tailed compounds) and the two gain measures as the independent variables, a statistically significant difference was found between the groups (<我nl我ne- - - - - -formula>
在第一个实验中,我们使用词化合物为了验证我们的措施。我们假设如果语义协同作用的化合物是有效的,那么应该发现显著负相关语义协同得分和语义透明性之间的分数。提供一些实证结果支持我们的测量的有效性。然而,验证测量不能由单个案例作为语义协同疲惫不需要一定表达语义的化合物。另一个测试用例包括抽象性和具体性评级的话,在下一节中解释。
所显示(
分配维度的意义问题的一个词的意义是源自其连接与其他单词。例如,民主这个词代表一个概念,没有可察觉的实体引用。民主的含义完全取决于与其他词的关系确定它的意思同特定的形式的政府。我们可以看到,分配维度意义的深入与抽象性的一个字。单词的意义更抽象更依赖分配的维度。在这种情况下,我们可以假设一个词的具体性/抽象性评级应该与它的分数相关的语义协同的含义抽象词不能平凡地减少任何感性实体或句话说通过它定义的意义;而民主的含义可能是句话说定义其语义网络的协同作用的产物,樱桃的意义可能是不合作的,因为它依赖于一个简单的和感性的成分(例如,颜色,形状,大小和口味)或单词的意义它在语义网络链接(例如,苹果,草莓)。因此,我们假设一个词的抽象性将积极与我们的测量语义的协同作用。
我们使用一个数据集,包括37058个英语单词的具体评级,从超过4000个参与者(
让我们表示每个目标词我们已经分析(<我nl我ne- - - - - -formula>
有<我nl我ne- - - - - -formula>
鉴于抽象词汇在我们的数据集的基准利率是49%,平均预测精度是71%的这意味着22%的改善。这些结果表明预测能力的协同作用,因此提供了另一个层次的实证支持其有效性。
著名的完形的口号“整个不同于它各部分的总和”是一个明确的迹象的新兴结构的指纹协同作用的过程。必须指出的是,这种协同作用是困难的,至少从理论上讲,通过措施依赖互信息来捕获。协同作用涉及到尺度的转变的分析而互信息的测量不直接解决这个比例的变化。这种理论观点解释可能是通过物理计算和蓝道的原则
在这篇文章中,我们取得了第一步发展中一定程度的语义的协同作用。这个措施,考虑了信息增益(损耗)陪同上下文向量之间的转变,保存信息增益/损失的概念,伴随着一个协同作用的过程以及语义表示的向量操作语义上下文中的协同作用。
这种程度的语义协同各种应用程序超出了特定的和有限的情况下,在这个特定的验证研究。例如,你可能有兴趣研究的某些概念的含义(如神,爱,和达尔文主义)通过改变了历史。应对这一挑战的一个可能的方法是通过跟踪的变化经历了由这些概念的语义领域上下文向量实例化。然而,量化这种变化远非微不足道。一个可能的方法来源于我们的语义协同跟踪一个概念的语义协同的方式改变了。轨迹的分析这个措施可以被用于识别“临界点”概念的演变和历史地标,它的意义已经改变了。这个想法和其他人可能是谁开发研究价值的概念语义的协同作用可能是有价值的。
作者宣称没有利益冲突。