mesh imposed on the screen. The identified chunks were mostly short, consisting of one or two fixations. These were analyzed with respect to the within- and between-chunk distances in the overall records and the patterns (i.e., subsequences) frequently shared among the records. Although the two types of distances were both dominated by zero- and one-block shifts, the primacy of the modal shifts was less prominent between chunks than within them. The lower primacy was compensated by the longer shifts. The patterns frequently extracted at three threshold levels were mostly simple, consisting of one or two chunks. The patterns revealed interesting properties as to segment differentiation and the directionality of the attentional shifts."> 频繁的追踪记录挖掘到认知块中的追踪记录 - raybet雷竞app,雷竞技官网下载,雷电竞下载苹果

应用计算智能和软计算

应用计算智能和软计算/2014年/文章

研究文章|开放访问

体积 2014年 |文章ID. 101642 | https://doi.org/10.1155/2014/101642

松田纪行,竹内东彦 频繁的追踪记录挖掘到认知块中的追踪记录“,应用计算智能和软计算 卷。2014年 文章ID.101642 8. 页面 2014年 https://doi.org/10.1155/2014/101642

频繁的追踪记录挖掘到认知块中的追踪记录

学术编辑器:永庆杨
收到了 2014年7月23日
公认 2014年10月27日
发表 2014年11月23日

抽象的

假设将通过块信息直观地扫描场景,我们将网页查看器的固定序列分区使用隔离凝视点作为分隔符将块的固定序列分成块。根据段的段编码固定 网格施加在屏幕上。所识别的块大多短,包括一个或两个固定。这些关于在记录中经常共享的总体记录中和块间距离和块间距离之间的截距和块间距离之间的分析。虽然两种类型的距离都是由零和单块移位支配的,但是模态移位的首要地位在块之间的突出幅度不如其中。较低的PRISCACY通过较长的换档来补偿。经常在三个阈值水平提取的图案大多是简单的,由一个或两个块组成。该模式显示出对细分分化和注意力转变的方向性的有趣特性。

1.介绍

眼睛很少仍然保持完全。即使一个人试图在一个小规模上发生的震颤,漂移和微穴1].因此,研究人员需要推断从空间聚集的连续凝视点的固定[2].我们可以将这种凝视点作为感知块视为一种感知块,在米勒后的心理学中是一个熟悉的术语[3.]参考实际上有意义的信息处理单位。

在注视过程中,人们仔细地扫描他们感兴趣的场景的有限部分。然后,他们通过扫视迅速将眼睛转移到下一个注视区域,这暂时中断了视力。然而,由于我们的视觉系统产生了连续的跨眼跳知觉,它通常不会被注意到[4.-6.].这意味着连续的固定构成凝视点的主要分量上方和高于凝视点的初级堆积。把隐喻放置, 关系类似于 关系。为了简洁起见,一大块的固定将被称为块。

在观看自然场景或显示时,一个块会继续增长,直到被一个或多个孤立的注视点所打断,这是由于注意力的漂移或意外造成的。这些不参与任何固定。不管中断的原因是什么,我们认为这些孤立的点充当了块的分隔符,就像讲话中的停顿。由于停顿可以是短的,也可以是长的,由孤立点造成的中断可以在长度上有所不同。数字1说明了两种水平的分布:(a)凝视的块分成固定和(b)具有和不间断的连续固定的块。

假定我们的推测,人们可能仍然想知道,分析块代替普通的固定序列会产生什么特殊的优点。预期的优点有两个:块之间和块内模式的分离,以及跨记录提取通用模式。当处理不考虑顺序连接而累积的固定热度图的多个记录时,这两种方法都无法实现[7.],通过对记录内部和记录之间积累的相邻过渡进行网络分析[8.-10.,或扫描路径过于复杂[11.除非减少到频繁共享的子路径。理解这一点的关键在于固定序列的结构,如下所述。

1.1.固定序列结构

等式(1)表现为两种固定序列,一种是普通序列,另一种是分区序列,均按时间顺序排列。前者是热图、扫描路径和网络分析的基础。后者包括由孤立注视或任何其他适当标准分隔的块。当固定在感兴趣区域(AOI)或网格状片段编码时,序列的本质保持不变。

普通和分区固定序列。考虑 在哪里 表示这一点 固定。

尽管没有明确说明,McCarthy等人[12.[实际上,在他们的工作中提取块的分区序列,了解网页对象及其位置的重要性。它们将每个AOI内的连续固定分组为一目了然的块,以获得在AOI中编码的纯粹途径。他们的兴趣是看看网页的各个领域将如何通过改变区域位置和任务类型来吸引途径。

通过专注于瞥一度的频率作为重要性的指示,他们忽略了块的长度,即瞥一眼内的固定次数。也忽略了瞥一度的转变,即块序列之间。对我们而言,块之间的似乎和块之间的似乎都包含丰富的资料值得调查。可以从分区序列中提取信息,但不能从普通序列中提取。此外,当一些AOIS嵌套成更宽的AOIS时,分区序列将具有很大的价值(参见[16.),并给出适当的编码。本研究可扩展到这种层次结构。

为简单起见,我们将专注于网页观众的眼部运动,我们将假设页面分为网格状AOIS,即在其落下的区域的术语方面编码了固定的。块被隔离凝视点分隔。

1.2.组块内部和组块之间的兴趣转移

两个连续注视点之间的距离表明了兴趣在一个循环过渡中转移或不转移的程度,这个循环过渡代表了对给定区域的持续兴趣。在我们看来,大量的注视反映了持续的兴趣,而新的注视在短暂的目光漂移之后开始。似乎很自然地期望块内移动的距离分布在某种程度上不同于块间移动的距离分布。

以上解释的距离分析利用所有观众的累积记录中的信息利用信息。因此,结果可能受到特定记录中的一些主要模式的影响。如果一个人对经常在记录中共享的顺序规律感兴趣,则频繁顺序模式挖掘是有用的,如下所述。

1.3。频繁顺序模式挖掘

其中,我们将采用Pei等人开发的PrefixSpan [13.14.,因为它与眼球追踪数据的分割序列在概念上兼容。下面用他们的例子简要解释了他们的方法,见表1.(请参阅附录更正式的解释。)可以将数据视为四个观看者的眼睛跟踪记录,其中根据感兴趣的区域(AOI)进行字母顺序编码,它们落入: ,


记录 初始序列 图案以前缀为前缀

1
2
3.
4.
常见的代码 ,

笔记.下划线_表示块中存在前缀;例如, 意味着

代码 , 都是频繁的,被大多数人共享的,而代码呢 很少出现,只出现一次。为了进一步扫描,要从记录中删除任何不常见或罕见的代码,因为它永远不会出现在频繁的模式中先天的原则 [15.].让我们为说明目的进行三个频繁的水平。此级别称为最小支持阈值(缩写为MS)。

对于每个频繁的代码,一个扫描记录的减少记录,没有频繁代码,对于由给定代码前缀的模式。那些找到前缀的那些“ “列在第二列表中1.在这个步骤中,这些代码会被进一步扫描, .此过程递归地持续,直到没有频繁频繁或未在记录中保留模式。请注意,前缀在每个步骤中生长“ ”、“ (更正式的解释请参阅附录)。

桌子2列出在ms3从初始记录中提取的14个频繁模式,包括在ms4中作为嵌入部分发现的模式。例如, ,在MS4中找到,嵌入模式中 ,在MS3;那是, 类似地,在MS3中发现的那些包含在PEI等人报告的MS2的图案中。[13.14.].包容性关系通常在不同的MS水平之间持有。


一种 一种 B. 一种 C B.
C D.

笔记。在MS4中提取了强调的模式。

通常情况下,在高毫秒级别上发现的模式太少,而在低毫秒级别上发现的模式太多,无法进行有趣的分析。然而,一旦人们认识到包容性关系,使用多层就成为了识别强频繁模式(而不是轻度和弱频繁模式)的一种貌似合理的解决方案。(ms2, ms3和ms4模式之间的关系网络见附录。)

目前的方法预计将推动常规热图,扫描路径和由Matsuda和Takeuchi开发的传统热图,扫描路径和网络分析进行了推进的追踪研究[8.-10.].

2.方法

2.1。科目(SS)

研究人员招募了居住在日本AIST研究所附近的20名居民(7名男性和13名女性)进行实验。他们的视力正常或矫正过,年龄从19岁到48岁不等(平均30岁)。学生中有10人是大学生,5人是家庭主妇,其余的都是兼职工作者。其中11名学生是重度网民,其余的则是轻度网民,这是根据他们每周上网的时间来判断的。

2.2.刺激

十个商业网站的首页(或顶部)是从不同的商业领域中挑选出来的:航空公司,商业和购物,银行。根据布局类型可分为三组[8.-10.].由于空间限制,我们选择了具有相同布局的四页,顶部和主层。主要层分为两侧中间和蛛网的主区域。图层和区域的尺寸不同。

2.3。设备和程序

在Tobii 1750眼球追踪系统的TFT 17”显示器上,以50 Hz的频率以1024 × 768像素的分辨率显示刺激。网页每次随机显示给Ss 1,持续20秒。学生被要求按自己的节奏浏览每一页。翻译后的说明是“各种网页将依次显示在电脑显示器上。”请像往常一样看每一页,直到屏幕变暗,然后,当你准备继续时,点击鼠标按钮。”学生被告知实验将持续大约5分钟。

2.4。段编码

在去掉没有文字或图形的白色边距后,每个页面的有效部分上叠加了一个5 × 5的网格。一个统一的网格被使用,以方便不同页面之间的比较,除了基本布局的设计。两个段之间的移动距离由欧几里得距离测量,计算为的平方根 , 在哪里 是沿水平和垂直轴移动的块(即段)的数量。

网格的行(和列)以降序标记(和数值)以降序标记:A至E(和1到5)。通过将这些标签组合如图所示,通过组合这些标签来编码段2: 对于第一行; 第二;等等 第五行。

2.5。固定序列

每个受试者的原始跟踪数据包括测量的时间戳凝视点 - 控制。如果它们在100毫秒的半径为30像素的半径内被分组为固定点。否则,它们仍然是孤立的。

然后根据固定物下落的段将每个固定物转换为编码序列。最后,利用注视点作为分隔符将注视序列分割成块。

2.6。PrefixSpan代码的预处理

根据算法,首先使用字母重新编码25个段 通过 ;然后每个区块的代码按字母顺序排列,没有重复。在这个过程中,我们通过额外的编码来表示块内循环。块内连续重复的代码被相应的大写字母替换,如[caaababaa]到[cAbabA]。在消除重复后,我们对每个块中的代码进行排序,例如,[Aabc]从原始序列中。因此,我们保持了块之间的顺序,但块内序列可能被扭曲。由于这种可能性,我们无法识别块之间的循环。

在对应于60,70和80%的受试者的60,70和80%的最小载体(表示为MS12,MS14和MS16)的频繁模式。

结果

用作刺激的四页将被称为P1,P2,P3和P4。

3.1。检查块

块的总数在页面中没有大大区别,范围从539(p2)到592(p1)。这些页面分别同意含有一,二次和三个固定的主要,次级和三级块的长度和比例。主要块占总块的53.3(p4)至60.4%(p1),二次块占21.9(p1)和25.1%(p4)。将初级和次级大块放在一起,绝大多数大块(≥78.4%)非常短。第三大块的比例小得多,范围为6.9(p3)至12.2%(p4)。较长的块占7.9(p1)至11.6%(p3)。

双固定块内的转换的主要偏移在页面上是循环(距离= 0)。这些占48.5(P1)至62.2%(P2)。这些页面也同意次要( )和第三次( )的距离,包括分别横向(或垂直)和对角线连接的相邻段。前者所占比例为30.0 (P2) ~ 40.8% (P1)。相比之下,后者要小得多(≤8.8%)。综上所述,绝大多数双固定块(≥88.4%)均为同质的,即环状或最小异质性( ).

在三个或更多长度的大块中,循环和单块移位也是显着的。循环占转变的49.2(P4)至60.8%(P3),单块班次占其中34.4(p3)至42.7%(P1)。把这些放在一起,绝大多数( 91.0%),长块内的移动距离非常短。

同样,极短的班次(≤1)在封堆之间的转换之间的模态,比在块内转换不那么突出。主要单块移位占块移位之间总量的33.9(p2)至37.6%(p3),循环占22.3(p1)至30.3%(p2)。它们的合并比例范围为57.5(P1)至64.2%(P2)。

前两个模态移位的低突出由较长的比例的比例进行了补偿。两个块移位中的每一个( ),除7.7%外,所有网页均超过10% ( )在p2上。与三个街区的迁移的缺乏相比( )在块内(≤1.7%),块之间的相应距离为7.1(p2)至9.4%(p1)是值得注意的。同样明显的是长距离移位的大小(≥8),范围从7.3 (P3)到10.2% (P1),而在chunk中不存在或可以忽略(P1上的0.8%)。

3.2。检查频繁的模式

在三个不同的MS水平(MS12,MS14和MS16)中提取的频繁模式在每个页面内是包括在给定级别的频繁模式的(a)频繁模式的子图案的意义上的频繁,并且(b)在a中提取的图案在较低级别的那些中包含更高的水平。为了简单起见,下面将在明显的情况下省略“频繁”术语。在挖掘之前,如部分所述,将特殊编码应用于块内循环2

如表所示3.在美国,模式通常很短,在所有ms级别的页面上由一到两个块组成。长度为3的长链(P2上1条,P3上5条)仅在ms12处发现。组成块是简单的组成,是一个固定或一个单一的循环。循环被限制为(A1A1), (B1B1)和(D1D1),都位于网格的第一列。(这些将被表示为(A1 . .), (B1 . .),和(D1 . .)。)(D1..)循环只出现在ms12的P2上,没有任何其他块伴随。(B1..)在ms12时仅在P1上出现,在所有ms水平的P2上出现。此外,它在P2上作为前缀(ms12)和后缀(ms12和ms14)与B3配对。(A1..)在P2 (ms12)、P3 (ms12、ms14、ms16)和P4 (ms12、ms14)上单独出现,并且在P3 (ms12、ms14、ms16)和P4 (ms12)上作为其他区块的前缀。在第一列中没有相应的段。 The postfixes on P3 were A2 (ms12, ms14, and ms16); A3 and B3 (ms12 and ms14); and B2, B3, B4, B5, C3, and D2 (ms12) in addition to A2A2 and B3B3 (ms12). Those on P4 were B4, C3, C4, D3, and D4 (ms12).


Len. MS12 ms14 ms16
循环 循环 循环

P1 1 18. B1 / 1 11. 5.
2 19. 4. 1

P2 1 15. A1/1、B1/1 D1/1 9. B1 / 1 5. B1 / 1
2 14. B1 / 2. 4. B1 / 1 1
3. 1

P3 1 14. A1/1 12. A1/1 7. A1/1
2 34. A1/8 11. A1/3 2 A1/1
3. 5. A1/2

P4 1 18. A1/1 15. A1/1 6.
2 20. A1/5 3. 1

笔记。模式的长度(len)是组成块的数目。还列出了已识别的块内循环及其出现的模式数量。

在ms12位点P2和P3上发现的长度为3的6种编码模式中,其组成密码部分或完全相同。其中5个包含2个重复代码,A2或B3,包括上述以(A1..)为前缀的代码。剩下的只在P3上发现,含有A2。在下面的双块模式检查中,循环将被视为单个代码以降低复杂性。

双块模式列于表中4.根据层序的方向——向上、同质、水平和向下。上标L和R表示向左和向右的序列。在ms14及以上提取了有下划线的模式。那些只在ms16找到的,进一步强调在斜体黑体面。P2和P4上有13种,P3上有34种。


页面 方向 图案

P1 B2A2 B2A3R.  B2A4R.
== B2B2B3B3
A1A4R.B2B3R.
A2A4R.A3A4R.  B2B1L.  B2B5R.  B3B2L.
B3B4R.
A1D3R.  B2C3R.  B2C4R.B2D2 B2D3R.  B3D3

P2 B3A1L.  B3A3
== B3B3  A1A1  B1B1  B2B2
B3B1L.  B1B3R.  B3B2L.
B3C2.L.B3C3 B3D2L.  B3D3

P3 B2A3R.B2A2 C3A2L.
== A2A2B3B3  B2B2  C3C3
A1A2R.A1A3R.A2A3R.B3B4R.
A3A2L.  B2B3R.  B3B2L.  B3B5R.  C2C1L.
A1B3R.A2B3R.A2B4.R.A2C3R.
A1B2.R.  A1B4R.  A1B5R.  A1C3R.  A1D2R.
A2B2 A2B5R.  A2D2  A2D3R.  A2D5R.
B2C3R.  B3D2L.B3D3 C3D2L.

P4 (没有任何)
== C3C3.
C3C4.R.  A2A3R.  B3B4R.  B3B5R.  C3C2L.
A2B4.
A2C4R.  A3B4R.  B2C3R.B3C3 B3C4R.  C3D3

笔记。序列方向向上( ),均匀(==),水平( ),以及向下( ).在ms14提取了有下划线的图案。那些在16岁提取也强调斜体粗体脸。向左和向右的序列用上标标记 , 分别。

在MS16,该模式是均匀的(B2B2在P1上的B2B2),水平(P3上的A1A2; P4上的C3C4),或向下(A2B3 ON)序列,除了P3上的下向右模式A2B3。没有向左异质模式。

在MS14处发现的新图案包括向上序列(P3上的B2A3)和五个向下序列(P2上的B3C2; A1B3,A2B4和A2C3 ON P3上的A2C3;和A2B4 ON P4),除了四个均匀序列(P1上的B3B3; A2A2,在P3上的B3B3; C3C3 ON P4)和六个水平序列(P1上的A1A4和B2B3; B3B1,P2上的B3B1; A1A3,A2A3和B3B4 ON P3上)。在12个异质图案中,左右只有两个(B3B1和B3C2)。

ms14及以上提取的模式D、E行无片段,第五列无片段。7个向上和向下的序列没有一个是严格垂直的,涉及相邻或非相邻柱的比例为4比3。这些垂直模式主要涉及相邻的行(7个中的6个)。

MS14及以上序列的一些组成区段仅作为前缀(P1和P3上的A1和P4上的A2)或作为后缀(P1上的B3; B1和C2上的P2; A3,B3,B4和C3上P3; B4和C4上的p4)。

在MS12处发现的新的双块模式具有(a)行D和列5,(b)新段的显着位置,(c)增加异质图案,(d)增加非附带行之间的序列,(e)严格的垂直序列,(f)双侧序列对。行D中的区段仅作为下序列的后缀(P1和P2上的D2和D3; D2,D3和D5上的D2,D3和D5;和D3在P4上)。类似地,在C行中发现的新段是后修复(P1上的C3和C4;在P2上的C3; C1 on P3上的C1;和C2上P4上的C2),具有单一例外(P3上的C2)。行B中的新段主要是P1,B5上P3,B5的B1,B4和B5上的P1,B4和B5上的B4。P4上的B2和B3是前缀。有趣的案例是P2的B2,它是特殊的,是自身的前缀(B2B2)。双角色比在A的新段中的新段(A2和A3上P1,A1上的A1,P2上的A1,A3上的A3上的A3)中更具显着的。

发现共七个新的向上序列,P2和P3上的三个上有三个,但仍然没有P4。这些以B2(P1和P3),B3(P2)或C3(P3)为前缀,并由行A-A1,A2,A3或A4中的段后固定。只有C3A2涉及非附带行。P1,P2和P3-B2A2,B3A3和B2A2中的每一个存在严格垂直的序列。其余的静止(B1和B2A4上的B1和B2A4)或在P2和P3上向左(P2上的B3A1; P3上的C3A2)。

在p2和p3上发现总共五个新的均质序列,其中一个在a(a1a1上的p2)中,在行b中的三个(p2和p2和p3上的b2b2上的b1b1),以及在行c中的一个(p3上的c3c3).类似于MS14及以上的那些,没有一个成分在列4或5中。

在P1上发现了17个新的水平序列(2行A和第四行中的2个),P2(2中B),P3(一个在A中的一个,B中的一个,一个中,一个),以及P4(一个在a,两个中,和一个在c)中。A2和A3出现为前缀或作为Postfix,而A4仅作为Postfix出现。对于B1,B2和B3相同,而B4和B5仅作为后缀出现。C2在P3和C3C2上的C2C1上假设了双位置,其中两者都是向左的。向右向右序列的比例为2:4,1:1,3:2和1:3,按P1,P2,P3和P4的顺序。

发现总共29个新的向下序列,P1,三个在P2,P3上的3个上的六个,P4上的六个。以行A和B集中的前缀,具有两个例外(P3上的C3D2和P4上的C3D3)。相比之下,P3上的五个图案的不同之处在于C和D的后缀和P4上的后缀。Half or more of the downward patterns on P1, P2, and P3 involved nonadjacent rows (A-D/1 and B-D/3 on P1; B-D/2 on P2; and A-C/1, A-D/5, and B-D/2 on P3, where 表示案件数量),而在六种模式中,只有A2C4模式在P4上这样做。严格的垂直模式仅限于第2和第3列(P1上的B-D/2;P2上的B-C/1和B-D/1;P3上的A-B/1、A-D/1和B-D/1;和P4上的B-C/1和C-D/)。其余的在P1和P4上是右的,在P2上是左的,或者在P3上是混合的。

在表中的所有模式中4.,由于对称对数量有限(P1上的B2B3-B3B2;在P2 B1B3-B3B1;P3上为A2A3-A3A2、A2B2-B2A2、A2C3-C3A2、B2B3-B3B2;P4上没有)。其中四个是水平序列。组成部分被限制为由前三行和列组成的子集,即,

多晶模式的各个组成部分通过在给定MS电平的原始图案中频繁,但不反之亦然。桌子5.列出在给定的ms级别上不参与任何多块模式的独立原语模式。当总原语图案数目从ms12单调地减少到ms16时,分离原语图案占总原语图案的比率在所有页面上几乎完全单调地增加。的比率 , ,按P1,P2,P3和P4的顺序。唯一的例外是P2的第二个和第三个比率。MS12上的P3没有分离物。


MS12 ms14 ms16

P1 5、c、c、c A2  A3 B1 B5 C3 C4 D3 A1  A2A4 B3
P2 a2b4 c1 d1 A1 A3  B2 C3 D3 A1 A3
P3 (没有任何) B5 c1 c2 d2 A3 B2 C3.
P4 A5  B5 C1 C5
D2
B1 B2B3 B5 C1.
 C2C5 D3 D4
A2  B3.B4C5

笔记。粗体面部的基元在两个或三个MS水平上持久。

通常,在给定ms级别上的独立原语将成为较低级别上序列的成员,而不会在较高级别上出现。特别的是,位于最右边的C5在所有ms水平上作为一个分离物持续存在于P4上。P1 (A2)、P2 (A1、A3)和P4 (B3)的ms14和ms16之间以及P4 (B5、C1)的ms12和ms14之间存在部分持续。P3无持续性。P1和P4上的持久值被限制在顶部行的前三列, ,而P4上的数据分布在行B和行C的第1、3和5列,即,

最后,MS12的P1上的E3是底行e中的唯一频繁的段,其中段在所有MS水平的页面上通常不常见。

4.讨论

眼跟踪研究人员推断了从空间和时间紧密聚集的凝视点的固定,将其视为一个有意义的信息处理单位,即,这是心理学中一个常见的概念。在关系中,将较低层次的块分成较高层次的块并不少见 .本文以不参与任何注视的孤立注视点作为定界符,考察了二级注视块(即注视块)的模式。分隔符被认为在组块中起辅助作用,就像讲话中的停顿。

大多数已识别的块短,由一个或两个固定组成。此外,多块块和块之间的转换大多在距离短时间,循环或单块移位到相邻的段。这些似乎归因于我们所用的分隔符的最小标准 - 至少一个隔离凝视点。因此,即使是一个人的凝视意外错位也会导致斑块。如果我们可以将认知性地从意外块分开,这将是理想的。在建立有效的方法之前,我们能做的最好的是在解释结果方面是谨慎的。

实际上,由于可能的个人和情境变化,设定适当的标准是一项艰巨的任务。也许具有个性标准将是合适的而不是统一的标准。进一步研究参与参与固定的凝视点的分布和孤立的分布是必要的。

如前所述,在块之间和块之间的转换中的内部和块间转换相似,因为前两个模态距离为零(即,循环)和一个块。然而,这些尺寸不同地不同。循环在块内过渡中主要是块转换中的次要转换。对于单块移位而相反。接下来,块内转换内的初级和次距的比例超过了与块之间的相应比例有关。同样,块之间的长距离变化比在它们内部更长。

这些结果似乎表明,我们的主题的注意力很可能在暂停后转移到相邻的段一个块或在同一段内。介质或长距离偏移也通过暂停分离,尽管它们的比例小于短的速度。没有暂停的转变,即块内的班次,很短,主要发生在同一段或相邻段之间一个街区。

现在我们开始讨论PrefixSpan提取的频繁模式(即子序列)。这些模式结构简单,大多由单块或双块组成。此外,根据上面讨论的块属性,块本身包含单个固定或单个循环。如果我们对定界符采用不那么严格的标准,可能会产生更复杂的结构。尽管如此,在结构的简单性之下,有趣的特性出现了,如细分分化和注意力转移的方向不均匀。

首先,块内循环被限制为(A1..)、(B1..)和(D1..),它们都在最左边的列中。虽然(D1..)的存在相当有限,但(A1..)和(B1..)作为前缀在多块序列中的主导作用值得注意。这些角色可以归因于在段中放置的菜单项。其次,多块序列主要由A行、B行和c行片段组成。其中,P1和P3上A1的主导作用值得注意,如loop (A1..),而P2上则是pre- and - postfix的双重作用。相反,A4、B4和C4始终被定位为后缀。同样的情况也出现在D行,它们只出现在最低ms水平。在多块序列中完全没有E行的片段。

第三,MS14和MS16的序列更可能是水平的,包括均匀代码,而不是向下的均匀码,而不是向上序列的均匀序列,这仍然存在于MS12处的附加模式中的至少可能。水平和向下序列之间的顺序在MS12的页面上变化。

通过将眼睛跟踪记录划分为较小的单位,我们发现了网页观众眼球的有趣特性。然而,进一步的研究似乎需要增强当前方法,例如,通过设置嵌套的AOI来反映Web对象的分层结构[16.,并通过调整块分隔符来适应个人和任务的变化。除了这些改进之外,我们还计划将挖掘的频繁模式应用于同步聚类[17.]受试者和他们的眼球运动和其他相关指标的性质。

附录

我们简要解释了Pei等人开发的PrefixSpan(前缀投影顺序模式挖掘)频繁顺序模式挖掘[13.14.].感兴趣的读者应该参考原始文章,以得到正式的描述和与其他竞争算法的比较。

让我们使用Table1作为要扫描的DB(数据库)。它由四个序列组成,其元素是非空的项目 .元素由一组项组成: , .PrefixSpan假设元素中的项是按字母顺序排列的,没有重复,例如, ,

PrefixSpan的目标是查找DB中记录之间经常共享的子序列。子序列定义为给定序列的元素的非空子集的列表,其中保留了元素的顺序。例如, 是一个随后 .频繁出现的阈值称为最小支持度(本文简称ms)。它的值由用户指定。

特殊重要的子序列是前缀和相关的后缀。例如,一个频繁的项目 , ,可以作为随后要扫描的模式(即后缀)的前缀。表第二列中列出的模式1是构成的后缀序列 -projeted数据库。对于每个频繁的项目,将构建类似的数据库。使用MS2, 将被认为是常见的,下划线_暗示 .因此, 将作为前缀,只产生两个后缀

频繁模式提取的网络 , 4如图所示3.从两个意义上把握它们之间的包容关系:(a)频繁模式中的元素也是频繁的;(b)在给定ms级别上的频繁模式在较低级别上也是频繁的。

更正式的说法是序列 的长度 是另一个序列的前缀吗 的长度 由频繁元素组成的数据库当且仅当第一个 元素是相同的;最后一个要素 Th元素

后缀 关于 是一个序列,其中的第一个元素是 th元素 .后缀的剩余元素与此相同 元素的最后一个元素 ;那是, 如果

当后缀变为零时,相对于前缀扫描 或投影数据库中不存在频繁项。对于最初标识为频繁的每个代码,这个过程都以深度优先的方式执行。

必须注意的是,某些提取的模式可能很难在原始序列中识别,因为在处理过程中,会从投影数据库中间歇性地删除不常见的项目,例如,提取的模式 在表2和序列 在表1.这一点应该清楚那些熟悉屏蔽(或通配符)字符的人,例如字符串匹配中的星号“”。可以通过将掩蔽字符连接到提取的图案来找到原始模式。

利益冲突

提交人声明没有关于本文的出版物的利益冲突。

参考文献

  1. S. Martinez-Conde,S.L.Macknik和D. H. Hubel,“隐藏眼球运动在视觉上的作用”自然评论神经科学,第5卷,第5期。3,页229-240,2004。视图:谷歌学术
  2. D. D. SALVUCCI和J.H. Goldberg,“识别在眼新的协议中的固定和扫视,”眼球追踪研究与应用研讨会论文集,pp.71-78,2000年11月。视图:谷歌学术
  3. g·a·米勒(G. A. Miller),“神奇的数字七,正负二:我们处理信息能力的一些限制,”心理评论,卷。63,否。2,pp。81-97,1956。视图:出版商网站|谷歌学术
  4. D. Melcher,“跨眼跳知觉中动态的、基于对象的视觉特征重映射”,愿景杂志,卷。8,不。14,2008年第2款。视图:出版商网站|谷歌学术
  5. D.梅尔彻,《跨眼跳知觉中的选择性注意和物体特征的主动重映射》,视觉研究,卷。49,没有。10,pp。1249-1255,2009。视图:出版商网站|谷歌学术
  6. J. Ross,M. C. Morrone,M. E. Goldberg和D. C.Curr,“扫视时的视觉感知的变化”神经科学的趋势,第24卷,第2期2,页113 - 121,2001。视图:出版商网站|谷歌学术
  7. E. Cutrell和Z. Guan:“你们在找什么?”:一种n eye-tracking study of information usage in Web search,” in第25届SIGCHI会议论文集:计算系统中的人为因素,页407-416,2007年5月。视图:出版商网站|谷歌学术
  8. N. Matsuda和H. Takeuchi,《眼球追踪记录的兴趣转变带来的网络》,,第2卷,第2期7, pp. 3-16, 2011。视图:谷歌学术
  9. N. Matsuda和H. Takeuchi,“联合分析网页读者的眼睛跟踪记录中的静态和动态重要性”,“眼科研究杂志,第4卷,第4期。第5条,12页,2011年。视图:谷歌学术
  10. N. Matsuda和H. Takeuchi,“沉重和光用户在网页观看模式中有所不同?通过热图和过渡网络分析他们的眼睛跟踪记录,“国际计算机信息系统与工业管理应用,卷。4,pp。109-120,2012。视图:谷歌学术
  11. J. H. Goldberg和X.P. Kotval,“使用眼球运动的计算机界面评估:方法和构造,”国际工业工效学杂志,第24卷,第2期6,PP。631-645,1999。视图:出版商网站|谷歌学术
  12. J. D. McCarthy, M. A. Sasse,和J. Riegelsberger,“网络搜索的几何学”,在人和电脑XVIII设计为生命,pp。249-262,斯普林克,伦敦,英国,2004年。视图:出版商网站|谷歌学术
  13. 裴俊杰,韩俊杰,B. mortazavia - asl等,“PrefixSpan:通过前缀投影模式增长有效地挖掘序列模式”,发表于第17届国际数据工程会议论文集,页215-224,2001年4月。视图:谷歌学术
  14. J. Pei, J. Han, B. mortazawi - asl等人,“通过模式增长挖掘顺序模式:PrefixSpan方法”,IEEE知识与数据工程汇刊,卷。16,不。11,PP。1424-1440,2004。视图:出版商网站|谷歌学术
  15. R. Agrawal和R. Srikant,“采矿协会规则的快速算法”国际大型数据库会议的诉讼程序(VLDB '94),pp.487-499,1994。视图:谷歌学术
  16. D. I. Brooks, I. P. Rasmussen和A. Hollingworth,《自然场景中搜索上下文的嵌套:上下文线索的证据》,实验心理学杂志:人的知觉与表现,卷。36,不。6,pp。1406-1418,2010。视图:出版商网站|谷歌学术
  17. A. Prelić, S. Bleuler, P. Zimmermann等人,“基因表达数据的双聚类方法的系统比较和评估,”生物信息学第22卷第2期9,页1122-1129,2006。视图:出版商网站|谷歌学术

版权所有©2014 Noriyuki Matsuda和Haruhiko Takeuchi。这是分布下的开放式访问文章创意公共归因许可证,允许在任何媒介上不受限制地使用、传播和复制,但必须正确引用原作。


更多相关文章

PDF. 下载引用 引用
下载其他格式更多的
订单印刷副本订单
的观点954.
下载750.
引用

相关文章

年度文章奖:由主编评选的2020年杰出研究贡献。阅读获奖物品