从地标数据中研究不完整和相交形状边界的探索性方法

摘要

结构化空间点模式出现在自然科学的许多应用中。这些点通常记录了连续物体边界上关键特征的位置，称为地标，比如人类面部的解剖特征。在其他情况下，点可能只是沿着平滑曲线任意间隔的标记，例如手写数字。摘要提出了一种新的点数据集结构识别探索性方法。特别是，点连接在一起形成曲线，估计原始形状，而点是唯一记录的信息。非参数回归方法应用于从点位置获得的极坐标变量，周期性建模允许封闭曲线拟合，即使只有部分边界上的数据可用。此外，该模型允许识别不连续来描述曲线的快速变化。当点代表被遮挡或相交的形状时，这些概括是特别重要的。一系列的实际数据例子被用来激励建模和说明方法的灵活性。该方法成功地识别了底层结构，其输出也可作为进一步分析的基础。

1.介绍

许多科学调查都涉及到空间定位数据的记录。这些数据可以将图像中的物体概括为连续曲线的数字化版本。一旦数据被收集，通常原始的背景就会丢失，分析的目的是识别哪些点彼此关联，并将这些点连接起来重建原始的形状。这些可以被看作是连续曲线和物体轮廓的估计。如果原始场景包含多个结构，那么分析也必须将点分成组，用单独的曲线来描述每组中的点。需要注意的是，这可能只是分析的第一部分，因此可以视为探索性数据分析。

这篇文章着眼于使用平滑样条来识别和描述点集的几何模式。假设这些点位于平滑曲线上，但数据集可能包含多条相交曲线。以非参数的方式完成这一工作非常重要，这样可以突出显示最广泛的模式范围。一般来说，这些是闭合的，或近似闭合的曲线，因此用极坐标变换来简化分析。相交曲线用允许在拟合曲线中出现不连续来描述。这些程序说明使用模拟数据和各种真实数据集描述人的脸，大猩猩头骨，手写数字3，和一个考古地点。这些方法提供了各种各样的点模式，并增强了所建议方法的普遍实用性。有关基于形状的点分析的数学详细描述和应用，请参阅Batschelet [1], Bookstein [2， Dryden和Mardia [3.，以及乐乐和里茨迈耶[4］．

为了考虑到这种多种可能的曲线，可以使用非参数拟合方法，如样条(见5，6])。这种灵活性有助于对数据集进行探索性统计分析，结果可用于建议参数方程，供以后分析使用。非参数回归是一系列曲线拟合技术的总称，这些技术很少对真实形状做出先验假设。在非参数回归中，可以用几种不同的基函数族来描述曲线;样条是平滑曲线的一种常用基。样条一般定义为分段多项式，其中曲线或线段连接在一起形成一个连续函数。本文讨论了非参数回归的样条平滑方法，如Silverman [7，并由Silverman和Wood通过定义粗糙度惩罚来处理分支曲线[8］．有关自然三次样条的介绍，请参阅Green and Silverman [9］．有关统计中的样条方法的更多回顾，请参阅Wegman和Wright [10),西尔弗曼(11),西尔弗曼(7], Nychka [12]和Wahba [13］．

需要注意的是，已有许多用于执行基于样条的回归的通用框架。例如，多元自适应回归样条(MARS) [14或其更健壮的概括，RMARS [15]及RCMARS [16]，对[17］．它们遵循一般加法模型的一般方法[18，并给出拟合和模型选择的形式化框架。

本节中给出了对样条的简要介绍，以及对循环数据的扩展2．本节给出了本文的主要结果3.通过考虑单曲线遮挡和多相交曲线的建模。虽然使用了模拟的例子来说明，但主要的实际数据例子在本节中给出4．一般讨论见章节5．

2.非参数曲线估计和周期样条

平滑样条是定义为极小化问题解的非参数曲线估计器。它提供了一个灵活的平滑函数的情况下，简单的多项式或非线性回归模型是不合适的。一组观察考虑一个回归问题，其中假设观测值满足要求错误的地方平均值为零，方差为常数，不相关，．然后用样条平滑法来构造曲线通过最小化目标函数在哪里代表了th的导数,是一个正整数为平滑参数。有关平滑样条的更多细节，请参见Eubank [19], Eubank [6]，以及坎通尼和哈斯蒂[20.］．平滑程度的另一种定义是用等效自由度，Df，它描述了估计残差所需的数据信息量。这个函数smooth.spline［21)允许或Df具体来说，但是自由度已经被用在接下来的内容中，因为这给出了一个更直观的解释。

上述目标函数由两部分组成:第一部分测量函数和数据的一致性，第二部分是反映总曲率的粗糙度惩罚——这也可以在贝叶斯设置中解释为可能性和先验。因此,对于给定Df的估计是由如果Df是大的，那么函数是粗略的，但紧密地符合数据，然而，当Df是小的，那么函数是平滑的，但可能不适合的数据。这里选择Df使用标准遗漏一交叉验证自动生成[22];也就是说, 在哪里对于给定参数，拟合的是样条曲线吗，与数据点,,被删除。然后为自由度交叉验证估计的拟合曲线。

数字1用不同自由度的样条显示拟合曲线，Df．真正的曲线是一个带噪声的正弦函数，对应一个信噪比( )的．(一)Df大约是(b)中使用的交叉验证的一半，(c)使用两倍的交叉验证自由度。小自由度值给出了更平滑的拟合曲线，忽略了数据中的许多点，而大自由度值产生了更接近数据的粗糙拟合。自动的选择是这就很好地拟合了复制sin曲线的数据。

(一)

(b)

(c)

对于这个数据集，到目前为止，sin函数的周期性被忽略了，很明显，极左和极右并不完全匹配。对于这些由角度或方向组成的数据集，忽略平滑可能产生不可接受的边缘效应时测量值的周期性。现在将考虑一种处理这个问题的简单方法。

假设数据集由成对的角度和距离组成，表示为为大小样本．一种简单的周期数据测量方法，比如，重复数据。也就是说，对于每个角，对应的新角值为,在那里，并重复相应的径向距离是．这就产生了一个数据集，,数据值，甚至为小(例如,或)给出了一个非常好的近似全周期样条。考伯恩和戴维斯[23提出了周期平滑样条理论，并将其应用于周期函数和R函数的估计periodicSpline从包样条函数可能提供另一种计算方法。

作为说明，请考虑图2其中显示了与图中相同的拟合曲线1但随着．实圆是原始数据，而开圆代表复制的数据点。类似地，实线是在原始区间上的样条拟合曲线，虚线显示在复制的数据点上的拟合曲线。在所有情况下，适合比图1和之前一样，交叉验证选择的平滑方法已经产生了一个很好的再现真实的方法曲线。

(一)

(b)

(c)

一旦拟合了残差平方和，RSS，根据原始数据值计算，可以用作衡量拟合优度。这里将使用定义的径向距离来计算但也可以使用其他版本，例如，拟合点与观测点之间的欧氏距离。

当然，如果数据不是周期性的，这种方法可能会导致不合适，但为了防止这种情况，可以允许关系中的不连续。在这里，顾的方法[24，他考虑了三次样条在已知位置有跳跃的间断，将推广到具有未知间断位置的周期情况。

假设这些点分为两组，第一组，，包含所有角度大于或等于变换点和的点上面有角的。假设这些点是按角度递增的顺序排列的，这样,然后让是更改点之前的数据剩下的数据。改变点在用两条曲线拟合数据交叉验证是在两个部分单独使用的，导致两个自由度，．改变点的显著性可以通过卡方检验来评估，但这里的改变点影响图是基于拟合优度来考虑的。

考虑到数据如图所示3(一个)大小变化点在哪里介绍了在．图中的曲线3(一个)用平滑样条拟合，但忽略改变点，图3 (b)在估计的位置上使用平滑样条进行拟合。自动选择的自由度值，，对于(a)中的单条曲线为而对于两部分曲线，总的自由度是．数字3 (c)显示了每个可能改变点位置的残差平方和，RSS，具有非常明确的最小值。图中曲线的RSS3(一个)是而在(b)中，它已经减少到，它实际上更小，并提供了更好的数据描述。因此，这种方法提供了一种直观的方法来自动查找数据中的更改点。

(一)

(b)

(c)

3.多重重叠曲线的模型

3．1.动机

为了激发建模，考虑一个未被观察到的真实场景，包含一些不同形状和大小的物体，可能有重叠。然而，不是真实地记录场景，只获取部分信息，特别是，只记录沿着物体边缘的点。可以选择这些点来识别具有特殊意义的特征，或者它们可能只是沿着边缘处于相同或随机的位置。此外，由于重叠，来自完整边缘的点可能不在数据集中。一旦收集起来，就没有关于哪个点来自哪个对象的记录，也没有关于可能的对象形状甚至对象数量的记录。因此，让数据集由集合组成点,，记录在一个小范围内2D。

数字4显示示例数据集，将在稍后分析。图(a)显示的是人的面部轮廓，左边的前额、眼睛、鼻子、嘴巴和下巴清晰可辩，右边的点位于脖子后部和发际线。面板(b)显示沿手写数字3以近似等间距排列的点。

(一)

(b)

３．２．用遮挡建模单个曲线

在应用周期平滑样条方法之前，必须先将数据转换为极坐标。首先定义一个中心，，可以用数据质心进行估计然后使用一对一变换这就产生了另一种通过中心的数据表示方式和极坐标．注意，尽管这种表示包含信息片段，通过构造，极坐标变量不是独立的。当然，中心点的其他估计也可以考虑，例如使半径方差最小的点。特别地，这种测量方法对于遮挡的存在应该更加稳健。

为了说明变换和随后的样条平滑，考虑图中的模拟数据5．图(a)以“+”号显示给定的点和样本中心;(b)中的点是相对于这个中心的极坐标。(b)中还显示了非周期平滑样条(连续的黑线)和周期平滑样条(红色虚线)。除了极端角度外，这些都是紧密对齐的。一旦转换回笛卡尔坐标，如面板(c)所示，拟合样条之间的细微差异就更清晰可见了。在图的最右边，周期样条曲线是闭合的，更自然地表示一个可能的对象，而非周期样条曲线不是闭合的，这使得很难解释这是否是一个真实对象的边缘的一部分。

(一)

(b)

(c)

数字6显示第二个椭圆数据集，但其中部分椭圆缺失。(a)和(c)为笛卡尔坐标数据，(b)为极坐标变换数据。(b)为非周期样条曲线和周期样条曲线，两者差异较大，将拟合曲线转换回笛卡尔坐标后，差异更明显。如面板(c)所示。周期平滑样条在插值曲线缺失部分方面做得很好，其结果在进一步分析中可以很容易地依赖。特别地，对于非周期样条，一些临界点位置的微小变化将导致非常不同的形状。

(一)

(b)

(c)

综上所述，平滑样条在周期点数据中的应用是非常成功的。修改重复数据是一种简单而有效的方法，可以创建闭合曲线，并在数据缺失的地方插入数据。该方法提供了一种从数据中重建未知曲线的健壮性和信息性。

3．3．多相交曲线建模

为了使曲线相交和重叠，这些点被分割成几个部分组,,在那里．也就是说,与当和．以矩阵形式记录组成员关系定义,如果点属于集团和否则。然后,和,在那里点数是多少th组;也就是说,．对于极坐标下的每一组，都有一个中心，，以及相对于中心的坐标，，完整的参数集表示为．对应的笛卡尔坐标可以写成, 和完整的数据收集．此外，还假定点的位置记录有误差，给出了观测数据在哪里和是均值为零、方差为常数的独立高斯随机变量吗．

在接下来的内容中，完整的数据集将在不作进一步解释的情况下引用和或类似地，但不明确引用组成员，和As是最方便和直观的。

3．4．多相交曲线的估计

现在考虑从观测数据中对模型未知数的估计。首先假设一个数据集是可用的，但是组成员信息是完整的;那么团体中心可以被估计为虽然有些不重要，对应的点的极坐标表示相对于群体中心是在哪里和．总的残差平方和是单独分量的和

现在考虑这样一种情况:组成员身份未知，必须从数据中推断出来。其目的是通过拟合曲线找到连接点。有些数据集有多条曲线，有些数据集有相交曲线。然后将点分类成组可能有助于拟合代表数据的正确曲线。

一般来说，这可以被认为是一个变点问题，正如已经讨论过的，以解决值缺乏平稳性的问题。改变点发生在数据的某一点，如果在它之前和包括它的所有值共享一条共同的曲线，而在改变点之后的所有值共享另一条曲线。这与Section中讨论的情况完全相同2因此采用了相同的解法。

4.在实际数据中的应用

4．1.一般

前几节已经在模拟示例中说明了所提议的探索性数据分析工具，而在本节中，该方法的成功将在各种不同的真实数据集上进行演示。我们不希望构建形式方程来定义形状，而希望进行进一步的分析。

4．2．例1:面部数据

第一个实验是从人脸中提取的数据[25在一项研究中，研究人员观察了由于儿童成长而导致的体型变化。数字7(一)用点连接点来显示数据;(b)为拟合样条曲线转化为极坐标的点。数字7 (c)图中为反变换拟合值的数据集，实曲线为标准样条的拟合值，虚线为周期样条的拟合值。从拟合曲线可以明显看出，周期平滑样条与标准平滑样条之间并没有太大的区别。两者都能产生适合脸部的曲线。值得注意的是，拟合曲线可以在任意接近的位置进行评估，而不仅仅是在数据点上，因此可以绘制平滑的插值曲线。

(一)

(b)

(c)

4．3．例2:大猩猩头骨

这个数据集取自Dryden和Mardia [3.，由29只雄性和30只雌性大猩猩头骨上的8个解剖标志组成。地标定义为在种群之间和种群内部匹配的每个对象上的对应点［3.］．数字8(一个)展示了一个典型头骨的示意图，并标明了地标。

(一)

(b)

(c)

数字8 (c)显示了一只雄性大猩猩和图的地标8 (b)将相应的点在极坐标下与数据集进行样条拟合，如图所示8 (c)back-transforming之后。对于这两种情况，拟合都很好，但以样条平滑度低为代价。这种拟合过程对其他大猩猩的头骨进行了重复，令人惊讶的是，平滑的曲线给出了很好的总结，使头骨可以很容易地分为四个主要群体，其中主要是男性头骨，它们比较长，另外两个主要是女性头骨，它们看起来比较圆。雄性通常会导致更大的自由度值( )多于女性( )．事实上，自由度参数的自动选择可以作为一个简单的区分变量，在59个分类错误的头骨中只给出8个。值得注意的是，这不是一个先入为主的鉴别者，而是通过探索性分析确定的。这突出显示了简单而灵活的工具作为更广泛调查的初步步骤的用处。

4．4.例3:数字3

另一个数据集，同样取自Dryden和Mardia [3.，由30个手写的3号符号中的13个地标组成;参见图9(一个)．假设数据被分成两个子集和分别观察。根据总残差平方和RSS的最小值进行最佳划分。这是显示在面板(c)。每个子集转换到极坐标系下使用不同的中心标志着“+”面板(a)。每个子集由不同的标志表示连同他们的样条曲线绘制在安装面板(b)与back-transformed面板(a)的拟合曲线。很明显,这很好地描述了两部分曲线。这再次证明了这个过程的灵活性。

(一)

(b)

(c)

4．5.例4:考古遗址数据

图中的数据10 ()显示了典型图像数据集的一部分(由Guiting Power Amenity Trust的Alistair Marshall提供;参见Aykroyd等人[26[以了解详细情况)。除了表示沟渠的线性特征外，还有一些凹坑的漂移，但模糊和噪声往往会掩盖准确的位置。面板(b)显示了这些坑的位置，显示为小圆圈，面板(c)显示了相对于两个数据中心的相应极坐标(在(b)中标记为“+”)。根据残差平方和的最小值RSS，将观测数据自动分为两组。

(一)

(b)

(c)

为每个子集计算数据中心，小圆圈是第一个子集中的数据，“是第二子集中的数据，其拟合曲线绘制在图中10 (c)．然后将拟合曲线反变换为笛卡尔坐标，如图(b)所示。实曲线为第一个子集，虚线为第二个子集。分析的目的是确定哪些点是相互关联的，并将曲线拟合到这些点上，这一点已经实现得很好。由此产生的连接点可能会成为进一步分析的一部分，或有助于物理挖掘。

5.讨论

在许多统计调查中，弄清楚明显随机分布在2D区域的点云是一项关键任务。当记录点时没有附加信息，第一个任务是使用数据驱动方法通过链接点来推断结构。本文提出并研究了一种基于变点识别和非参数样条平滑的简单而有效的方法。它提供了一个直观的解释性工具来识别点位置中的模式。当假设结构形成直线和曲线时，变化点将数据划分为子集，样条提供了一种灵活的方法来推断结构的形状。该方法易于处理多曲线场景中的遮挡和交叉。采用更一般的建模方法，如MARS、RARS、RCMARS，也可能获得类似的结果;详情请参见，例如，[17，但我们相信，通过将一系列易于使用的工具带给更广泛的受众，更直接和直观的方法可以产生同样的影响。此外，对于所有用户来说，方法考虑因素可用于建议基于更复杂方法的进一步分析。

扩展该方法的范围可以包括更多的曲线，在这些曲线中不可能用单个改变点分割曲线。问题的本质与缺少组成员的分类密切相关。这强烈地表明，可以考虑基于统计分布模型的概率方法。这将适合EM算法已经证明非常有用的一般框架。此外，还需要扩展该方法来处理无序点和非星形点。这些都是未来可能的工作领域。此外，开发一个类似的程序是很有意义的，它将允许更正式的建模和模型部分，也许遵循一般的加法建模方法[18］．

当数据点是由几何特征定义的解剖标志，等距但盲目地沿着平滑曲线放置点和灰度图像中的极端强度点时，该方法的应用是多种多样的。此外，分析的结果提供了新的变量，可以作为其他分析的起点。因此，这有可能成为应用统计学家和应用科学家工具包中有价值的探索性数据分析方法。

相互竞争的利益

作者声明本文的发表不存在利益冲突。

参考文献

e . Batschelet生物统计循环《学术出版社》，英国伦敦，1981年。视图:MathSciNet
f . l . Bookstein地标数据的形态测量工具:几何学和生物学，剑桥大学出版社，英国剑桥，1991。视图:MathSciNet
I. L. Dryden和K. V. Mardia，统计形状分析，《概率与统计的威利系列:概率与统计》，约翰·威利父子公司，英国奇切斯特，1998。视图:MathSciNet
S. Lele和J. Richtsmeier，形状统计分析的不变方法，查普曼和霍尔/CRC, 2001。
t·p·瑞安,现代回归方法《概率与统计的威利系列:应用概率与统计》，约翰·威利父子公司，纽约，美国，1997。视图:MathSciNet
r . l . Eubank非参数回归和样条平滑， Marcel Dekker，纽约，纽约，美国，1999。视图:MathSciNet
B. W. Silverman，“样条平滑法非参数回归曲线拟合的某些方面”，皇家统计学会学报B，第47卷，第47期。1，第1 - 52页，1985。视图:谷歌学者|MathSciNet
B. W. Silverman和J. T. Wood，《分支曲线的非参数估计》，美国统计协会杂志，第82卷，第2期398，页551-558,1987。视图:出版商的网站|谷歌学者|MathSciNet
p·j·格林和b·w·西尔弗曼，非参数回归和广义线性模型:粗糙惩罚方法查普曼和霍尔，1994年。
E. J. Wegman和I. W. Wright，《统计学中的样条曲线》美国统计协会杂志第78期382页，351-365,1983。视图:出版商的网站|谷歌学者|MathSciNet
B. W. Silverman，“在样条回归中平滑参数选择的快速和有效的交叉验证方法”，美国统计协会杂志，第79卷，第5期。第2页，1984年。视图:出版商的网站|谷歌学者|MathSciNet
D. Nychka，《作为局部平滑器的样条曲线》统计年鉴，第23卷，第2期。4，第1175-1197页，1995。视图:出版商的网站|谷歌学者|MathSciNet
G. Wahba，“非参数回归中的样条”，在百科全书的Environmetrics， John Wiley & Sons，纽约，纽约，美国，2006。视图:出版商的网站|谷歌学者
J. H. Friedman，“多元自适应回归样条”，统计年鉴，第19卷第1-67页，1991。视图:谷歌学者
A. Özmen和G. W. Weber，“RMARS:多元自适应回归样条在多面体不确定性下的稳健化”，计算与应用数学学报，第259卷，第914-924页，2014。视图:出版商的网站|谷歌学者|MathSciNet
A. Özmen, G. W. Weber, I. Batmaz, E. Kropat，“RCMARS:多面不确定性集下不同场景下CMARS的鲁棒性”，非线性科学与数值模拟通讯，第16卷，1780-1787页，2011。视图:谷歌学者
a . Ozmen样条模型与复杂调节网络的稳健优化《管理科学的贡献》，施普林格，2016。视图:出版商的网站|MathSciNet
t。j。Hastie和r。j。Tibshirani，广义可加模型，查普曼和霍尔/CRC, 1990。
r·l·尤班克，《平滑样条的诊断》，皇家统计学会杂志。系列b方法，第47卷，第47期。2，页332-341,1985。视图:谷歌学者|MathSciNet
E.坎托尼和T.哈斯蒂，“平滑样条的自由度测试”，生物统计学，第89卷，第89期。2，页251-263,2002。视图:出版商的网站|谷歌学者|MathSciNet
R核心团队,R:统计计算的语言和环境，， R基金会统计计算，维也纳，奥地利，2016，http://www.R-project.org/．
P. Craven和G. Wahba，“用样条函数平滑噪声数据:用广义交叉验证方法估计平滑的正确程度”，数值数学， 1979年第31卷，第377-403页。视图:谷歌学者
R. Cogburn和H. T. Davis，“周期样条和光谱估计”，统计年鉴，第2卷，1108-1126页，1974。视图:出版商的网站|谷歌学者|MathSciNet
顾小明，《多元样条回归》，载平滑与回归:方法、计算与应用， M. G. Schimek, Ed.， pp. 329-354, John Wiley & Sons, New York, NY, USA, 2000。视图:谷歌学者
R. J. Morris, J. T. Kent, K. V. Mardia, R. G. Aykroyd, M. Fidrich和A. Linney，面部生长的探索性分析，利兹大学出版社，1999。
R. G. Aykroyd, J. G. Haigh，和G. T. Allum，“贝叶斯方法应用于考古磁力测量的调查数据”，美国统计协会杂志，第96卷，第2期453页，64-76页，2001。视图:出版商的网站|谷歌学者|MathSciNet

概率与统计杂志

摘要

1.介绍

2.非参数曲线估计和周期样条

3.多重重叠曲线的模型

3．1.动机

３．２．用遮挡建模单个曲线

3．3．多相交曲线建模

3．4．多相交曲线的估计

4.在实际数据中的应用

4．1.一般

4．2．例1:面部数据

4．3．例2:大猩猩头骨

4．4.例3:数字3

4．5.例4:考古遗址数据

5.讨论

相互竞争的利益

参考文献

版权

更多相关文章

相关文章