文摘
条件概率的使用越来越受欢迎各领域如医学、金融和成像处理。这发生尤其是大型数据集的可用性,使我们能够提取可用的全部潜能的估计算法。然而,如此大量的数据往往伴随着一个重要的需要计算能力以及随之而来的编译时间。在本文中,我们提出一个低成本的估算方法:我们首先证明分析方法的收敛所需的概率,然后我们进行仿真来支持我们的观点。
1。介绍
一个事件的可能性会知道事件吗已经发生称为条件概率,用吗或 。例如,如果一个卡是随机从甲板,有四分之一的机会得到一个心套装,但是如果一个红色反射看到桌子上,现在有一个两个的概率。如果事件一个和B有非零概率,那么贝叶斯定理州吗 。这是科学的一部分,但在日常生活中也各领域条件概率是有用的,甚至获得越来越多的利益。例如,银行估计违约概率的借款人或债券发行人使用条件概率评估方法基于新巴塞尔协议规定(见[1]的更多信息)。这个概率的估计是至关重要的,因为它允许银行计算预期的损失和因此的后果。条件概率的估计是另一个领域重要的是营销,它是用来估计一个客户的利益在一个给定的产品或服务。因此,他们能够专注于最具吸引力的人口为了优化营销成本(2]。这个概率的估计也经常用于医学领域,作为医生需要估计病人的可能性受到特定疾病的影响基于症状的病人的礼物(3)和更多的领域,如药物发现,计算机视觉、语音识别、手写识别、生物特征识别、文档分类、网络搜索引擎、模式识别、和推荐系统4- - - - - -11]。
在实践中,我们分为两类条件概率估计方法,可分为线性和非线性分类器。线性分类器可以分为两个子分类,生成和歧视模型(12,13),最常用的是(我)Fisher线性判别(2)逻辑回归(3)朴素贝叶斯分类器
非线性分类器可以分为以下的方法:(我)线性分类器和转换数据,如连续变量离散化(2)支持向量机(3)二次分类器(iv)再(v)决策树(vi)神经网络(七)学习矢量量化
更多地了解这些不同的算法,看到14- - - - - -20.]。
让我们考虑一个可观测的随机二进制变量和一个随机变量 。我们定义这样
我们愿意估计向量这样的条件概率写在表单:
我们正在寻找一个简单的参数估计方法不会那么苛刻的计算能力。这是特别有用,在大数据时代,可以大规模数据集和任何常见的迭代估计可以花很多时间。为此,我们使用随机近似,它引入了1951年赫伯特·罗宾斯和萨顿孟氏[21]。目标是找到独特的根的一个函数 ,而不能直接观测到。然而,我们认为我们可以观察到一个变量这样 。根据(21),存在一个序列满足 等过程定义为 收敛于独特的根 。在我们的例子中,我们从Bennar等的工作。22)建立了几近收敛条件,以及随机梯度的二次平均收敛的过程的参数让我们的估计 。在这里,我们感兴趣的是二进制随机变量的情况下,在什么地方相当于 ,我们可以看到在下面:
我们也选择了这些结果作为我们工作的基础,因为随机梯度过程在每次迭代中进行抽样,以达到估计不依赖所有可用的数据。
在本文中,我们首先呈现收敛结果阐述了Bennar et al .,然后显示这些结果也有效估计的框架条件概率。我们也提出一个模拟强调结果,最后,我们结束我们的工作,解决发展的观点。
2。预赛
让我们考虑一个可观测的随机变量和一个随机变量 ,都有价值法律的 。我们试图估计参数在这样 方法在最小二乘意义上。还应该指出的是,逻辑回归的参数估计的最小二乘已经通过迭代加权最小二乘方法(23),与我们的目的不同,重和拥有巨大的计算能力的大型数据集。
让是真正的积极函数中定义通过 我们正在寻找的价值最小化函数 。
让我们定义真正的积极作用在通过
我们有 因此,问题降低了寻找最小化函数 。我们有
估计在顺序的方式,我们使用一个随机梯度算法。我们考虑一个随机在定义为 与(我) 是一个正实数序列(2) 是独立的随机变量的样本夫妇相同的概率法 (3) 是一个真正的已知的可测函数
在接下来的缩写 意味着几乎收敛 二次平均收敛。
2.1。几近收敛
Bennar等人考虑过以下假设: , , :存在和这样对所有 , :存在 这样对所有 , 是一个局部最小值的 : 独特的平稳点吗 :
引理1。在假设下 ,我们有
证明。参见[22]。
2.2。二次平均收敛
Bennar等人考虑过以下假设: 和 一致有界的和 。 :存在两个真正的积极功能和中定义的这样 , 是一个真正的随机变量有界的。
引理2。在假设下 ,我们有
证明。参见[22]。
3所示。应用程序
3.1。证明过程收敛
让我们假设 是的功能可衡量的实际变量。我们注意到
为了评估的价值,最大限度地减少 ,我们考虑以下随机逼近的过程在定义为 与 在哪里 是一个样本 形成独立随机变量和的分布相同。
我们假设以下主张: 观察到在一个有限的方式 是一个随机变量,这样
定理3。在假设下 ,我们有
证明。让是真正的功能
定义为
让我们证明了假设3是正确的。
我们有
为
,我们有
因此,对于
,我们有
随着
观察到在一个有限的方式,然后呢
然后,存在
这样对所有
,
让我们证明假设6是正确的。
我们有
与
;
然后,
和
,由于
观察到在一个有限的方式,那么存在呢
这样对所有
和
,
。然后,
和
一致有界的和
。
7让我们证明的假设是正确的。为此,我们使用下面的结果。
引理4(平均值不等式)。让和是两个真正的赋范矢量空间,一个开放的 ,和 一个可微的应用程序。对于任何一个段 包含在 ,我们有 任何时候,在哪里的 , 微分算子范数的吗点 。
证明。参见[24),31页。
然后,存在两个真正的积极功能和中定义的这样
,
让我们证明
,和
。
我们已经看到这一点
由于
观察到在一个有限的方式呢
。
此外,我们有
,然后
,由于
观察到在一个有限的方式呢
。
此外,由于是一个二进制随机变量,然后假设8是正确的。
然后,假设下
,我们有
3.2。模拟
为了说明我们的工作,我们进行一个模拟中我们估计一个逻辑回归的不同参数。我们的模拟使用的编程语言执行”R。“我们模拟观测的随机变量 ,我们定义这样 与 ,为了避免一个完美的拟合模型。然后,我们安装与费舍尔得分古典逻辑回归算法,融合在12次迭代。我们定义正确的数量分类的准确率观察在我们的观察的总数,和经典模型的精度90.34%。表1显示所有剩余的模型的输出。
关于提议的过程中,我们开始以下随机选择的值, ,我们选择 ;作为和是有限的,我们可以看到这个假设验证,我们还随机画一个观察的样本进行我们在每次迭代的计算。最后,我们也设立了一个精度 。模拟后,得到的结果如下。
通过数据我们可以看到1和2,以及人物3,聚集在10的迭代过程。因此,我们只需要10个样本的观察获得稳健估计的系数。此外,我们可以看到在图3在总结的过程中,在表2,后者记录预测精度的模拟观测的89%,因此损失1%的准确性,但是,作为回报,我们的计算能力大大增强。
4所示。结论
在这项工作中,我们证明了收敛过程的研究对值函数最小化 ,后我们的模拟,我们可以看到,这个理论结果也是有效的在经验层面上。然而,这个模拟要求我们任意设定一个起点,可能导致收敛速度慢的过程在远离目标的情况下,初始点是价值。此外,收敛速度也大大影响的选择 。因此,一个可能的改进将是找到最优序列提供最快的收敛。
数据可用性
没有数据被用来支持本研究。
的利益冲突
作者宣称没有利益冲突。