文摘

(1)背景。病人越来越多地使用医生在线评论(PORs今年)学习护理的质量。病人受益于使用PORs今年和医生需要知道这个评估如何影响他们的治疗决策。当前工作的目的是调查关键定量和定性因素的影响在医生检查乐于助人(RH)。(2)方法。数据包括45300 PORs今年跨多个疾病类型被刮掉Healthgrades.com。基于信号理论,基于机器学习方法的混合方法(即。,text mining and econometric analyses) were performed to test study hypotheses and address the research questions. Machine learning algorithms were used to classify the data set with review- and service-related features through a confusion matrix. (3)结果。关于回顾相关信号,RH主要是受到审查可读性,多嘴,和特定的情感(积极的和消极的)。关于服务相关信号,结果表明,服务质量和受欢迎程度对RH至关重要。此外,审查多嘴,服务质量,欢迎更好的预测认为RH比轻度疾病的严重疾病。(4)结论。实证调查的结果表明,平台设计者应设计一个推荐系统,减少了搜索时间和认知处理成本为了帮助病人治疗决策。研究还揭示,评论和医生RH服务相关信号的影响。使用基于机器学习sentic计算框架,研究结果促进我们理解离散的情绪的重要作用在决定RH。此外,研究还通过比较不同信号的影响感知RH跨不同的疾病类型。

1。介绍

理解病人的偏好医疗行业的服务质量是至关重要的和医疗服务提供者制定最优策略来改善患者的护理质量(1]。越来越受欢迎的医生评级网站(PRWs),可以获得更好的信息关于病人的选择影响因素的选择正确的医生(2]。与传统调查用于收集信息在病人的偏好和治疗经验,医生在线评论(PORs今年)提供了一个丰富的知识而不干预的研究人员或医疗组织3]。最近的研究表明,PORs今年是特定类型的口碑,在病人的决策中扮演着一个重要的角色。4]。PORs今年是知识的重要来源对于很多患者正在寻找一个好医生5]。他们认为这些PRWs寻找最好的医生(一个重要来源6,7]。这些PORs今年提供真实的信息对病人的健康但同样为一个医生和病人之间的关系不断发展(8,9]。

使用特性工程识别有用的评论,用户能够减少搜索成本。尽管PORs今年整个用户选择负担减轻,他们也引发许多问题,如提供错误或不恰当的信息(10]。因此,它是至关重要的探索审查乐于助人(RH)通过识别的特点非常有用的评论。在先前的研究,审查评估主要集中在定量评估的特点(例如,评级、价和情绪极性)(11,12]。沙et al。13)表明,服务质量的在线评论分散显著影响RH。研究人员还表示,评论为流行的服务得到更多的有用的选票(10,14]。远离定量措施,最近的研究集中在定性的措施(例如,可读性、字数和情感)评估RH (11,12,15,16]。在考虑多个评审类型和相关的关键问题,然而,乐于助人是很微妙的,评论的定量措施也同样有用,而其他人可能会考虑定性特征作为更有帮助15]。方等。17显著影响感知RH)表示,文本可读性。毛罗·et al。18)透露,审查多嘴是RH的有意义的预测因素。马利克和侯赛因的研究(19]表明,离散的情绪是最主要的情绪感知RH更大的影响力。任和香港20.)发现了一个重大的负面情绪和RH之间的关系。这表明,各方面的信息和行为的购买决策过程是有益的(21- - - - - -23]。

相当长一段时间,研究RH的话题引起了学术兴趣商品在搜索和经验背景(19,20.,24]。RH的想法也得到了研究者的注意力在医疗保健领域,分为货物凭证。与其他商品相比,信用产品是独特的因为相信商品的质量不能确定即使在效用已经消耗(25]。评估的有效性PORs今年相比,产品和服务评价是具有挑战性的,因为商品的提供者定义了效用的影响,创建一个信息不对称状态。结果从先前的研究显示,患者,乐于助人的PORs今年起着关键的作用在治疗决策过程和医生提高医疗服务的质量(13,22,23,26]。然而,RH没有彻底调查的定量和定性指标的同时相信商品上下文(医疗)。本研究因此构思扩大研究RH早些时候探索不仅定量因素(价和量),但可读性等定性评价的特点以及功能,多嘴的特性,和离散的情绪。因此,本研究将不同的审查属性(概念级别潜在)和服务特征和隐式评估病人的不同情感运用sentic威尔士等人提出的计算模型。27)计算医生RH。

此外,患者对医生的看法不同服务质量在两个主要疾病类型:严重的疾病(高疾病严重程度)和轻度疾病(疾病严重程度较低)。疾病的严重程度决定了有多严重的影响类型的疾病(28- - - - - -30.]。因为疾病严重程度通常是与未指明的意外死亡率等因素相关,增加了治疗成本,更严重的疾病患者,住院时间延长,往往更担心他们从医生接受治疗的质量比那些不太严重的疾病(8]。我们的方法表明,审查和服务相关的信号高度与乐于助人的计数PORs今年影响决策的病人患有不同疾病类型(high-illness严重性比low-illness严重性)。使用过多的信息提供的PORs今年Healthgrades.com和用户的在线医疗服务他们选择治疗(PORs今年),我们应用文本挖掘和计量经济学的方法来确定信号机制,影响病人的治疗选择不同的医生。此外,辅助数据分析和机器学习分类方法被用来构建更精确的模型预测医生RH。由于这些考虑,本研究将尝试回答随后的研究问题(rq):RQ1。各种评论——有什么影响和服务相关的信号对医生RH吗?RQ2。如何具体的情感(快乐、悲伤、惊讶、信任、愤怒、期待、厌恶、恐惧和)与回顾相关信号影响医师RH隐式?RQ3。疾病类型有什么作用在审查之间的关系和服务相关信号和医生RH吗?

这项工作有助于数字医疗文献通过区分两种信号(审查和服务相关信号)和探索对在线医生RH的影响。利用信号理论,研究有助于RH的概念化和解释功能从定量和定性两方面。数据集,其中包括45300 PORs今年Healthgrades调查了十个假设。该模型被成功验证,和关键组件,将相关意见的读者被发现。相关文献的研究结果增加了通过提供更多的理解结构特点(定性和定量)的评价和影响RH (18,19,31日]。研究结果表明,审查和服务相关信号明显和积极影响感知RH。第二,考试后的微分影响医生RH,我们检查的效果截然不同的情感(情绪)RH。尽管现存的研究一直在进行情绪表达PORs今年的作用[22,32,33),研究领域知识的专业离散的在线文本情感分析评论一直被忽视。本研究探讨了双边离散情感嵌入PORs今年对医师的影响RH。结果表明,双面的评论(正面和负面的情绪)显著影响RH。第三,本研究利用环境不确定性的想法,被称为疾病类型在虚拟医疗市场设置在先前的战略研究22,26,28,33,34]。本研究扩展了以前的研究和进步信号理论的范围通过检查如何审查和服务相关信号的影响医生的RH根据不同类型的疾病进行治疗。研究结果显示显著积极的调节效应的疾病类型之间的关系回顾多嘴,服务质量,服务受欢迎程度和感知RH。我们专注于多重方法分析,包括隐式和领域知识专业sentic计算情感分析和计量经济学方法来预测医生RH。提出了多重方法模型显示了一个性能优良的分类精度为91.12%。

2。理论背景

RH是指多少次有用的评论被评为其他评论者为了指导购买决策(35]。混杂的评论发布了一个商品的变化使它具有挑战性的客户评价有用的实体。大量的有竞争力的商品和不知所措的数据很难在线消费者的决策。PRWs RateMDs和Healthgrades是有用的先锋平台投票来缓解这个问题。

特别是,该特性明确利用众包来确定评论的乐于助人。一个问题之前,每个评论,“这是评论有用吗?“消费者阅读评论会通过点击投票选择:是或否。评论接收乐观或者关键的乐于助人选票紧随其后指出,例如,“本文是有用6的9人读它。“最有益的满意和负面评论为单个商品最后最高评级网站评论的列表。评级网站排名基于帮助客户反馈得分,最大限度地减少客户的时间来寻找有价值的信息(36]。有用的投票,加上客户反馈,提供广泛的信息,研究人员可以观察的因素可能会影响消费者的购买决定在网购环境(37]。因此,提高RH是积极与产品销售,主要是如果他们是有利的14]。乐于助人的投票功能已经得到了科学界的广泛关注。例如,RH的主要组件,如评审价(12,38),体积(14),深度评论(15,16,39),语言特征(23,40[],可读性11),和情感41,42)被用来预测RH。

许多PRWs建立同行评议系统,让人们做出医疗决定基于他们是否找到了一个评论有用(13]。例如,Healthgrades.com提供的服务提出了两大most-rated评论提交的在线健康消费者帮助其他客户评估医生护理的质量。使用这些有用的投票代表检查诊断,让分离的有益和无益的评论(38]。换句话说,评论中包含的有用信息可以帮助消费者健康评估医生服务质量的属性。这意味着互联网信息来源更有用的评论可以帮助病人感觉更自信他们的咨询意向(43]。符合这一观点在医疗,病人的行为和利益也在不同的疾病类型转变。例如,一个一个高风险患者疾病收到不同程度的关心比低风险患者的疾病。严重疾病的病人可能更容易受到比患有常见疾病医疗质量。之前的研究表明,个人健康状况有一个很大的影响他们的决定去拜访一位医疗专业(8,28,44]。

RH的文学关注的经济学知识和它如何改变买方购买决策过程为了减少购买与产品相关的不确定性(38]。之前所做的调查是由信号理论,它提供了一个理论框架解释PORs今年的微分信号的影响。在这次调查中,我们使用信号理论来描述信号包含在PORs今年和RH之间的关系。根据信号理论,信号有助于减少两个事务参与者之间的信息不对称。斯宾塞(45)表明,各交易所之间存在信息不对称,信息交换。信号,网络环境是重要的,因为他们帮助最小化信息鸿沟时空差距使不同的合作伙伴之间信息不对称严重[46]。信号接收器信号周期的关键组件。结果,发送方沟通与接收机通过信息(信号),接收方感知有用的信息(47]。互联网信息的实质影响利益相关者的决策表明,个体拥有的知识越多,越提高他/她的决定将使(48]。

信号理论有助于减少医生和病人之间的信息不对称。人们知识水平较低的医疗服务提供者会发现信息的可信度的人知道很多关于它。因此,对等的角度可以帮助评估信息质量和减少信息不对称28]。先前的研究人员利用信号理论探索众多信号在医疗保健25,28]。虽然早期的研究主要集中在发送方的洞察力而忽视了接收机的意见、各种signal-related元素之间的债券可能大大影响RH接收者的经验。信号理论(28]州接收者(病人)需要补充信息(信号)关于医疗保健的质量来减少信息不对称之前联系自己的供应商。

信号理论认为环境的不确定性可能会严重影响人们如何处理信号。根据信号理论,各种信号传输的影响病人的选择不同各种设置(25]。信号环境是至关重要的在确定哪些信号采用和信号的强度是由信号控制的生态系统在其运作47]。信号的预定收件人是用户有兴趣学习更多关于医疗服务,如RH。保持查看用户生成内容的可用性PORs今年可能影响考试的元素在不同疾病情况下影响RH(疾病严重程度)。

虽然上述讨论的主要目的是提高网络审查的框架促进更乐于助人的选票,没有做什么来探索如何审查和服务相关因素的相互作用与运动的乐于助人。还没有得出一致的结论有关的重要因素影响的几率是乐于助人。此外,疾病类型RH的作用尚未被广泛研究。我们的工作填补知识空白。

3所示。假设开发

这项工作提出了研究假设检验的影响各种审查——医生RH和服务相关信号。前者认为三个特性:可读性,词不达意和离散的情绪,而后者考虑了服务质量和知名度。最后,这项工作检查的病人的医生评估RH不同在不同的疾病类型。图1提出了研究模型。

审查的可读性意味着容易读者如何理解写作的一块。在线评论作为输入变量时,必须理解为了使购买决定(19]。现存的研究表明,可读性的水平是个体如何遵循产品信息(11]。可读性已被确定为一个重要的组件在客户感知的网络虚拟网络的信息。足够的审查可读被认为是更有利于消费者,而不是过于冗长,包含几个印刷错误,很难读(12,49]。后读的评论可以帮助病人节省搜索和认知成本更容易找到正确的信息(23]。因此,我们假设更容易理解文本是健康评价平台,更有用的审查。

假设1。(H1)PORs今年的更高的可读性是正相关的更高RH选票。
一篇冗长的概念通常被认为是信息的数量在一个详细的审查或长(23,50]。研究人员日前,决策者理解信息的能力是阻碍当的数据量过高或过低。信息对买家有一个负面影响决策不足(39]。之前的研究也显示,极端或知识过载有负面影响在一些人(RH15]。审查的长度被认为是一个重要的预测RH (16,38]。根据先前的研究,冗长的审查被认为是有益的和作为直接成比例的知识生成的审查。然而,在过度重复的事件的概念,误解和不必要的细节,多嘴可能导致贫困评估乐于助人的15]。因此,后再评论时提供广泛的信息可能减少病人的搜索成本由于增强信息诊断(26]。因此,我们有以下假设。

假设2。(H2)审查多嘴是正相关的更高RH选票。
情绪相关规定PORs今年因为他们影响病人的临床决策(22,28]。情绪被描述为一个评价转变一个人的感受的51]。评论,包括积极和消极情绪的评价产品或服务是最好的信息来源51- - - - - -53]。研究人员称混合发现正负情绪嵌入在审查的连续与一些研究人员发现积极情绪是更有用的19,22,42),而其他组织的学者表示负面情绪越来越多的诊断和帮助20.,54]。审查被认为是更重要的,因为这给了明确的信号是否应该考虑服务。因此,特定的情感信号(即。,joy, sadness, surprise, trust, anger, anticipation, disgust, and fear) have an effect on how health consumers perceive the RH [22]。因此,我们假设以下。

假设3。(H3)离散情感嵌入PORs今年是正相关的更高的RH选票。
消费者使用服务的特征、功能和特性,分析并形成意见他们接收到的实际的服务水平(55]。服务质量显示用户如何考虑它们所使用的服务的优势或弱点(10]。患者对服务质量的看法是由信息服务的质量得到同行(56]。例如,患者想咨询医生更高星级的护理质量(8]。服务评级已被证明与RH(有正相关37,41]。保持在视图的范围的研究中,医生的评级表明人们是否有一个优秀的或负面的看法,他们的医生(33]。人们更有可能吸引到高质量的服务,同时他们也更倾向于给予积极的反馈对他们的经验(57]。因此,我们假设以下。

假设4。(H4)医生有特殊服务质量正相关的更高RH选票。
的普及服务可以根据个人谈论它的数量和/或表示有兴趣购买它14]。在线健康评价平台,患者认为PORs今年的数量反映了市场或服务的声誉基础上有多少人使用它(25]。患者的认知水平的流行PRWs可能支持他们在评估他们的治疗和预测服务交付质量(56]。此外,大量PORs今年提高获取正确信息的可能性,可以帮助病人在评估医疗服务的质量(58]。研究人员讨论病人的信息越多,就越有可能他/她会做出更好的决定59]。著名的服务吸引更多的用户阅读用户评论和投票。这意味着患者可能更有信心在评估治疗的质量和结果如果许多人已经审核。因此,我们假设以下。

假设5。(H5)服务的受欢迎程度正相关的更高RH选票。
信息不对称理论,信号传输的效率依赖于环境的不确定性的程度。根据青岛姒儿等人的结果。47),信号对RH当信息环境的不确定性的影响很小很低。另一方面,在高不确定性信息的关系。考虑到传输信号可能有助于减少不确定性,显然,有用的信号的不确定性的程度成正比。
它也认为,疾病类型作为一个温和派可读性和RH之间的关系。在服务业,更具可读性审查可以比审查与评估更简单的拼写错误和模棱两可的单词17,50]。同样,病人患有严重的疾病希望信息嵌入在审查应该更具可读性比那些患有轻微的疾病。如下,我们认为可读信息医疗质量提供PORs今年消费者对健康更有帮助当他们评估严重疾病。
通过增加消费者的信心决策,更长的评论可能被视为更有帮助在购买过程中(38]。提供进一步的解释关于服务的详细信息和上下文服务被使用的地方。多嘴对RH在不同的环境有不同的影响(10]。添加的内容PORs今年更有可能提供关键证据如何服务消费,以及它如何与选择(15]。因此,我们认为,病人需要更多详细信息的服务质量比那些患有严重疾病的温和的疾病。
这项研究也考虑了疾病类型的主持人个人情感和RH之间的关系。不同疾病患者条件可能需要不同程度的医疗质量(8]。那些有严重疾病(高疾病严重度)可能需要更高的标准比轻度疾病患者的护理(低疾病严重程度)30.]。结果,我们推测特定情感参与PORs今年会考虑提供全面的信息,包括服务细节严重疾病而温和的疾病(13,23]。在这个紧要关头,审查,包括好的和消极情绪可能会更有利于严重的疾病,随着这些PORs今年不太痛苦的读者不同意的陈述意见。保持在查看前面的讨论中,我们假设以下。

假设6。编辑。疾病类型之间的关系的缓和作用的审查和RH更强的可读性比轻度疾病的严重疾病。

假设7。H7。疾病类型之间的关系的缓和作用深度的审查和RH更强比轻度疾病的严重疾病。

假设8。H8。疾病类型之间的关系的缓和作用的情绪强度的审查和RH更强比轻度疾病的严重疾病。
渐行渐远,我们假设,如果疾病严重程度较低,受欢迎程度和质量信号的影响医生RH将最小,由于这样的事实,他们不适当减少不确定性。相比之下,医生会强烈影响RH这两个信号如果疾病严重程度较高,因为它大大减少了相关的不确定性。此外,严重的疾病患者更有可能寻求医疗帮助的医生提供著名的和高品质的服务。病人有一个积极的经验与一个受欢迎的健康服务,高质量的更倾向于推荐服务他人和写评论。
由于增强服务意识健康消费者,获得优质服务的可能性和增加有用的评论,因为高风险的疾病需要更大程度的服务比低风险的疾病;高风险的疾病与流行的和高质量的服务。因此,评估的特点,流行的和高质量的服务需要更多的努力比评估不受欢迎的特点和低质量的服务。(60]。因此,我们假设以下。

假设9。(H9)。疾病类型的调节作用服务质量之间的关系和RH更强比轻度疾病的严重疾病。

假设10。(H10)。疾病类型之间的关系的缓和作用服务普及和RH更强比轻度疾病的严重疾病。

4所示。研究方法

4.1。研究背景和数据收集

收集到的数据从一个在线健康评级平台(Healthgrades从2019年3月15 - 21日进行,)。数据预处理的形式进行过滤医生描述,评论发布日期,在线评论,定量评级,和乐于助人。在线评论给出进一步考虑找出可读性评分(6可读性测试)和审查多嘴使用数据集的概念在每个评论数量从多字表达式,如“医院走廊,”“操作剧场设备,”或“医生约会,”从SenticNet3匹配27]。混合sentic计算框架基于文本挖掘的方法被用来分析概念的数量从SenticNet3与每个特定的情感。为了评估该模型的整体性能预测RH,回归分析和文本分类进行数据过滤和清除。拟议的方法显示在图2

网络爬虫是Python 3.6中开发和编程来检索医师网页搜索结果显示为每个提供者。当前的研究选择了10个不同类型的在线评论的基础上疾病死亡率从2017年美国卫生静态书(61年)和4城市州(加州、纽约、德克萨斯和佛罗里达)。根据国家医学联合会的数据,这些国家占最多的医生与活跃的董事会许可。省略236评论因为没有有用的选票后,总共45300条评论被用于进一步分析。下面的信息收集和分析,包括如医生专业,标题、教育、经验,毕业一年,审查日期,整体评级,评级,病人的评论和用户(乐于助人或有用选票)的反应。

4.2。变量的测量和统计建模
4.2.1。准备回顾乐于助人

PRWs累积乐于助人投票计算,是来自其他评论者的选票率乐于助人水平分配给每个单独的审查。当一个穷得到更多乐于助人票,审查的乐于助人价值上升。回顾乐于助人变量被认为是连续和评估有用的/有用的比例投票选票。Nonvoted评论从我们的数据库中,以减少噪音。

4.2.2。回顾可读性

研究人员透露,RH可能受到在线评论的可读性(19,49]。Ghose用和Ipeirotis49)透露,评论包含主体性的程度,知识、可读性,和语言的准确性会影响感知有用性。六种可读性对每个评审方法探索以评估其可读性(参考表1)。

4.2.3。回顾多嘴

审查的概念是用来确定审查多嘴(15]。早前的研究已经建立了一个实质性的相关性评估深度和RH (38,62年]。多嘴计算使用sentic计算框架和SenticNet3测量概念审查的数量从多字表达式。SenticNet 3曾被用来确定审查多嘴多字表达式使在线内容病毒(15,28]。

4.2.4。服务质量和服务的声望

基于先前的研究[40),包括service-associated属性的集合,例如,(1)服务质量(即。,service review valence) [63年)和(2)服务的受欢迎程度(即。,review volume), [14]。

4.2.5。疾病的类型

后(28),疾病类型作为一个哑变量,严重疾病高危疾病标记为0,而轻微的疾病,低风险的疾病称为1所示。

4.2.6。控制变量

我们将控制变量来调整为审查和physician-specific效果。作为控制变量,审查年龄提供代表的独特品质审查(18]。审查的年龄一直以来多长时间写在在线评级平台(39,64年]。医生标题,教育,毕业一年,经验属性显示在医生的水平。的标题哑变量措施医生的职称在医疗保健设施他/她工作的地方(8]。我们测量了教育作为一个哑变量使用医学院毕业的医生和排名毕业一年作为一个类别变量反映他/她毕业以来的数量(28]。之前的研究表明,医生毕业于著名医学院校更可能是评价很高。相比之下,评级概率较低的年轻医生最近毕业(28]。最后,经验被定义为时间(年)医生已在实践中。在过去,更有经验的医生都可以获得更高的评级(8]。变量及其测量的描述中列出表1

4.3。Sentic计算框架为审查冗长和特定的情感

情绪采矿是一个复杂的过程,需要全面了解目标的研究。Sentic计算已被应用于各种各样的认知动机的任务,包括某些情感的分类(正面或负面)在自然语言文本65年]。整合知识方法和统计方法,sentic计算和情感分析的混合方法是能够识别情绪和情感计算的文本(28]。概念挖掘和情感分类过程中使用这个调查是描绘在图1

我们初步的文本数据进行预处理,包括以下几点:(i)已被移除(即停止的话。,,,,,等等)。(2)使用WordNetLemmatizer函数和WordNet Python语言自然语言工具包将基础结构。(3)删除任何不必要的字母(即。,由于aloooooot)。(iv)疑问词应该过滤(即。,which, whose, where, etc.) and any unique characters are excluded (&, #, $, etc.). (v) Finally, the entire text document is transformed to lower case.

我们支离破碎的评论文本条款。每个动词及其相应的名词短语被认为提取一个或多个概念。使句子更有条理,输入文本分块使用斯坦福块(66年]。接下来,一个语义解析器首先将句子分成条款,然后采用树结构将条款为名词和动词的块(67年]。此外,一个两个步骤的过程规范化随访条款:第一,斯坦福词元化算法结合从WordNet NLTK WordNetLemmatizer函数是用来正常化动词块和识别多字表达式。一旦名词短语转化为三元,他们处理使用词性(POS) (https://nlp.stanford.edu/software/tagger.html)模式来提取概念之前由威尔士和侯赛因68年]。此外,事件的概念被解析图;对象概念和归一化动词之间的匹配块探索SenticNet3 [69年]。概念转化为向量空间模型(VSM),其中每个概念的特征是一维向量空间中的一个点对应于一个词汇短语。

所代表的情感知识是使用多维VSM。概念网和WordNetAffect被用来创建一个情感空间,情感的一个多维向量空间,用于说明词汇表示知识。情感空间描绘了两个概念之间的语义和情感连接存在,允许快速和有效的它们之间的类比推理(68年]。方程(1)描述每个文档d,C代表一个概念d,f表示频率的概念d

余弦相似性的概念(C向量空间表示() )和积极的向量空间表示( )和消极的上下文条件( )早些时候获得,而n表示概念在文档的总数。

概念相似度的计算后,一系列的候选人的概念C+有一个最小的余弦相似性{ , }。使用机器学习和情感模型的沙漏由Plutchik在他的研究对人类的情感,情感框架分类成不同的类别(42,51构造]sentic标签来表示每个概念的特点,和sentic API用于预测可比sentic水平八情感维度(积极的和消极的),建议由威尔士et al。70年]。如果匹配,那么特定情绪维度的价值增加。重复这个过程从短语检索所有条款的审查文本来计算情感得分使用以下方程:

4.4。实证分析

根据表中列出的描述性统计2,但是平均的品质等级是4.59,反映出的最大用户表达积极情绪对医疗服务提供者的服务质量。评论的可读性平均得分是9.74基于69.80平均长度为这些评论。此外,每个医生都有平均308.11的评论。同时,平均意见评审的分数是0.79,RH平均得分是0.84,平均审查发现生活是1682天。我们的数据集包含89%的医生。大量的医生最近在美国前100名医学院校的毕业生

在这一点上的一个重要决定是使用回归模型,考虑到因变量有限的低和高的极端。与先前的研究[38,47),我们使用了托比特书回归模型,因为示例和因变量都审查(乐于助人)[71年,72年),根据有用选票总投票数的比率(范围从0到1)[38]。因此,因变量RH符合最低因变量(审查数据)的要求。这意味着因变量是否比审查值,这意味着可以使用标准线性回归模型(71年]。

占据的数据分析软件,似然比和埃夫隆pseudo-R-square值被用来确定的拟合优度73年]。此外,实证分析必须使用对数变换调整为了提高的经验模型中的变量并为overdispersion调整。我们应用对数变换74年)等变量乐于助人,多嘴,质量,受欢迎程度,年龄。为了避免对数0,1添加到这些变量的值(75年]。所有变量用来预测RH中列出方程(4)。变量的描述和测量提供了部分4所示。24所示。3和表1

4.5。分类技术和评价指标

数据挖掘软件Weka 3.8.5受雇在这项研究中,构造分类模型是使用支持向量机(SVM),线性回归(LR),随机森林(RF),梯度提高决策树(GBDT)。我们选择这些模型因为先前的研究使用这些模型成功,取得了良好的分类结果(18,31日]。

支持向量机是基于统计学习理论,现在最成功的方法分析高维数据集和广泛用于执行分类任务76年]。支持向量机的基本概念是结构风险最小化的应用程序,这可以减少边界误差通过感应同时最小化整体风险。一旦数据被转移到一个更高维的空间,他们由一个超平面。hyperplane-projected子空间可以映射一个新实例,可以分配给子空间的多数类。

回归分析是指用于分析数据的统计方法。其目的是确定两个或多个变量之间的相关程度,建立一个数学模型的预测结果。LR是一个非线性回归模型,试图预测可能会发生一个事件,拟合数据逻辑函数。这允许输入任何值转换,仅限于一个值在0和1之间。

射频对集成学习技术,建立了通过建设众多DTs (77年]。训练一个射频涉及装袋引导案例,然后选择一个随机的特征子集。后,生成一组DTs使用每个引导实例集包含功能的一个子集。组树已建成后,个别树木的多数类可用于对样品做出一个预测,还有待观察。

梯度提高决策树算法系统地增加了弱学习者以这样一种方式,每个新学习者比赛前一步的残差,因此改善模型(78年]。最终的模型结合了每个阶段的结果产生一个强大的学习者。梯度提高决策树技术利用决策树的周学习者达到更好的结果。使用一个损失函数的残差检测。值得一提的是,当一个新的树添加到模型中,当前树保持不变。现有模型的残差所适应的决策树。应用学习分类器的有效性评估使用两个评估措施(f-measure和准确性)。这些指标是数学定义如下:

5。结果

之前进行托比特书分析,本研究进行了数次诊断测试来确定模型的异方差性和多重共线性。最大方差膨胀因子(VIF)介于1.53和5.51之间,低于10的截止值,表明目前多重共线性不是问题(79年]。此外,变量值之间的相关性表明,多重共线性的数据集是免费的(0.90和更高版本)50]。此外,我们为模型计算标准误差与异方差性一致(见表3)。相对大量的似然比,我们的模型达到拟合优度( ≤0.001)和麦凯维Zavoina [73年埃夫隆的伪R2值为0.083。

特别是,当看着回顾相关的主要影响信号表3回归分析的结果显示,可读性系数是积极意义β= 0.174, < 0.05)。作为一个结果,H1是支持,符合早期的研究结果(19]。后,结果表明大量积极的系数多嘴(β= 0.320, < 0.05),而支持H2,符合Mudambi的发现和Schuff [38),但否定的结果卡齐et al。15]。此外,重大积极的系数情绪(β= 0.013, < 0.001)表明,协会会来得更正面(包括快乐、悲伤、信任、意外除外)和消极情绪(包括愤怒、厌恶、恐惧、预期除外)都包含在复习一下,接受H3。这些结果与早期的研究(51]。我们发现支持H4当我们看着服务相关信号(β= 0.125, < 0.05),强调,当一个穷关注服务质量质量,其有益价值增加。这些发现证实了之前的研究(14]。此外,我们发现证据支持H5推测一个相当大的关联服务普及和RH。特别是,服务的显著积极的系数受欢迎程度(β= 0.232, < 0.01)表明,有一个积极的评论的数量之间的联系和帮助医生获得的选票。这些研究结果是一致的与张和林40]。

当谈到疾病严重程度的缓和效果,结果表明,他们强烈支持交互的使用条款(多嘴×疾病的类型),(质量×疾病的类型)和(受欢迎程度×疾病的类型),H7,H9,H10,这表明有更多的单词复习一下,以及它的质量和受欢迎的医生服务嵌入到评论,有一个更重要的积极影响人们如何思考的RH比轻度疾病的严重疾病。然而,我们的研究结果并不支持一直H8。发现没有证据支持这一假说,疾病类型温和派的影响感知RH可读性或情感。可读性和情感都同样有助于不同疾病的感知RH条件。此外,控制变量的结果与早期的发现是一致的(28]。系数(β)年龄、标题、教育和经验是重要的对于疾病的条件。

最大化我们的研究的实用价值,我们使用文本挖掘策略来估计我们建议多重方法的有效性和性能模型,考虑到所有的信号从审查和服务在同一时间。为了测试不同的分类模型,数据挖掘软件Weka 3.8.5受雇。基于数量的有用的票收到的评论,我们分类审查“有用的”和“没有帮助”组织和使用策略来开发详细的表的分类模型4。特别是,审查被认为是有用的,如果收到至少一票。执行模型估计使用训练数据和模型验证使用抵抗样本模型是否有用的医生和预测医生RH。这种做法有助于避免过度拟合。

我们分类PORs今年基于审查——有用还是没用使用著名的机器学习方法和服务相关的属性。预测模型的构建和10倍交叉验证用于比较的准确性预测模型在所有实验。混合组审查和服务相关的功能(可读性、冗长、情感、质量和知名度)用于训练四个不同的学习算法。实验的结果使用一组混合的特性总结在表4

使用一组混合的特性来预测医生RH, PORs今年数据集提供73.10%的准确率和73.14% f-measure SVM分类器。接下来,使用混合组审查和服务相关的特性,PORs今年数据集输出75.22%的准确率和75.11% f-measure LR分类器,与RF f-measure 81.13%的准确率和81.15%,91.12%的准确率和91.63% GBDT分类器。实验结果表明,模型的整体性能很有前途,展示的适用性建议混合特性的准确性和f-measure RH预测指标。提出本研究开发的混合动力特性模型明显优于其他模型,成功地分类正确所有病例的91.12%。一系列的实验进行演示的机器学习分类器,因为它的最佳的性能比模型分析了以往的研究[16,31日,40]。所有的评估参数表明,我们建议的模型表现良好的预测医生RH。

6。讨论

PRWs提供病人的地方谈论他们的医疗保健经验或写评论在线(80年]。社交网络媒体上,病人成千上万的评论和评论他们的经验,很难辨别哪些评论是有用的,哪些不是。因此,它是至关重要的研究特点和建立一个隐式的研究技术分类有用的评论迅速和可靠。在这项研究中,我们收集了大量的PORs今年从Healthgrades.com。进一步进行调查的影响三个审查——和两个服务相关信号感知RH。审查和服务相关信号PRWs显著影响RH,与先前的研究[10,13,23]。灵感来自于早期的研究(25,28),我们检查了缓和的影响疾病类型的审查或服务相关的信号和RH之间的联系。多嘴的影响、质量和人气的知觉RH主持的疾病类型。此外,我们利用数据挖掘的方法来构造多分类模型对RH的评估。结果表明,我们建议的模型执行异常在RH分类和预测的医生。

检查的结果表明,我们建议的模型——和服务相关信号成功地影响感知RH,各种理论的影响。从理论的角度来看,我们所知,本研究首次探索的影响评估——在在线医生RH和服务相关信号。

总的来说,这些发现艺术的状态估计乐于助人,历来注重地方特色的评论(38,47,81年]。独特的关于我们的工作,我们观察病人反馈在更广泛的用户或服务相关的背景下,考虑更多的因素。此外,本研究提出信号理论证明信号环境(疾病类型)会影响评估和服务相关的信号。现有知识的发现填补了空白通过识别有用的大范围运动的特征的疾病情况。多嘴结果显示显著缓和关系,质量、流行,和RH。审查之间的二分法或服务相关的信号和感知RH预计被疾病类型。我们建议的模型,它在本质上是预测性的,允许在线医疗保健提供商优先考虑最有益的评论。我们的研究结果证实了实际意义说明提出方法的分类性能,同时预测RH。研究人员还声称,这是第一次尝试使用一个多重方法的方法包括隐式和领域知识专业情感分析方法来预测医生RH。这项研究展示了RH的关键相关性作为未来卫生信息学研究的来源。

这项研究的结果在实践中有很多影响。互联网健康评价网站的设计者,我们的方法包括一个推荐机制,表明PRW对病人有用的评论。可以自动识别病人的希望和需求探索PRWs时通过搜索高到低水平的医生经验,一流的医生,医生验证,并选择医生根据星评级。我们预计这个智能推荐系统将导致更有帮助医生评论可读性的基础上,深度,特定的情绪,服务的服务质量和popularity-related属性。这样的推荐系统将节省患者的时间和金钱时使用PRWs为供应商找到有用的评论他们要访问。卫生保健提供者、管理者和患者能够查看他们的卫生保健服务的有用的评估评级网站和在线论坛。个人都渴望搜索有用的/有用的评论,可能会帮助他们确定医疗服务的价值或选择他们想去参观最好的医生。此外,阅读大量的评论时,病人和他们的照顾者经常经历大量的认知处理成本。本研究的贡献为卫生保健从业者和管理者提供了机会来减少认知处理成本与PORs今年为了提高他们的组织有关。

本研究具有一定的局限性。首先,它是相当具有挑战性的选择可以接受的数据集分析影响在线医生RH的决定因素,只有一小部分的评论收到评论者有用的投票。虽然众所周知,美国目前平台之一其他平台,允许用户发布评论也应该被考虑。第二,未来的研究可以结合评论者对预测医生RH的行为及其影响。最后,未来的研究医生RH应该使用更先进的、高效的文本挖掘算法,如深度学习(神经网络)。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

信息披露

这手稿是修订后的扩展版本的手稿”探索的影响审查和服务相关信号在线医师审查乐于助人:多种方法”发表在亚太会议在2020年信息系统(奶嘴),会议记录。然而,超过80%新材料添加到以前版本的会议。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

Adnan穆罕默德·沙阿博士导致调查,正式的分析,写作,审查和编辑手稿。维齐尔穆罕默德博士导致数据管理、审查和编辑,和监督。博士KangYoon李导致融资收购,方法和资源分配。所有作者都阅读和批准了最终版本的手稿。

确认

这项研究得到了MSIT(科技部和ICT),韩国,在期(信息技术研究中心)支持程序(IITP - 2022 - 2017 - 0 - 01630)监督的IITP(信息与通信技术促进研究所)和支持韩国国家研究基金会(NRF)授予由韩国政府资助(MSIT) (NRF - 2019 r1f1a1057663)。