文摘

随着实时对慢性疾病的预防管理的需求通过使用互联网,兴趣开发一个方便的设备卫生管理和监视加剧了。与其他慢性疾病,尤其是2型糖尿病是一种终身的慢性疾病,通常需要由患者自己日常健康管理。本研究旨在开发一个手机自动问答(问答)和糖尿病早期预警系统命名Dia-AID,帮助糖尿病患者和高危人群。Dia-AID系统包括三个模块:一个大型多语种糖尿病常见问题库,一个多模融合问答框架,和一个健康数据管理模块。服务的列表包括风险评估和卫生健康状况监测预警提供给用户。使用糖尿病常见问题库数据,实验是答案排名和答案选择方面进行。结果表明,系统中两种基本的方法比基线方法这两个方面。

1。介绍

无处不在的越来越多的关注医疗保健(U-healthcare)服务和信息技术的发展,出现了一个伟大的需要预防慢性疾病的管理和管理个人的健康状况(1]。糖尿病,又名糖尿病,作为最具代表性的慢性疾病之一,已成为一个严重的全球公共卫生问题,在21世纪最具挑战性的健康问题(2- - - - - -4]。糖尿病患者的数量的统计数据,20 - 79岁在过去18年如图1根据最新的全球估计从国际糖尿病联合会(IDF)和Research2guidance报告(http://www.research2guidance.com)。到1.51亿年的2000人相比,几乎是增加三倍数量的成年人患有糖尿病。此外,数量预计将从4.25亿年的2017增加到6.29亿年的2045人,这意味着一个11的成年人患有糖尿病(5]。此外,据世界卫生组织(世卫组织),糖尿病是2015年160万人死亡的直接原因。然而,近50%的糖尿病患者确诊和仍然没有意识到他们的条件。糖尿病患者人群中,大多数情况下是2型糖尿病(T2DM)病人体内(6]。与1型糖尿病目前仍无法预防的知识,80%的2型糖尿病是可以预防的,保持适度的血糖和生活方式(7]。糖尿病患者2型经常需要咨询健康的饮食和有规律的身体活动减少并发症的风险(8]。因此,糖尿病管理是一个至关重要的和必要的程序对糖尿病患者糖尿病人或在一个较高的风险9- - - - - -11]。

最近,医疗保健的重点正在从治疗疾病的预防和早期诊断(12]。福克斯等。13)解决,有31%的美国智能手机用户使用手机在线寻找医疗信息,30%的互联网用户咨询在线评论排名的医疗服务或治疗,和26%的互联网用户阅读别人的经验关于健康或医疗问题。近5亿到2015年,智能手机用户使用移动健康应用程序尤其对饮食和疾病管理(7]。后,克雷布斯et al。14)显示,58.23%(934/1604)的手机用户下载一个与健康有关的手机应用程序,用它每天至少一次。作为一个方便的平台检查用户的健康状况在实时基础上,从信息提供移动应用程序开发lifestyle-oriented智能健康管理。此外,现有研究连续实时咨询和监控支持智能手机适用于提高效率的糖尿病自我管理(7,15- - - - - -17]。因此,开发一个手机系统的糖尿病病人,协助他们的健康管理的重要性。

许多研究表明当前医学搜索引擎,例如,PubMed、医学主题词(网),和统一医疗语言系统(uml),通常不能为用户及时与临床相关的答案,因此无法满足患者的咨询需求(18,19]。赫斯et al。20.)发现,医疗专业花了超过30分钟平均寻求答案利用信息检索系统。这个过程需要大约2分钟平均获得答案即使对经验丰富的医生(21]。相反,基于自然语言处理技术,问答(问答)旨在为用户提供直接、精确的回答他们的问题,因此它更优先。因此,有一个日益增长的需求开发方便、有效的医疗领域自动问答系统(21- - - - - -24]。此外,有一个特别的问答系统不断增长的需求有效地协助糖尿病患者更好地利用ever-accumulating专家知识(1,7,15]。

为此,本研究旨在开发一个手机自动问答和早期预警系统,称为Dia-AID。系统包括三个模块:一个大型多语种糖尿病常见问题库,一个多模融合问答框架,和一个健康数据管理模块与预警功能。存储库获取糖尿病具有expert-defined答案的问题,问答知识存储在一个解释和扩展形式。该框架包含三个不同的问答解决战略:以知识为基础的问答,FAQ-based问答,和基于web的问答。健康包含预警数据管理模块提供了一个方便的智能健康咨询服务平台,帮助糖尿病患者监控他们的健康状况。

这项工作的贡献包括以下几点:(1)大规模的多语种糖尿病FAQ库是建立一致的表示格式;(2)一种新型多模融合问答问答技术的框架,集成了三种模式提出了实现糖尿病寻找需要的信息;(3)健康数据管理模块包含预警功能开发监控病人的健康状况。

本文的其余部分组织如下。部分2介绍了在生物医学问答相关工作。部分3描述了手机答疑和早期预警系统详细Dia-AID。部分4介绍了我们的方法的实验结果基于FAQ数据存储库。部分5地址的结论。

问题回答的目的是提供精确的答案而不是广为人知的非结构化数据来源的相关文件。开放域问答(问答)的研究开始的提示和实例化工作在文本检索会议(TREC)评估活动25]。最近,领域特定应用程序的需求增加,越来越多的兴趣已经从开放域问答有限域问答(26,27]。Molla et al。28解决,限制域问答针对特定领域的信息将在现实应用程序中实现有效和可靠的性能。此外,所声称的Mishra et al。29日),限制域问答能完成专业领域专家的信息需求,从而提高用户的满意度。同样,Yu et al。30.),里纳尔蒂et al。31日)指出,限制域问答,如生物医学领域(24,32),可以为更深入的文本分析开发特定领域的知识资源,以及利用特定于域的类型格式约定来提高答案提取性能。

根据Athenikos等的研究(27)、医疗领域问答正面临的挑战高度复杂的特定领域的术语和词汇和本体论的资源。还强调,电影等。33),关键过程中表达的语义关系问题转化为一个机器可读的表示深入有效地分析自然语言问题。他们提出了一个完整的问题分析方法包括医疗实体识别、语义关系抽取、自动翻译SPARQL查询。结果显示,60%的问题都通过该方法正确翻译SPARQL查询。后来,Anca (34]提出了gfm处理同样的问题和挑战的查询大量相关数据从不同的领域。gfm是生物医学的问答系统相连的终端用户之间的数据旨在填补这一缺口和正式语言通过引入自然语言的语法框架将生物医学信息到相应的SPARQL语言。实验结果表明,该方法用于构建受控自然语言查询关联数据是有效的。阿巴察et al。35“答案搜索”)提出了一个方法基于语义搜索和查询松弛解决在医疗领域自动问答的问题。他们将问题集中定义为医疗实体是最密切相关的答案提高问答的整体性能。Terol et al。36]声称一般问答系统能够工作在任何限制域。以医学领域为一个示例应用程序,系统回答了医疗问题根据通用问题分类和上涨94.4%总体精度的任务。

在答疑过程中,问题表征分析和回答的问题是一个重要的一步检索。Zhang et al。37)提出了一种基于多层系统自组织映射,提供一个有效的解决组织问题结构化数据的电子书籍。树形结构表示形式,提出了制定电子书作者的丰富的功能。他们的实验结果证实,该模型优于基于内容的基于树形结构表示模型。以后的进一步的研究,一个高效的学习框架Tree2Vector将树形结构数据转换为矢量表示法,提出了(38]。利用Tree2Vector框架书树形结构数据映射到矢量空间,他们继续实验进一步提出了映射的矢量空间可以探索项空间分布/一本书而不是传统的文档建模方法(39]。

一个最近的趋势在医学问答系统是将组织医疗信息在问答过程中为了利用信息等各领域有效的健康管理U-healthcare [40,41]。荣格et al。42)开发了一个决策支持方法主要慢性疾病患者疼痛管理基于频繁模式树的挖掘。该方法旨在减少痛苦的决策时间和费用的患者经常暴露于痛苦。钟等。12)提出了一个以知识为基础的卫生服务利用混合无线保真点对点架构。服务提出了通过正确的测量提供高效、经济的医疗患者的各种生物,这样用户可以很容易地预测和管理健康和疾病。汉et al。43]介绍了THE_MUSS U-health服务系统,专注于实现可重用性和可分解性,提供压力和体重管理服务。

在随后的医学问答发展,糖尿病,作为全球三大主要从非传染性疾病死亡原因,促使大量的研究调查预防、糖尿病的患病率和死亡率15,44- - - - - -53]。有很大需求一个问答系统,可以有效地和高效地提供健康咨询服务,协助监控和管理他们的个人健康状况。荣格et al。7]探索移动医疗应用程序提供self-diabetes管理病人。通过与电子病历(EMR),进行医疗保健应用程序提供服务,比如体重管理,心脑血管风险评估和运动管理。Waki et al。54)开发了一种实时交互系统DialBetics实现糖尿病自我管理,尤其是糖化血红蛋白的管理。系统的评价策略,帮助患者提高糖化血红蛋白明显通过监测健康数据而持续的自我保健疗法的病人。最近,Yoo et al。1)提出了一个基于个人健康记录——(PHR)糖尿病指数通过移动设备服务模型,为用户提供管理信息服务对预防糖尿病。用户能够在实时基础上检查他们的健康状况和接收信息的健康行为和饮食习惯与糖尿病有关。

然而,现有的糖尿病管理应用程序提供一般信息搜索和管理,而忽略咨询服务,管理糖尿病患者的健康状况的关键。此外,声称Mishra et al。29日),限制域问答的缺点包括有限的存储库的特定领域的问题。为了克服这些困难,我们建立了一个LMD-FAQ库,为用户提供简洁、准确的答案由医生或专家辩论相关专业网站。此外,我们的目标是利用LMD-FAQ库提供咨询服务的饮食,药物治疗,症状为糖尿病患者。此外,根据我们以前的工作(55),通过分析全球临床试验的190个国家提供的美国国立卫生研究院(NIH),我们发现6代表健康与糖尿病密切相关的特征,以更好地管理用户的健康状况。六个代表健康特征是身体质量指数(BMI),葡萄糖,收缩期高血压,舒张期高血压、糖化血红蛋白、肌酐。此外,我们定义一些健康预警区间特征指的是现有国际医疗健康管理和风险预警标准。

3所示。方法和材料

我们的手机糖尿病答疑的体系结构和早期预警系统Dia-AID如图2。它包括三个模块:一个大型多语种糖尿病FAQ库(LMD-FAQ库),一种新的多模融合问题框架(MMF-QA),与早期预警和糖尿病数据管理模块(DM-EW)。LMD-FAQ存储库包含大量的糖尿病从主流获得的问答对糖尿病引起的专业网站。MMF-QA框架集成了三种策略:知识问答,FAQ-based问答,和基于web的问答。DM-EW模块记录病人的健康数据,实时监控他们的健康条件。六个代表健康与糖尿病密切相关的特征,也就是说,BMI,葡萄糖,收缩期高血压,舒张期高血压、糖化血红蛋白、肌酐,应用。对于快速特征变化或恶化的预测,该模块将自动提醒患者和为他们提供饮食指南。

3.1。大规模的多语种糖尿病常见问题库

常见问题(faq)提供具体答案经常问的问题当用户浏览特定网站。例如,中国网站健康(http://health.china.com)允许用户问问题在自由文本和该领域的专家回答问题的人。与专业回答这些问题收集和组织为常见问题数据。FAQ重用可以大大受益的问题回答的数据积累的专业知识。在本文中,我们开发一个方法来自动构建一个大规模的多语种糖尿病常见问题解答(LMD-FAQ)通过识别FAQ库数据从专业糖尿病网站。

如图2,我们的方法包括四个步骤:(1)第一步是自动获取的问题。我们首先分析特定网站的页面结构识别糖尿病的问题。网站,由领域专家精心选择,包括糖尿病临床指南(中国医学会糖尿病分支),糖尿病专业网站(美国糖尿病协会,国际糖尿病联盟等),糖尿病专业信息网站(疾病预防控制中心健康频道),和糖尿病互动答疑网站(雅虎知识)。相关的问题和答案然后用正则表达式匹配页面中提取码。(2)第二步是目标识别和分类的问题。基于我们以前的工作(56,57),一个自动化的答案类型识别和分类方法应用于提取目标和意图利用句法和语义分析的问题。考虑到句法结构根据不同方法的问题是问,确定并分析了四种典型的情况下每个人都有一个特定的处理策略。在这个过程中,通过基础的语法解析器方式问题目标特征提取,然后扩大hypernymy特性和语义标签。最后,扩展功能被送到一个训练分类器预测相应的答案类型。(3)第三步是生成和语义模式匹配。语义模式是利用索引问题与答案更加结构化和语义。与目标和回答的问题类型提取到第二步,问题是由语义结构模式,包括五个部分:问题的目标,问题类型、概念、事件,和约束。一个entropy-based方法在以前的工作58是申请自动语义模式生成。图3显示了示例的可视化FAQ LMD-FAQ存储库中的数据。

基于上述过程,该方法提取FAQ专业网站,数据格式使用一致的表示,用语义模式快速检索和索引。通过自动索引数据流程和人工审查,FAQ库可以增量维护。目前,LMD-FAQ库包括19317个英语常见QA双,6041中国人QA双。存储库为我们的问答系统提供基础数据支持,回答通常发布的问题。

3.2。多模融合问题的框架

多模融合问题框架(MMF-QA)集成了三个问答模式:知识问答,FAQ-based问答,和基于web的问答。总体框架如图4。模型的过程描述如下。

糖尿病知识问答模式依赖于知识库为发布生成简洁的答案的问题。对于一个新的给定的问题,该模型分析问题的结构和关键字,然后生成一个相应的语义模式。因此,问题是,从自然语言转化为结构语义表示捕获目标语义信息等问题,问题类型、概念、事件,和约束问题是进一步表示为一个元组:([概念1), 关系 ,(概念2),“概念1”和“概念2“用于标签有意义的实体。代表的问题是用于从知识库中提取答案。例如,“糖尿病的症状是什么?“是表示为((症状), Rel: ,(糖尿病])。因此,知识型问答过程主要是地图实体及其关系正式代表元组,这是进一步用于匹配知识库检索精确匹配的知识元素作为答案。

FAQ-based问答模型计算匹配分数之间的一个给定的问题,问题在FAQ库中。的问题与匹配分数超过特定阈值作为候选人。然后排名最高的候选人问题 最高的分数返回的问题。模型包括三个主要步骤:Qsem-based问题匹配,LSI-based回答排名,答案的选择。所声称的(59),FAQ-based问答的一个重大挑战是匹配相应的问答对的问题。在这里,我们应用一个QSem-based问题匹配的框架,提出了我们之前的作品之一(60),以支持回答常见问题通过重用QA积累数据。框架考虑问题词类型根据其功能和语义模式匹配。问题类型包括问题的目标词,面向用户的词语,不相关的词。这三种类型的词都是由一个预定义的本体语义标记丰富的语义表示的问题。对于每个词类型,不同的相似性策略应用于计算相似度,如[60]。相似度计算问题的目标和面向用户的词类型之间的问题 和一个FAQ的候选人常见问题解答j所示(1),(2)和(3),分别。

的方程,思米QT表示QT的相似性得分词类型之间的一个给定的新问题 和现有的常见问题解答的问题常见问题解答j 表示语义标签的设定相应的目标单词的问题。 代表QT词的语义标签 常见问题解答j分别通过语义标签。 表示词的同义字扩张 SMatch表示synonymy-based词匹配的两个词 是词的同义扩展吗 通过添加同义字集合 通过集成的前三部分匹配,整体匹配分数 的两个问题 常见问题解答j通过平衡的相似性计算每个部分所示

后问题匹配, faq匹配分数最高的选为候选集 与此同时,网络问答模型使用一个类似的策略计算匹配分数网络问题集合。它提取 通过标准的自动问答技术的答案从网站。同样,网络问答返回一个候选人问答集网络网络 合并的最终答案的候选人计算机辅助设计对答案排名和答案的选择。

我们提出一个LSI-based回答排名方法重新排列问题计算机辅助设计。排名方法包括三个步骤:特征提取、潜在语义索引(LSI)相似性计算和排名。提取的特征的中国问题bag-of-words(弓)和性格,而英语问题是bag-of-words特性的功能。LSI方法利用隐式语义结构和高阶匹配词与查询词在文档(61年]。我们对待每个候选人回答一个简短的文档和检测通过LSI-based方法最相关的答案。之后,候选人答案reranked基于相似的价值观和顶部 答案是候选人名单 返回。

最后,还有一个答案选择过程。选择候选人的回答正确或错误可视为一个二进制分类任务。的问题和相应的顶部 候选答案列表 被改变了 QA对。我们提出一个答案选择通过逻辑回归方法(LR)分类器,其中包括四个步骤:特征提取、参数优化、模型训练和答案选择。使用特性类似于LSI-based方法、QA对随机选择从LMD-FAQ存储库作为训练数据。QA与正确答案对标记为“1”,否则,“0”。然后我们调优参数”C”(逆正则化的力量),以避免过度拟合/ underfitting问题。参数优化后,最好的参数是应用LR分类器,然后选择最好的应用 候选人回答,顶部1是最好的答案,剩下的n - 1答案列表 相关的答案。图5显示了知识问答的屏幕快照,FAQ-based问答,和基于web的问答模式。

3.3。糖尿病与早期预警数据管理

因为糖尿病患者和高危人群通常需要长期的健康管理,我们开发一个实时数据管理模块将预警实现病人健康自我管理。

在数据管理模块,用户需要登记基本信息。之后,用户可以登录到报告最近的健康数据相关的六个主要特征:糖化血红蛋白、体重指数,葡萄糖,收缩期高血压(hypertension_S),舒张期高血压(hypertension_D)和肌酸酐。健康数据然后安全地存储在服务器端。

历史的健康数据,模块计算和实时监控的健康状况。对于每个特征,我们设置警报值根据IDF文件和文献综述报告。一旦健康数据有一个戏剧性的变化或特征接近相应的报警值范围,系统将自动向用户交付一个警告消息。评估系统的可用性,设计了一个两个月的随机研究。30人自愿作为内部测试通过Dia-AID系统用户监控他们的健康状况。在测试期间,用户测量和报告数据的六个特点。基于每一个新的数据报告,系统计算现有数据和新提交的数据进行实时健康状况的总结。表1显示了由用户健康数据记录报告塞西尔

系统记录所有报道的健康数据,自动生成数据变化曲线。例如,图6显示的趋势曲线塞西尔舒张期高血压在过去的7天。当当前新提交的健康数据是在安全范围内,没有戏剧性的变化与去年的报告相比,系统显示用户的健康状态信息,例如,“你的健康状况很好”绿色。一旦系统识别当前用户数据超过报警范围(太高或太低)根据当前的变化趋势,该系统将评估需要多长时间达到报警值。该系统将评估需要多长时间达到报警值。如果周期太短,系统将自动提醒当前用户。例如,系统警告用户塞西尔舒张期高血压太高,将会在危险范围内2天后如果用户没有任何控制。通过健康数据管理合并早期预警,用户可以查看他们的健康状况和采取行动来减少患糖尿病的风险根据警告消息。

4所示。结果

4.1。数据集

由于没有提供糖尿病常见问题集进行评估,提出LSI-based答案排名方法的评价和答案选择方法是基于构造LMD-FAQ库。测试LSI-based答案排名方法,我们随机选择的500年,750年,1000年,1250年、1500年和1750年中国问答元组(问题,< answer-set >从存储库),分别为六subdatasets评估数据集- - - - - -一个。问答为每一个元组,它包含一个问题和答案设置由一个正确答案,其余的九个错误答案随机生成的库。因此,每个问题都包含10个候选答案排名。回答选择评估,我们假设每个问题 候选人回答;即。,for each question,k - 1错误的答案是随机生成的负样本。在这篇文章中,k设置为5和10。的设置k= 5,6000 QA对随机生成的训练数据集- - - - - -B1,2500 QA对随机生成的测试数据集- - - - - -C1。的设置k= 8000 QA对随机生成的训练数据集- - - - - -B2,5000 QA对随机生成的测试数据集- - - - - -C2

4.2。评价指标

评价指标包括意味着排名倒数(MRR) Accuracy@N返回的答案,精度,还记得,和F1度量的常用指标对问答系统的性能进行评估。(我)MRR:平均排名倒数第一个正确的答案,所示(5)(即。,1我f a correct answer was retrieved at rank 1, 0.5 if a correct answer was retrieved at rank 2, and so on.测试组和吗 表示数量的问题排名代表第一个回答正确的答案的位置排名候选人测试问题 )。(2)Accuracy@N:正确答案的比例最高 系统返回答案,见(6)( = 1如果至少有一个正确的答案 候选人;否则,它是0)。(3)精密的任何类别是真阳性的数量(TP)(即。,the number of questions correctly labeled as belonging to the positive categories) that are divided by the total number of questions labeled as belonging to the positive categories, as shown in (7)。假阳性的数量(FP)是系统错误标签的问题。(iv)回忆被定义为真阳性的数量除以总数量的问题,实际上是积极的类别(即。,真阳性和假阴性)的总和,所示(8)。(v)F1-measure考虑精度和召回来计算分数,平衡所示(9)。

4.3。结果

验证该LSI-based回答排名方法,我们进行以下两个实验。第一个实验是验证的有效性LSI-based答案排序法通过比较五基线。我们采用Doc2Vec,潜在狄利克雷分配(LDA),位置敏感哈希(激光冲徊化),docsim和同义词62年作为基线。我们随机选择500 MRR和Accuracy@问题和测量性能N(Acc@N, )。与基线相比,我们的方法达到最好的性能评价指标,如表所示2。MRR,相比我们的方法提高17.80%激光冲徊化之间的最佳性能基线。Acc@1,激光冲徊化也获得最佳性能基线之间的0.6733。我们的方法优于激光冲徊化提高23.52%。此外,我们的方法排名94.99%的正确答案的前五名候选人的答案。MRR的改进和Acc@1证明该方法可以促进正确答案的位置。

评估方法的稳定性,进行了第二个实验是比较相同的五个基线MRR和Acc@1的措施。使用的数据集评估dataset-A。图7在MRR说明实验结果来衡量,而图8在Acc@1显示出测量结果。从结果,我们的方法达到性能稳定在所有不同大小的问题集。这个结果是有前途的因为我们的排名方法最正确答案的答案列表顶部的候选人。此外,与基线相比,我们的方法获得最好的性能测量Acc@1所有问题集。的结果,即使有了越来越多的问题,近85%的正确答案排名在前的候选答案列表。

因为我们的答案选择方法使用二进制分类器,我们评估方法评估答案分类的有效性。在评估期间,三个实验设计:首先是训练优化参数,第二个目的是评估的稳定性分类,第三个目标是评估的有效性与基线的方法进行比较。构造的数据集用于评价LMD-FAQ库和精度评价指标,记得,F1和准确性。

为了避免过度拟合/ underfitting问题,我们调优参数”C“LR(逆正则化强度)分类器如上所述。12651 QA双随机选择从LMD-FAQ存储库数据集。数据集是随机打乱分成两个子组作为训练(70%)和测试(30%)。我们使用k倍交叉验证评估模型的性能。图9展示了验证曲线,训练精度表示结果测试数据集和验证准确性表示10倍交叉验证的结果。从结果,该方法获得最佳性能时”C“等于1,这是最好的参数应用于以下两个实验。

该方法的稳定性与不同大小的训练数据和测试不同 值。通过设置k= 5,训练dataset-B1随机分为5训练子集包含2000年,3000年,4000年,5000年和6000年问答对,分别。同样,通过设置k= 10,训练数据集B2随机分为5训练子集与4000年,5000年,6000年、7000年和8000年问答对。数据集C1和C2作为独立的测试数据集。结果测量精度(Acc),精度,召回,F1-measure (F1)。如图10,我们的方法接收一个性能稳定在所有评价指标k= 5。当训练数据集的大小是大于3000,所有指标上的性能增加。实验结果表明,我们的方法不受影响的训练数据集的大小。如图11在精度保持稳定,性能测量所有尺寸的训练数据集。训练数据集大小的增加,性能以提高F1。比较这两个数据集上的性能设置,我们的方法产生一个更好的性能 = 10,这表明该方法保持稳定甚至更多的在候选人回答错误的答案列表。

我们进一步比较我们的方法有五个常用的分类方法:支持向量机(SVM),感知器(PPN),随机森林(RF),高斯朴素贝叶斯(GaussianNB),再(资讯)。正在使用的数据集训练dataset-B1和培训dataset-B2 dataset-C2 dataset-C1和测试和相应的测试。评价指标的准确性,精度,召回,F1。表3使用不同的数据集设置显示了比较的结果。通过设置k= 5,0.9222的精度,精度为0.8859,召回是0.8657,0.8753的F1实现最佳性能相比,5个基准方法。通过设置k= 10,我们的方法也获得最高的性能评价指标相对于基线。尤其是更高精度和F1更可取的因为我们期望更多的正确的答案的回归用户,提高用户满意度。

5。结论

旨在帮助糖尿病患者或高危人群糖尿病长期健康管理,本文设计和开发了一种手机自动问答和早期预警系统,Dia-AID。系统帮助用户提供糖尿病信息和监控他们的健康状况通过糖尿病问答,风险评估和健康记录管理。我们评估两个基本模型相比,我们的系统和他们五个基线不同度量方法。结果表明,我们的方法达到最好的性能与基线方法相比。

数据可用性

糖尿病数据不公开。

的利益冲突

没有利益冲突。

确认

支持的工作是大幅中国国家自然科学基金的资助(没有。61772146)、广州(没有的科技计划。201804010296),在广东省高等教育创新的学校项目(没有。YQ2015062),科研创新团队在广东省教育部(没有。2017 kcxtd013)。