文摘

智能车辆技术的发展是促进信息技术(IT)的发展平台,与传统汽车。In-vehicle-infotainment(新)正成为一个吸引人的元素在智能车辆提供各种用户体验;然而,它需要个性化服务提供更复杂的用户体验。据推测乘客寻找企业提供产品或服务,他们发现有趣的视频播放通过新车辆自主驾驶。在这种情况下,它可能是更有效的使用图片可以表达用户的偏好的查询搜索比利用文本如产品名称。因此,本研究提出了一个推荐系统,通知用户的企业在一个智能车辆附近当乘客把一个产品或服务的形象输入一个新系统。该推荐系统包括培训深上优于图像分类模型与用户的兴趣图像分类的类别,测量使用Word2vec相似性与业务类别,并最终为企业的位置提供通过新高度的相似性,使用智能手机。实验结果表明,用户的兴趣形象表现出85%的准确率通过EfficientNet B0类别分类模型,而图像之间的相似性和业务类别使用Word2vec特别高的业务类别类似于实际的图像类别。

1。介绍

拥有5 g网络技术和人工智能的发展,也取得了重大进展在物联网技术(物联网)连接对象与其他对象,包括智能车辆,可以提供各种服务,驾驶员通过连接到互联网。智能车辆总是连接到互联网,促进vehicle-to-vehicle和vehicle-to-infrastructure通信。智能车辆增长的信息技术(IT)平台的各种内容和服务可以通过in-vehicle-infotainment享受(新)系统,而不是简单的交通工具如传统汽车(1- - - - - -3]。

智能汽车来吸引用户基于必要性、服务输送方便和舒适可以通过提供新系统(2,3]。此外,新使驾驶和更愉快的旅行在智能车辆与娱乐活动,如听音乐或看电影。因此,新已成为汽车制造商的一个关键营销元素,当消费者购买智能车辆(2]。向消费者提供各种各样的经验,汽车制造商为开发商提供的软件开发工具包(sdk)适合汽车的操作系统(OS) infotainment-using智能手机正在开发的软件公司,比如苹果和谷歌。研究新服务进行事故预防基于驾驶员的心率(4,视频5),音乐推荐6),和车辆维修7]。此外,汽车和软件公司,包括学术界,一直试图提供一个广泛的经验和安慰用户在智能车辆通过新系统。在未来,新必须专注于个性化和上下文感知增强用户体验,超越用户提供各种经历在智能车辆3]。

在智能车辆的能力3级或更高自动化驾驶,乘客可以使用新执行次要的任务,而不是驾驶(8]。这样的汽车可以自动驾驶在高速公路或公园,从而使他们的司机或乘客观看视频,阅读书籍,或者继续与新社交媒体。看视频时可自行驾驶的智能车辆,乘客可以决定购买家具或一个项目他们看到视频中,但他们可能不知道确切的名字作为关键词搜索时搜索附近的商店。此外,虽然上网或通过社交媒体,乘客可能会发现某些食物或自己喜欢的发型,但他们可能不知道确切的词搜索合适的餐厅或美发沙龙。因此,信息娱乐服务需要提供帮助当有乘客不知道确切的关键字来搜索附近商店的服务或一个项目在使用新发现。

最简单的方法找到餐馆或商店购买一个项目在一个智能车辆是采用新导航系统。在智能车辆导航系统将语音转换成文本基于自动语音识别,然后转换后的文本进行自然语言处理推荐目的地分通过识别目标和兴趣点从用户的输入文本(9]。然而,新使用文本的导航系统不能提供足够的信息对用户的产品或服务;因此,很难导航到用户的目的地。正如上面提到的,不能使用传统的新导航系统如果乘客不知道产品或服务的具体名称。如果文本不能被用作查询使用新时的导航系统,基于映像的位置搜索可以推荐更好的比一个基于文本的搜索目的地,因为一个图像可以更好地代表用户首选项,不能反映在文本当图像被用作查询(10]。因此,需要一个系统推荐附近的企业通过使用产品或服务的形象作为智能车辆的查询时,乘客决定利用导航系统。现有深上优于推荐系统已经表现出高性能跨多个推荐系统,包括产品,地点,和电影的建议。然而,这些系统有一定的局限性,需要多视图的信息,比如用户偏好(评级并单击)和各种属性(图片、描述和评论)。多视图信息集成是计算密集型任务。此外,这种整合的主要挑战是保留相关的信息预测和减少其他无关信息,可以减少大量的数据,时间和成本要求提出建议。给定图像数据的广泛可用性和DL的最先进的性能模型的分类,我们提出了一个商业位置推荐系统,只需要图像数据所需的产品或服务类别智能车辆的乘客。该方法使用DL模型来识别产品或服务类别和推荐附近的企业更好地融入分类类别。因此,只使用图像数据来表达用户的偏好作为输入,并提出建议的问题作为一个图像分类任务减轻了上面提到的现有推荐系统的局限性。

本研究的目的是提出一个推荐系统,为用户提供了一个外围业务位置适合产品类别基于图像进入新系统。的过程中提出的新业务推荐系统如图位置1。该推荐系统包括两个部分:用户感兴趣的图像分类和输入图像之间的相似性度量和业务类别。智能车辆,乘客进入商店的照片向新系统或服务,他们想要找到。输入图像经过深度上优于图像分类模型预测输入图像的类别。然后,嵌入这个词之间的相似性测量图像的类别和业务类别。相似性测量后,附近商店高相似度是通过新导航,使用智能手机。

本文的其余部分组织如下。相关研究基于深度学习的推荐系统和智能汽车信息娱乐了一节2。然后,提出了基于图像的业务推荐系统提出了部分3。随后,获得的结果与收集到的图片和相关的试验分析提供了部分4。最后,本研究的结论和未来可能的研究方向提供了部分5

2.1。智能汽车信息娱乐

信息和娱乐的娱乐是一个复合词。新是一个重要因素对消费者购买智能车辆(2]。现有的汽车信息娱乐分为方法,要么使用汽车嵌入式操作系统内置的服务或智能手机连接到车辆。为了提供更多的服务通过新用户,一个汽车制造商,使智能车辆投入很多精力在创建应用程序通过提供SDK(软开发工具包)适合公司的操作系统开发商。使用智能手机娱乐是由软件公司如苹果CarPlay [11)和谷歌android汽车(12]。

现有研究新研究可以分为操作方便和娱乐应用在智能车辆使用信息娱乐。作为一个例子的一个方便的过程,作者在13)提出了一种基于文本的信息娱乐系统,以语音命令作为输入,并使用卡尔迪和语音识别工具改变命令到文本运行服务。在[14,15),作者提出了一种信息娱乐系统的驱动程序可以控制系统通过使用手势。系统是由一台电脑建立手势识别系统。在研究信息娱乐应用程序中,有一个研究使用可穿戴设备通过娱乐来检查心率和监测预防车辆事故开车时由于中风或心脏病发作(4),和光滑的多媒体流的智能车辆操作。一项研究[5)保护适当的数据率和帧。推荐音乐的,有一个研究输入司机的概要文件,当前形势下,和个人喜好作为输入6]。车辆维修系统“e-talk”可以检查车辆的状况通过信息娱乐使用物联网传感器连接到车辆(7]。

2.2。推荐系统基于深度学习

最近,研究正在积极进行深度学习(DL)技术应用到传统的推荐系统,如协作或基于内容的过滤16]。DL-based协作过滤,研究已经开展了关于给予建议用户通过结合两种不同的潜在向量输入信息后(包括描述、评论和评级的产品或一个地方嵌入)的另一个用户网络中相似的偏好,用户(17,18]。信息产品或地方表示为潜在因素相同的维度通过嵌入层和训练一个神经网络训练。这样表示的主要优势是更复杂的交互作用可以被捕获在分类数据。同样,在另一项研究中,产品信息,如图片、描述,并审查文本输入到一个auto-encoder提取其特征,然后提取的特征与最后一层集成向用户提出建议(19]。DL-based推荐系统的优点是,可以使用用户的首选项中提取(查看、评级和点击)和各种属性(图片、描述和评论)从大量的数据。此外,详细建议可以通过提供提取的特征之间的复杂交互作用(20.]。

现有基于深度学习推荐系统表现出高性能跨多个推荐系统,包括产品,地点,和电影的建议;然而,这些系统构成有一定的局限性,因为他们需要多视图的信息。主要的挑战是保持信息相关的预测和减少其他无关的信息。现有系统需要大量的数据,时间和成本做出详细的建议(21]。因此,与现有的推荐系统,采用大规模数据和复杂的深度学习模型,提出企业位置推荐系统分类的图像类别的产品或服务所需的智能车辆的乘客使用深度学习模型和附近推荐适合的企业分类类别。

3所示。方法

3.1。业务推荐系统在智能车辆

本节描述系统的总体流程为推荐企业附近的车辆当乘客输入感兴趣的一个图像到新产品或服务在智能车辆,如图2。首先,用户的兴趣类别选择推测用户可能感兴趣的产品或服务的形象。个人的利益的范围的产品或服务是大幅宽;因此,当地企业提供的数据Yelp采用限制用户的兴趣类别的范围。每个商店在Yelp的本地业务数据由多个类别,其中,当用户选择一个类别的兴趣类别,提供出现的频率很高。数据集由收集图像选择类别作为网络搜索关键字。随后,感兴趣的类别分类图像是由培训深上优于图像分类模型与用户的兴趣图像数据集。推荐合适的企业用户来说,图像类别和业务数据需要匹配。图像之间的相似性和业务类别映射使用Word2vec在同一个维度,然后相应的测量。一旦两类之间的相似度来衡量,业务在智能车辆的位置上车的乘客提供了通过新用户,使用智能手机。

在部分3.23.3通过深度学习和文本、图像分类使用Word2vec相似性度量,提出了推荐系统的核心部件,是解释说。

3.2。图像分类模型对业务范畴

深度学习模型采用本研究从图像中提取视觉信息由用户输入的信息娱乐系统智能车辆和业务类别进行分类。使用ImageNet数据集、深度学习模型的图像分类被应用转移训练学习收集用户的兴趣类别数据pretrained ResNet [21),《盗梦空间》v3 (22],EfficientNet B0 [23]。每个模型的体系结构如图3。图3(一个)介绍了ResNet的体系结构。一般来说,预计深度学习模型的性能改善的隐藏层模型中增加。然而,更深层次的DL模型遭受消失梯度问题,和汇聚层的使用限制了模型的深度。ResNet采用跳过连接的输入直接连接到层输出层来解决这样的问题(图3(一个))。使用跳过连接地址性能下降的挑战即使层得到更深层次的神经网络学习输入和输出值之间的差异。图3 (b)说明了初始v3的模块模型。《盗梦空间》v3是卷积神经网络由48层,由叠加模型在哪里配置多个初始模块与初始模型呈现在图3 (b)作为基础。一个模块配置使用卷积过滤器的大小不同,不像AlexNet或VGGNet模型,利用相同大小的滤波器卷积的一层。更加多样化的特征可以从输入图像中提取,因为采用不同的卷积大小的过滤器,和初始模型的计算量可以减少通过执行1×1卷积来减少参数的数量交付到卷积过滤器的大小。EfficientNet,扩大方法需要改进现有的事先的性能,考察了。实验三扩大方法,包括神经网络的深度增加,增加渠道宽度,提高图像的分辨率进行训练。此外,EfficientNet B0使用MBConv(图创建的模型3 (d)MobileNet)。MBconv移动卷积MobileNet采用倒置瓶颈。这个块扩展低维输入1×1层,再扩展到3×3卷积,卷积使用1×1的输出层。采用这种配置,因为更多的功能可以通过转换提取从低收入到高维数据和使用投影层,同时减少计算量。EfficientNet表现出高性能的图像分类方法和MBconv采用扩大。在这项研究中,用户通过web爬行的兴趣收集的数据被用来训练ResNet,《盗梦空间》v3和EfficientNet B0模型来确定一个适当的模型对收集到的数据。

3.3。相似性度量使用Word2vec

通过分布式字嵌入是指将文本转换成数字表示让计算机理解人类的语言。换句话说,词汇组成的文本映射到实数向量。Word2vec可以将文本转换成向量通过识别句子中单词之间的关系,可以执行操作,比如加法或减法单词之间使用向量转换。图4Word2vec介绍了架构,将文本输入到一个薄的神经网络进行训练。Word2vec的训练方法包括一个连续袋的话(CBOW),预测基于周围的话说,中心词和Skip-gram预测周围单词根据中心词。相比,Skip-gram模型表现出的语义和语法的准确性高于CBOW模型。的相似性测量使用嵌入式这个词向量图像和业务类别,因为类别以外的业务类别忽略如果图像类别简单地决定是否包含在业务类别当匹配类别。例如,如果由用户输入的图像是归类为“美国食物,”类别的餐厅是“葡萄酒酒吧、餐厅、食品、啤酒、海鲜、牛排和房子。“这两个之间的相似之处没有相关性,如果文本只是与“美国食物,”然而,可以确定的相似程度,如果Word2vec,学习单词之间的关系,采用测量相似。业务类别包括多个类别,类别的平均值测量采用相似性通过比较它与图像的嵌入价值范畴。

4所示。实验

4.1。数据集

如前一节所述,收集用户感兴趣的图像使用的频率业务类别在Yelp业务数据通过选择类别出现最频繁和指向细节和使用它作为一个关键字的搜索引擎。图5提出了业务类别在Yelp数据的频率。类别的频率是最高的餐厅,食物,和购物。然而,这些类别没有选为用户的兴趣类别因为产品或服务的范围宽;相反,类别,如“美国食物,”“划船,”和“适应性”被选为用户的兴趣类别和作为web爬行关键词构建用户兴趣的图像数据集。类别的数据集的数量是10,和图像的数量在每个类别呈现在图6。原始图像增强两次创造40540个图像数据集,其中的图像被划分在火车的比是6:3:1,验证和测试数据训练深度学习模型。

1提出了Yelp业务数据,业务信息数据。Yelp业务数据集采用本研究是一个数据集组成的存储类别和用户评论,和企业的名称和类别,以及位置等信息状态,纬度和经度被用于这项研究。

5。结果

5.1。图像分类的训练精度和损失

用于实验的计算机配备英特尔i7 - 9750 h和NVIDIA GeForce 2080 Ti RTX模型。总体而言,20世纪是申请这三个模型的实验,ResNet 50层是固定和训练,《盗梦空间》v3模型,而整个层都EfficientNet B0模型的训练。图7提出培训ResNet结果,先启v3和EfficientNet B0 10类图像。如图7(一)7 (c),ResNet和《盗梦空间》v3模型表现出改善训练数据的精度;然而,验证数据的准确性并没有提高70%后,随着培训数量的增加。图7 (e)礼物EfficientNet B0模型的准确性。与ResNet和《盗梦空间》v3模型不同,EfficientNet B0模型逐步改善训练和验证数据的准确性进行培训。因此,EfficientNet B0模型可以被认为是适合图像分类在这项研究。图8说明了这三个模型的精度之间的比较,当训练了20世纪。在20世纪,ResNet模型表现出96.71%和75.74%精度的培训和验证数据,分别。初始v3模型表现出95.32%和74.3%精度的培训和验证数据,分别。此外,EfficientNet B0模型表现出88.44%和85.31%精度的培训和验证数据,分别。

5.2。混淆矩阵的图像分类

混淆矩阵是一种测量用来评估深度学习分类的性能。在二进制分类混淆矩阵代表真阳性的情况下,真正的负面,假阳性和假阴性。一般来说,更高的真实积极的和真正的消极的价值观和低假阳性和假阴性的值表示性能越好。在多级分类混淆矩阵是一个优秀的性能指标,可以确定每个类的预测。图9介绍了创建基于混淆矩阵的预测结果ResNet,《盗梦空间》v3, EfficientNet B0模型训练后,最大值为1。混淆矩阵图10表明对角线方向的值是正确的积极的,精度较高的值接近1。测试数据应用于每一个模型时,ResNet,《盗梦空间》v3,和EfficientNet B0模型表现出76%,74%,和85%的精度,分别。根据混淆矩阵,预测精度很低的类别与指甲沙龙,这可以提高如果收集更多的数据和改进。

5.3。类别匹配使用Word2vec

虽然是很重要的准确分类用户的输入图像到适当的类别,它也是至关重要的选择候选业务建议用户根据分类的结果。因此,在本节中,多个业务类别时应用使用Word2vec测量图像之间的相似性和业务类别。

10提出了图像之间的相似性测量方法,使用Word2vec业务类别。Word2vec学习单词和单词转换成数字之间的关系。因此,“轮胎修理”类别分为“轮胎”和“修复”通过预处理,而业务类别也分为单词字嵌入。图像之间的相似性比较和业务类别的N: N类别分为单词时比较;因此,平均余弦相似性的图像之间的相似性和采用企业类别词各自的形象和类别。pretrained Google新闻数据模型采用诸如Word2vec模型和数据的俄亥俄州的Yelp当地业务数据被利用。表23相似度测量结果的一部分。

23目前的结果测量图像之间的相似性分类类别“美国食品”和“发廊”与其他业务类别,分别。在表2在第一行,企业是最类似于“美国食品”,而低分数记录在其他业务类型。在表3在第七行,企业是最类似的业务类别”美发沙龙。“业务类别在第六行展出第二相似性最高,也是见图11“头发”、“钉”,“皮肤”有相似的价值观字嵌入后,可能由于存在类似的词“美丽”的范畴。结果从测量图像之间的相似性和业务类别使用Word2vec,业务类别与明显的高相似性也表现出很高的相似度结果使用Word2vec;因此,企业除了用户的输入图像的相似性可以推荐,因为每个业务类别可以被识别。

5.4。手机应用程序原型

12提出了一个移动应用程序的原型提出了推荐系统业务中的一种产品或服务的位置附近的视频、互联网、或社会媒体当乘客使用新休闲与智能手机。业务推荐系统收益从左到右的顺序图12。当一幅图像由用户输入所需的食物,候选人的类别图像下面的输出图像。当用户选择一个类别,附近商业位置显示在屏幕上是基于用户的位置信息。此外,当用户选择一个特定的业务,最近的位置显示在屏幕上。如果进一步的先进技术与智能车辆,它可以应用于信息娱乐系统,采用智能车辆的操作系统,或通过平视显示业务推荐系统应用增强现实可以提供。

6。结论

在本文中,我们提出了一个基于图像数据的业务推荐系统与现有的信息集成方法,利用多视图。该推荐系统由两个阶段组成:用户的兴趣图像分类和测量一个输入图像之间的相似性和业务类别。图像分类用户的兴趣,通过web爬行收集相关的图片。在第一阶段,不同深度上优于图像分类模型的训练和测试获得的数据。结果表明,EfficientNet B0模型表现出更好的性能测试数据比其同行。在第二阶段,使用Word2vec度量图像和业务类别之间的相似性和转换成向量;然后,每个单词之间的余弦相似性测量采用平均值之和作为相似的程度。因此,业务类别明显类似于图像的类别也基于Word2vec表现出高度的相似性。此外,该推荐系统可用于不同的场景,如,在提供推荐服务乘客和司机寻找附近的企业使用智能汽车信息娱乐系统。在未来,我们打算提高分类的准确性在早期的步骤,因为它可以提高提出了推荐系统的整体性能和比较它与其他分类模型。

数据可用性

YELP数据集用于支持本研究的发现是可用的https://www.yelp.com/dataset

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究得到了MSIT(科技部、ICT),韩国,在全球高潜力的个人培训计划(批准号2020-0-01578)监督IITP(信息与通信技术研究所计划和评估)。这项工作也由韩国国家研究基金会(NRF)授予由韩国政府(MSIT) (Grantn没有。nrf - 2020 r1a2c2007091)。