文摘

涉及虚拟货币交易越来越普遍,包括网络游戏。作为回应,虚拟货币的市场价格预测是一个重要的任务,但它尚未吸引了研究人员的关注。介绍了用户从网络论坛意见在大型多人在线游戏(MMOG)设置在世界各地广泛使用。我们提出一个方法预测次日的兴衰MMOG使用的货币环境。基于分析的在线论坛用户的意见,我们预测每日价格波动的货币用于MMOG设置。特别关注《魔兽世界》游戏中,使用最广泛的mmog之一,我们展示的可行性预测波动的价值在这个游戏中使用的虚拟货币的社区。

1。介绍

个人可以通过互联网参与无数交互由于网络技术的进步和前所未有的计算能力。大型多人在线游戏(MMOG)环境越来越受欢迎,越来越多的用户。在这个MMOG的环境,许多用户开展经济活动与各种目的(1,2]。在《魔兽世界》(哇)MMOG,用户参与事务使用特定的虚拟货币被称为黄金。第二Life-another著名的虚拟世界的虚拟货币叫做林登美元用于交易相关用户创建的项目,比如房子和衣服1]。

虚拟经济基于这些虚拟货币使用户能够更充分地参与mmog,有时甚至实现真正的经济价值(3,4]。交易虚拟货币与现实货币之间已经逐渐增加(1,3,4]。大多数MMOG-related虚拟货币与现实货币交换在eBay或隐匿的比特币等(1,5]。从事此类交易随着用户数量的增加,市场规模预计将增长(5]。许多研究人员调查了MMOG环境和相关情况(1- - - - - -7]。然而,大多数这些研究人员集中在事务环境而不是货币价值(1]。

当然,真正的金融交易进行了广泛的研究。研究的技术预测股票价格,例如,日期股票交易的开始8]。最近,股票市场的趋势预测使用机器学习技术,如神经网络和支持向量机(9- - - - - -13]。数据用于训练一些预测模型都是基于金融新闻(11,12]。几个以前的研究侧重于分析股票市场使用基于web的数据(9,10]。然而,很少有研究人员试图评估虚拟货币和预测未来值。

众多网络游戏用户间发生的涉及虚拟货币交易,形成一个大的市场(1,3,4]。因此,能够预测虚拟货币的次日兴衰与现金交易被认为是重要的。能够预测虚拟货币的市场价格将有助于事务代理人从事合理交易,帮助游戏开发者管理虚拟环境以及识别和解决问题在虚拟经济1]。

虚拟货币对于mmog经济系统中存在大量的投标竞争是允许的,这并非如此真实的货币(14]。所有的经济主体都是全面的,在某种程度上,不存在信息不对称1,14]。供应商和消费者的虚拟货币法案主要是合理的利润极大化者。较少的变量存在调节虚拟货币的价值波动比与真正的货币;因此,它是可能的观察值很容易波动。

MMOG环境是“大数据”的来源,因此适用于许多学科的研究。在游戏中Pardus [15),数据采集是可行的大规模虚拟世界人口的社会理论研究[16- - - - - -22]。各种方法分析社交网络的结构和动态演化在虚拟世界中开发并取得了显著的结果(23,24]。基于这些研究结果进行了相关的研究从不同的角度(25- - - - - -30.]。

基于上述研究,我们已经开发出一种方法预测每日波动在货币的价值通过用户意见分析MMOG环境中使用。在这项研究中,我们演示了该方法的应用预测每日波动的魔兽世界游戏中使用的虚拟货币,MMOG的规模最大的活跃用户。

金正日的工作等。1)相似之处我们的研究的目的;然而,他们的预测是基于交易的数据只有一小部分用户购买虚拟货币的现金,这限制了可用的数据的数量。这使得很难检查所有日常事务上的数据;因此,价格是不可靠的。令牌在哇可以赚取销售游戏内货币如果出售的开发者通过限定路径;因此,实验可以进行基于更明显的数据和使用的所有事务。

此外,在技术方面,现有研究情绪分析在一个简单的形式,但是我们的研究的贡献主要在于我们的小说文本挖掘方法的应用程序基于一个定制的词汇。即文档中提取有意义的特性或时间点(包含文档发布),我们首先构建一组关键字,或词典,定义一个特定的概念或概念,我们称之为的过程建筑概念。之后,我们强烈衡量这样的概念是表现在一个给定文档或一个时间点,通过计算这些关键词(可能还有其他相关的关键字)发生。构建一个自定义的概念和它的词汇在分析领域特定文档语料库中扮演着关键角色,在我们的论文中,我们旨在揭示信号从文本数据,可能会导致价格的预测。举个例子,如果我们使用一个现成的情感分析方法,使用标准的词汇为积极的和消极的关键词,然后会有很多特定于域的关键字没有捕获的方法,即假阴性。

相反,我们建立我们自己的词典的价格密切相关的游戏虚拟货币哇。在这个游戏中,用户用现金买令牌以固定价格(例如,20美元(NA)北美地区或20欧元在欧洲(欧盟)地区)和卖给其他用户,以换取虚拟货币被称为黄金。令牌/黄金汇率变动根据需求和供给,如图1

一般来说,收购黄金在游戏环境需要一段时间和精力,但这样的时间和精力可以减少如果令牌都是用现金购买,然后卖给另一个用户的黄金。令牌是用黄金购买通常用于购买时间可供使用的虚拟世界。这样的标记有两个优点。首先,令牌防止虚拟货币被非法交易的现金。第二,不断令牌的值可以被追踪。我们的目标是预测次日兴衰的令牌/黄金汇率(也称为令牌价格)根据用户意见连续数日的数据分析。该方法可以预测波动MMOG环境中的虚拟货币的价值,可以应用于销售/购买虚拟货币,允许开发者确定多个影响的数值和可能性,否则很难识别。

2。建议的方法

如图2,该方法的特点是如下。数据提取包括用户的意见关于MMOG环境和虚拟货币交易中使用的价格。用户的意见是我们定制的排序对他们的分数概念之间的因果关系,然后用户意见和决定了虚拟货币的价格进行因果关系分析。基于用户意见之后得分和机器学习模型,我们预测虚拟货币价格的上升和下降在接下来的一天。

3所示。数据抓取

最初,爬生成预测模型所需的数据。我们从官方哇论坛收集数据。人们使用这些网络论坛上传帖子和交换意见共同感兴趣的特定主题(1,31日- - - - - -35]。因此,这样的在线论坛是良好的信息来源来衡量日常许多用户某些mmog的反应。社区或论坛广泛应用于mmog的信息交换(31日]。根据一项研究[1哇,链接的论坛用户之间经济活动,我们发现相关预测波动在当前虚拟世界用户的数量。,用户发布的主题和相关回复一般论坛官方哇论坛上爬。我们还爬的时候每个评论和回复贴,每个评论回复的数量,数量的观点。回复引用先前的评论和回复是爬,不包括重叠的句子。每个HTML页面爬使用Python正则表达式解析HTML标签的数量和提取主题,回复的数量,日期的主题和回复贴,和每个主题的URL从一般的讨论版。基于提取的主题和内容的url,回复他们也被提取。数据保存在json格式,进而转换为其他格式(例如,csv和xlsx)为不同的目的。我们收集的数据在一段460天(2015年4月23日至7月25日,2016)。在这个时期,主题收集的总数是166651 (NA地区140831年和25820年在欧盟地区)和用户的回复是2931748 (NA地区2587001年和344747年在欧盟地区)。我们收集数据的方式符合规定的条款和条件使用的论坛。 The collected data did not include any personal information.

《魔兽世界》的玩家使用真实货币(如美元和欧元)购买令牌和卖给他们的虚拟currency-Gold-in拍卖行在游戏环境中。令牌只有在使用一段时间;此外,网站和工具继续跟踪和令牌的值。我们使用这些网站之一爬每日收盘价的令牌。这些数据的使用不违反哇的使用条款协议或包括用户个人识别信息。

4所示。用户意见的数据分析

我们的目标是构建词典的概念,即有意义的关键字的价格预测中使用的货币哇从爬数据。为此,我们最初跑话题建模使用整个用户评论中提取关键字,代表的子集将被用于构建初始词典。之后,我们相关关键词检索这些最初的关键词,我们选择了基于相似性度量通过核密度估计技术。核密度估计背后的主要思想是计算给定单词的相似性得分为每个关键字在我们的词典使用高斯核函数在一个字嵌入空间这些相似性得分的平均值。那些高度相关的关键字会以这种方式高相似度值计算。更多细节,请参阅后面的部分。

4.1。数据预处理

去除噪声或不必要的信息,我们应用几个预处理策略为所有用户评论。首先,我们把URL字符串,停止词等辅助动词,介词和特殊字符。然后,我们标记化的字符串到单词和lemmatized每个单词。此外,我们只用单词频率高于 ,排除用词非常稀疏。在这项研究中,我们设置 如3所示。

4.2。建筑概念

接下来,我们建立了一个词汇代表一个概念为我们自己的目的。lexicon-based文档分析起着重要的作用在文档分析在各个领域,如经济、政治和社会科学。

我们的主要目标是找到显著相关概念存在于整个文档主体通过分析用户的评论。例如,文档哇论坛可以组合的概念,如一个项目一个raid,游戏内容。这些概念可以用这句话来解释相应的词汇,分别。在此,我们可以定量评分相关文档如何每个概念通过分析如何强烈的概念出现在它的信号。

词汇的概念包括两个步骤:(1)生成候选词集,可能是相关概念和(2)完成词汇手册细化。提取候选词对于每一个概念,我们构造的话题建模与用户评论。主题建模将在稍后讨论。一旦生成代表关键词为每个主题用这种方式,我们使用一个联盟每个主题的关键词设置为我们的候选词集的概念。然后,基于特征的先验知识的虚拟世界36- - - - - -38]作者有一个主要的目标相关的游戏,游戏公司制作游戏的开发者MMOG类型,我们选择词从候选词,再分为一些合适的词典给我们所需的概念;每个单词可以被分配给多个概念。因此,我们可以收集的话,可以解释相应的概念。表1这一过程显示生成这些词汇的例子。

4.3。主题建模建立初始词典

主题建模方法我们使用从文档中提取具有代表性的关键词语料库是非负矩阵分解(NMF) [39),非负约束给出结果的可解释性权重系数矩阵的一个词或一个文档的相关性分数每个主题。

在细节,给定一个文档矩阵 ,在那里 代表词汇和文档的数量的大小,我们分别归一化这个矩阵的每一列单元L2-norm。鉴于这个矩阵,NMF近似因式分解成两个矩阵 ,在那里 代表主题的数量, 在这个方程中,下标 例如,表明弗罗贝尼乌斯标准 。NMF非负约束, , 所示(1),使元素 负的,从而维护可解释性。列在结果矩阵, ,对应不同的主题和关键字对应的指标 每一列最大的价值函数的代表关键词主题。

在我们的分析中,我们构建了一个文档矩阵, ,从25820年美国和140831个线程的线程在欧盟从哇论坛。每篇文章内容和日期功能,这样我们可以通过总结每天计算分数的频率每个单词在句子或文章中生成相应的一天。在主题建模中,我们设置了一些话题, ,10。我们还为每个主题设置代表关键词的数量, ,30。

4.4。词汇扩展概念和相关性分数计算

在本节中,我们将描述如何使用内核扩展概念的关键词密度的细节估计和计算与这些概念关键词相关性得分。由于缺乏表达产生的有限数量的关键字一个人可以管理和难以确定的相关性概念在用户看来,我们利用核密度估计(KDE),统计指标来估计概率密度函数,可以使用多个内核,抵抗来推断句话说的概念是什么。换句话说,我们选择一些关键字为每一个概念,但问题是,关键词为每个概念的数量是相对较小的数量相比总词汇量。为了克服这个问题,我们训练有素的字嵌入向量表示为所有单词使用Word2Vec [40),它可以提供语义和语法意义的向量表示。后来,我们计算所有关键词和概念之间的距离。然后,我们计算条件概率分布给出了所有单词每个概念利用KDE。

特别是,我们采用了高斯内核采用如下(41]。的概念 ,可以计算条件概率距离函数, ,代表嵌入向量的单词和向量之间的距离每个概念的词集和内核, ,这可以确保给定单词和其他人之间的适当平衡。嵌入的条件概率向量的关键字, ,为一个概念, ,包含嵌入向量概念的关键词, ,可以计算如下: 在这里,我们使用欧氏距离和高斯内核和这些方程如下。 我们设置参数, ,为1。

条件概率也可以被视为每个类的相关性得分。因此,给定的句子的分数, ,的概念, ,被定义为

分数的范围 因为分数的句子总结所有句子中单词的分数,和所有的概率是负的。在实践中,这句话不是很长,而且每个单词的分数小于1;因此,句子的分数不是很大。

进球后的所有评论,我们计算分数每天通过总结文章中产生。因此,我们可以每天获得的分数。通过这一分析,我们发现,分数在2015年8月和2016年7月当一个新的资料片和补丁改变虚拟世界极大地宣布。图3显示每个分数的线形图概念,如表所示1在某些时期。

5。因果关系分析

格兰杰因果检验(42)进行评估的标准化牌价格和成绩之间的关系的概念。格兰杰因果关系检验是基于这样一个假设:如果变量 原因 ,然后改变 前将持续发生的变化 (1,9]。我们没有寻求测试实际的因果关系,而是每个概念的时间序列的分数是否包含一些预测性信息牌的价格。

我们的销售价格的时间序列标记,表示 ,反映了令牌的价格每天变化。我们测试是否收集到的数据可以预测的时间序列的变化令牌价格通过比较方差解释为两个线性模型。第一个模型只使用 落后的价值观 (例如, 预测),而第二个模型使用 滞后值的 的时间序列分数的概念,用 。我们进行了格兰杰因果关系检验根据描述的模型

基于格兰杰因果检验的结果,我们拒绝零假设的时间序列的每个概念不预测令牌作为生活必需品, ——高水平的信心。通过分析他们的相关性,我们提取的概念与最高的格兰杰因果关系 值< 0.05)。

6。预测模型的配置

使用收集到的数据和分析和评价评论数据,我们建立了机器学习模型预测价格波动哇令牌使用梯度增加树,随机森林,和支持向量机(SVM),广泛应用于二元分类问题,用于调查敏感性不同的机器学习算法。我们用R包xgboostcforest梯度增加和随机森林中实施。支持向量机的实现是基于libSVM [43)和径向基函数(RBF)的内核。使用LibSVM,学习数据旨在寻找RBF核函数的最优参数。我们创建了一个设置应用机器学习数据生成的460天。

作为第一步,我们标准化的数据以改进学习模型的适用性。的 分数, ,在那里 代表每个日期的均值和标准差,分别的数据前12天( )使用。适用于输入数据的一个例子如表所示2。至于输入节点,基于输入数据表中提供2,10表示为串行输入数据点向量分配神经元基于累积天数花在学习;20、30、50和700个神经元是分配给累积2,3,5,7天。

7所示。实验结果

7.1。格兰杰因果检验的结果

格兰杰因果检验对比特币交易数和价格滞后时间的1到7天。时滞是省略了8天后,因为它产生的效果不那么重要。表34测试结果列表。

从结果,观察到在NA地区,大多数用户的意见有一个时滞时影响小和用户意见与齿轮和PVP有因果关系,当时间延迟变得更大。在欧盟地区,发现用户意见相关装备,PVP,补丁有因果关系。这个过程只是用于验证。整个数据集被用来构建实际的学习预测模型。

7.2。预测结果

我们建立和应用机器学习模型的基础上,收集和得分数据预测的日常波动哇令牌的价格。2015年4月23日,7月25日,2016年,交叉验证试验进行的10倍。准确率,马修斯相关系数(MCC) 测量被用来评估该模型的性能。

5介绍了预测结果。最准确的预测模型对NA地区哇牌价格(准确率= 82.55%)是基于梯度增加,前七天的学习资料。最准确的预测模型哇牌价格在欧盟地区(准确率= 81.52%)是基于梯度增加和前12天的学习数据。表5介绍了结果相对于不同的机器学习模型和学习数据结构。累积学习7天或更长时间的数据导致了微不足道的差异,学习和累积数据少于五天证明了学习和损害了预测精度不足。

8。讨论和结论

在本文中,我们提出了一个预测方法的价值波动MMOG的虚拟货币,一个以前最低限度研究的话题。我们的研究结果表明,虚拟货币的价值波动哇MMOG环境中可以预测。本文证明该方法可以应用于虚拟货币出售/购买。

精制中使用了用户数据的结果预测,显示,用户的意见可以有效地用于货币价值波动的预测。格兰杰因果检验结果表明,用户的意见影响令牌值,不管世界的地区。

该方法为开发人员提供了市场价格趋势和使他们能够确定多个影响的数值和可能性,否则很难识别。MMOG环境中包括用户的经济活动和币值波动的相关性,这是有利于调整MMOG的综合平衡,从而改善环境。验证货币价值波动的预测将使用户能够追求利润,在狭义,感知的整体流动给定虚拟货币在更广泛的意义。

该预测系统可以提高了从以下几方面考虑。首先,一个更复杂的用户描述可能产生更多的暴露的结果。例如,相当数量的原因存在用户玩游戏(44],这些原因可能是有关他们的交易活动。分析用户的动机和他们的关系交易活动可以提高经济活动的理解MMOG的设置。等因素,此外,数据变化在游戏环境中,虚拟货币系统更新,和用户评论,包括聊天,都值得分析彻底理解MMOG设置,提高预测精度。此外,如果一个足够长的时间的数据可以收集,多元时间序列分析将确保竞争的结果。我们的计划是提高我们预测系统在未来的研究将这些考虑提高该方法的可靠性和效率。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究受到了基础科学研究项目通过韩国国家研究基金会(NRF)由科技部,ICT和未来规划(NRF - 2015 r1a1a1a05001196 NRF - 2016 r1e1a2a02946052和联盟- 2017 r1a2b2005380),由一个信息与通信技术研究所由韩国政府推广(IITP)拨款(MSIP;2016-0-00285,基于高性能计算(HPC)的渲染解决方案开发),Linewalks公司。