文摘
随着电子商务的发展,公司已经创建了虚拟社区(VCs),用户可以创建帖子和回复帖子关于该公司的产品。风投可以表示成网络,与用户像边缘节点和用户之间的关系。通过边缘信息传播。在风险投资的研究中,重要的是知道如何随着时间的推移,主题关于产品数量的增加和网络特性使一个用户的信息传播过程中比别人更有影响力。现有文献没有提供一个定量的方法来确定主题出现过程中关键点。另外,一些研究人员认为多层物理特征之间的联系和节点的传播影响力。在本文中,我们提出两个新的想法来丰富网络理论应用于风险投资:一种新颖的应用程序的一个调整系数决心增长和调整话题Jaccard系数来衡量两个用户之间的联系。一个两层的网络模型第一次被用于研究通过VC的传播主题。随机森林方法被应用于各种因素排名可能确定单个用户的重要性通过VC话题传播。我们的研究提供了深刻的方式为企业从风投我的信息。
1。介绍
虚拟社区(VCs)提供一个交互式的体验,如果积极的,可能灌输顾客忠诚度(1]。它们使消费者了解产品的功能和跟进与在线购买方便,以及提供一个通道来接收客户反馈,在产品创新中扮演着很重要的角色(2,3]。矿业投消费者所提供的信息使得公司能够调整他们的下一代产品提高客户满意度(4]。
复杂网络理论一直是研究的主要工具的物理结构和动态过程社会、生物和技术网络(5]。在分析信息传播,用户表示为节点(6];这些节点可能驻留在多个可能的状态,取决于他们所学到的信息,是否可以发送一个邻居(7- - - - - -9]。在现实世界的风投,微博等社交网络,微信,Twitter和Facebook有不同的物理结构,导致不同话题的传播模式。
消费者风险投资从传统的社交网络的不同之处在于,他们围绕着产品。他们提供了一个实时观察客户的经验与产品的发布日期。用户在风投可能发布为其他用户查看他们的反馈,,最好的情况是,可能会鼓励现有消费者忠诚度同时鼓励新消费者购买。因此,了解消费者风险投资可以提供洞察民意趋势,帮助该公司维持现有市场或开发新市场10]。
消费者风险投资、信息传播通过帖子,是关于特定主题的11]。网络随时间变化;因此,时间维度,即。,temporal networks, have been incorporated into network analyses [12]。消费者风险投资,关键时间点的识别主题出现时可以提供适当的角度解决咨询服务。此外,风险投资有多种方式为用户进行交互,其中“回复”和“寻找利益”是常见的获取信息的方法。挖掘有影响力的用户并指定的重要网络功能也提高多层网络信息转换的效率的关键(13]。
因此,本文试图回答下列问题:(我)推出一种新产品,主题关于产品的数量是怎么长出来的?(2)通过一个VC主题如何传播?具有什么特征在信息传播过程中个人用户的影响?
在这里,我们特别关注华为P10 / P10 +我们的案例研究。介绍了两个新概念。首先,确定系数应用于主题的发展推出新产品后,产生的节点顺序出现确定系数(NSECD),这是用于识别的时候大部分的增长已经完成。第二,Jaccard系数调整来获得一个新的衡量风险投资的两个用户之间的相似度。随后,两层网络模型,代表两种方式传播信息,介绍了研究主题的传播通过VC和识别最有影响力的用户。随机森林方法被应用于各种影响因素的重要性排名用户通过VC对传播主题的影响。最后,为未来的研究提供了一些建议。
本文的其余部分组织如下。部分2现有的方法提供了一个文献综述。部分3描述了华为P10 / P10 +数据集及其预处理。部分4介绍了NSECD统计研究新课题的发展后,引入一种新产品。部分5提出了调整Jaccard系数和两层网络模型。在之后的部分,模拟网络中识别关键用户进行描述,用随机森林方法用于查找用户的信息传播功能重要的性能。部分6回顾风险投资企业管理的建议和提出进一步的研究方向。
2。文献综述
在线社交网络施加重大影响今天的生活(14]。Sange等人发现,在线社交网络提供了一个平台,传播客观事实和假新闻(15]。公园等人指出,智能手机等移动设备的快速增长和检查快速移动社交网络中的信息传播(16]。到目前为止,信息的传播被调查集中在跨学科领域(17]。
研究信息传播在风投有两个主要焦点:影响因素分析和传播路径分析。影响因素分析试图确定哪些因素使得网络中一个节点影响力;这些因素可能包括性别、年龄、信仰等。另一方面,传播路径分析研究信息的方式是通过网络传播,例如,分配权重边缘和设置传输概率基于这些权重。
我们第一次提供的例子的影响因素分析。李等人开发了多项朴素贝叶斯分类器,基于内容检索微博帖子,发现信息类型对传播模式有重大影响的规模和拓扑特性(18]。曾和朱提出一种情感信息传播模型基于网络用户的情绪状态19]。许开发一个集成的概念模型和企业探索brand-evangelism-related行为决策的影响在VC成员(20.]。广域网等人用最小二乘支持向量机研究消费电子产品供应链(21]。然而,上述研究主要影响因素的分析,但没有考虑风险投资之间的差异。
关于传播形式,霍和程建立了一个修改ignorant-wiseman-spreader-stifler模型分析谣言的传播通过网络(22]。许等人提出了一种新的迭代算法称为SpectralRank,假设一个节点的传播能力是成正比的数量邻近节点添加一个地面后节点网络(23]。邵等人介绍了NL中心算法来识别有影响力的网络中节点;的算法考虑了半局部结构节点及其拓扑位置。(24]。王等人提出了一个基于积分方法k层识别影响力的指挥控制网络中的节点(25]。和埃斯卡兰特Odehnal提出了一个确定性SIRS-type谣言传播模型和应用在模拟两种类型的谣言:一个原始的谣言,紧随其后的是第二个抵消谣言基于复杂网络(26]。李等人提出了潜在的浓度标签方法来帮助定位susceptible-infected-recovered下蔓延模型的多个来源(27]。张等人介绍了susceptible-infected-true-removed模型对谣言传播的网络中成员知道或可以辨别真相(28]。熊等人介绍了位置概念到当地的社会网络模型(29日),进一步扩展到推荐系统通过信息传播在基于本地的社交网络(30.,31日]。在最近的研究中,熊等人结合社交网络的位置和时间的影响,提出建设性建议动态管理(32]。张等人研究了网络,可以再细分成更小的团体称为社区和提出了AI node-ranking算法使用两个因素:吸引力(措施追随者一个节点的数量与邻国相比)和启动电源(占社区,一个节点的邻居属于)(33]。
尽管这些研究考虑节点重要性排名与网络的拓扑结构,他们通常把网络当作单层。这并不占这一事实可能有一个以上的方式通过网络传播的信息。因此,多层网络模型可能更合适。我们提出一个两层模型。
3所示。数据预处理和描述
花粉俱乐部的官方VC华为的产品,包括智能手机、笔记本电脑和其他电子设备。每个用户分配一个惟一的标识符,他们可以自由表达自己的意见关于产品,查看其他用户的帖子和回复帖子34]。
对于我们的初始数据集,我们选择2000个网页华为P10 / P10 +,包含2392035个帖子关于产品。删除重复的和垃圾邮件的帖子后,我们保留57560原创文章和826328回复贴子129362用户数据集。数据直接从收购club.huawei.com为了避免面试效果(35]。
接下来,核心话题从文章中提取。在一项研究36),100主题手机最初选择(见表1)。整理那些高频率后,剩余的主题被分成三类:系统,软件和硬件,根据他们的特点,如表所示2。
本文的其余部分61这些主题。这些主题都没有出现在数据集的第一天,但在研究过程中出现的用户购买和使用产品,制定关于产品的问题。在下一节中,我们将讨论话题的出现。
4所示。动态分析的话题出现
根据典型的产品生命周期,一个新产品经历了三个阶段:产生、成长和成熟。指的是产品发布前的时期出现(37]。增长是指一段高的消费活动在产品发布之后,当消费者被热切期待着发射准备购买产品。成熟是指一段时间的低消费活动之后,当消费者可能继续购买产品,但这样做以较慢的速度因为热情的消费者已经这么做了。
风投的过渡点从成长到成熟感兴趣的公司,因为它的信号点之后,应该需要更少的资源监控和应对风险岗位有关的产品。本节的目的是引入统计,确定这样一个过渡点。
为了这个目的,我们使用主题的累积数量的增长从61年的主题到给定的日期来衡量VC对产品的兴趣。例如,我们可以选择日期的累积数量的话题61年达到90%或95%。然而,任何这样的选择将包括一些关于使用哪个阈值的不确定性。相反,我们提出一个过渡点,避免任意阈值的选择。
基于调整确定系数在统计38),我们定义NSECD如下: 在哪里NSECD价值吗一天,累积的一些新的话题吗一天,n主题的总数,天的总数。
作为的增加, 增加而 减少。我们希望在一个典型的数据集,新课题研究中早期的强劲增长将导致增加最初在更快的增长因素 一起将导致饱和度的新主题减少。我们的关键时刻将当这个函数达到最大;也就是说,
图1显示了NSECD每天在我们的数据集。在这个数据集,计算出 。因此, 。
总结主题的生命周期增长我们的案例研究,从研究开始的产品发布日期(9天)被认为是“出现”阶段。十二个新话题是添加在这个阶段,反映出早期的兴趣华为P10 / P10 +。从产品上市日期我们关键时刻(33天)是“增长”阶段。从我们的关键时刻到研究结束的被认为是“成熟”阶段。
在图212个新话题中加入“出现”阶段,所有9天,最后一天的阶段。这反映了早期的兴趣华为P10 / P10 +。
“增长”阶段持续的趋势的新主题的最后一天出现阶段。新主题出现迅速在这个阶段,早期用户分享他们的意见对产品从不同的方面,但速率末期出现放缓的新主题。这个阶段,年底58主题出现,总数的95.08%的话题。
“成熟”阶段甚至目睹了增长放缓新的主题与早期相比,因为大多数主题早已经出现。
5。网络建模
在本节中,我们首先介绍一个两层的网络模型,然后执行信息模拟来确定哪些用户在一个VC最有效的传播信息。
5.1。网络的结构
在这里,我们建立一个风投的两层网络模型。每个用户都由一个节点表示,发生在两层。两层对应于两种方式中,一个用户一个VC可能与另一个用户交互:通过回复帖子或通过搜索他们的职位。
第一层是“信息流动的回答(杉木)“网络(表示 )。给定两个用户和 ,让的次数回复一个帖子在数据集内。如果 ,然后一个箭头从来是画的。冷杉网络组成 ,所有用户的集合, 所有的集合重量、 所有的集合箭头。
第二层是称为“信息流动的兴趣(造成)”网络(表示 )。灵感来自于想法,两个用户很可能会寻找彼此的帖子,只有当它们共享相同的利益。给定两个用户和 ,我们可以构建一个措施代表利益的共性和画一条边他们之间时上面是一些预设阈值 。造成网络组成 ,所有用户的集合, ,所有的集合重量、 所有的集合箭头。它仍然是定义重量。
让是主题,让主题的总数有固定的订单。然后,让 向量组成的主要的数量文章涉及的每一个主题。因为有些用户可能只关注一部分话题,大多数条目为零。因此,一个Jaccard系数是考虑。让 ,也就是说,所有的集合来pics for which至少有一个主要的帖子。根据定义,Jaccard系数和可以计算如下: 在哪里 和 表示元素的数量在十字路口和联盟由用户提到的话题和 ,分别。
Jaccard系数的缺点是它不区分一双休闲用户只有一个主题,恰好是相同的,和一双热情的用户发布的许多共同的话题。例如,考虑以下两种情况:情况1:用户和只有在“系统”和“更新”。情况2:用户和只有在“系统”。
基于方程(3),Jaccard系数分配一个重量的1到两种情况。然而,这可能不合适,因为用户情况1在VC和可能更活跃,因此,更容易通过搜索交换信息。因此,我们提出以下调整Jaccard系数:
在我们的案例研究中, 。基于方程(3), 在情况1和 情况2。像Jaccard系数,调整Jaccard系数总是在0和1之间,是0当用户没有共同话题。然而,与古典Jaccard系数不同,它是1只有当两个用户分享的话题。
在图3我们图的值的分布在所有成对的用户在我们的案例研究。数据3(一个)和3 (b)表明,绝大多数双用户关联到一个小的价值 。一个小意味着几乎没有可能性的信息传播。在我们的分析中,我们使用一个阈值 。也就是说,一个边缘是用户之间和用户只有当 。这使得造成网络稀疏网络。值得注意的是,数据之间的差异范围纵轴3(一个)和3 (b)是由酒吧区间的差异引起的。
(一)
(b)
Gephi软件被用来画插图的两层的案例研究。结果如图所示4。
(一)
(b)
为了说明我们的两层网络模型是如何工作的,与七个用户考虑以下简单的例子,如图5。
在这里,一个- - - - - -代表七个用户。用户可以发送或接收信息从冷杉同时也造成网络。例如,用户一个可以接收来自用户的信息b或c冷杉网络,或者从用户b或d造成网络。用户一个用户可以发送信息吗b或d造成网络。同时可以通过两个渠道传播信息。重量的优势越大,越有可能信息流经它在任何给定的步骤在两层。
5.2。信息传播和用户的重要性
接下来,两层网络模型将扩大信息传播机制,通过VC来模拟流动的信息。假设我们感兴趣的是传播的一个特定的信息通过网络。信息模型将基于一个简单的两国框架;在任何给定的时间,一个节点的两个可能状态之一:(1)敏感状态,代表美国的用户不接收信息(2)感染状态,指示用户接收的状态信息
时间被视为离散。在每个时间点 ,受感染的节点有一个易感out-neighbours传输信息的概率。信息的传播是一个随机过程。下面将描述这一过程的数学模型。
为了方便起见,用敏感和感染状态和 ,分别。我们表示冷杉层和造成层 和 ,分别。列出关键符号如下:(我) 用户的状态吗在时间(2) 是用户的指标变量在州或 ,分别在时间(3) 是用户的组out-neighbours吗冷杉网络(iv) 组的邻居用户吗造成网络(v) 目标用户群的用户吗可以传播信息(vi) 指标函数。需要的价值1当里面的论断是正确的和0时里面的说法是错误的
这个模型的关键机制如下:(1)为用户 ,每一天除了最后一个步骤,每一层 是一个从 。如果用户被感染的 ,这个画的价值决定的的out-neighbours层感染时t。更多的可能感染总是优先考虑可能的感染。低价值的意味着该节点将很容易感染,而高价值意味着它将很难感染。(2)为每个用户 ,每一层 ,而且每个in-neighbor的 , 将测量的传染性 通道。大值表明很容易感染 ,而小值显示有困难感染 。的值只取决于网络结构从之前的部分。
注意,out-neighbours和in-neighbours节点只有当不同层的边缘定向,即。在这种情况下,冷杉网络。如果不定向层的边缘,out-neighbours in-neighbours是相同的,只是叫邻居。
在开始的时间 ,一个节点感染所有人敏感;也就是说, 而 为 。假设我们知道,电感对所有 。然后,给出了节点的第二天 在哪里和可以由 和的值计算如下:
这意味着感染节点保持感染,而未感染节点被感染,如果在某些层,其感染in-neighbours之一有一个足够强大的连接来克服给定节点的阈值和层。信息传播过程中从一个节点开始感染,而所有其他节点都敏感。任何节点都可以被用作起始节点。过程结束时未感染out-neighbours没有感染的节点,或t已经达到了一些指定的时间限制。在我们的模拟中,我们使用的期限 。注意,由于传播过程取决于随机了 ,这个过程本身将是随机的。
一种标准的方式来衡量节点在一个网络的重要性是由感染始于的程度(39]。为此,我们定义一个节点的信息传播速度作为 ,在哪里是感染节点的数量的传播过程和节点的总数。因为信息的传播取决于随机变量 , 本身是一个随机变量。其期望太复杂计算显式;然而,它可以被重复抽样估计如下: 在哪里试验使用的数量,即。,模拟的数量为起始节点,中获得的值吗审判。由于大型数据集的大小和由此产生的高计算时间,被设置为30。用户被排名根据他们的意思是信息传播速度在这些30试验。
仿真过程中实现MATLAB(美国马MathWorks,纳蒂克)如下。让是开始的节点信息。我们跟踪信息在网络的传播通过受感染节点的集合,表示 ,和未感染节点的集合,表示 :步骤1:从网络节点开始 和边 与重量 和起始节点 。步骤2:如果没有out-neighbours,停止和输出 。否则,初始化 。步骤3:当 ,步骤3:让 。如果这是空的,退出while循环,否则继续。步骤3 b:对在 ,(1)画和从 ,和(2)为每个 ,计算如上所述。如果 ,插入成和删除从年代。步骤3 c:更新 和 。第四步:输出 。
一个两层的网络和信息传播的历史节点提供起始节点,如图6。
注意节点不能传播信息节点在冷杉层通过造成层但可能这样做。从那里,可以从节点的信息来通过冷杉层。对于不同的传播路径,请注意一个不能传播在冷杉层通过造成层但可能这样做。从那里,可以传播的信息e通过冷杉层。
算法运行在这个简单的例子曾经为每个节点为起始节点。表3图显示了平均传播速度与示例5在30试验。
在相应的模拟节点 意味着传播率最高,与所有节点的传播信息的可能性,除了单独的节点 。这四个节点表现最好的平均传播速度。同时,节点和更高效的1%相比,节点一个,尽管节点一个有更多比这两个链接。这表明,和这个网络有特殊位置,匹配图。
然后算法应用到真正的花粉俱乐部数据集描述的部分3。结果129362年前20名的用户,平均排名的传播速度在30试验在MATLAB中,列于表4。标准差并不是太大,只有30试验和可能会进一步减少通过运行更多的试验。
在表4,IUG OUG代表“中介用户组”和“普通用户组,分别为(36]。OUG指顾客购买华为产品和花粉的俱乐部。IUG指顾客收到正式培训从华为和从其他客户愿意回答问题。
IUG成员之一,特别在列表的顶部,表明花粉俱乐部是由客户自己,拯救公司,这样做的努力。每个OUG成员旁边是用户数量水平。总共有12个级别,级别越高表明更大的用户体验。用户可以提前通过加入花粉俱乐部的活动水平。可以看到,除了用户4948,OUG成员在我们的前20名通常有很高的用户级别。这表明,我们的方法的排名用户的传播速度非常符合华为自己的排名方法的用户。
为了证明我们的模型的有效性,进行了比较使用附录所示1转换模型的概率。使用我们的模型的结果更符合趋势观察到的真实数据。
5.3。特征选择的传播过程
在本节中,我们研究扩散率之间的关系和网络特性,计算简单,不需要重复模拟。22个网络特性(40)(表示为 ,)一个两层的模型的节点被认为是。十是造成层,12与冷杉层相关联。列出了22个功能表5。
每个特性正常化是均值为0,方差为1。然后我们问,这些特性可以预测扩散率。这提供了洞察哪些特性可能会导致一个节点通过网络更有效地传播信息。我们运行了一个随机森林算法(41)通过Breiman代码引用其中使用scikit-learn [42]。随机森林是一个方法用于非线性的回归模型。
回想一下,随机森林算法由随机选择的一个子集的用户和网络功能的一个子集,形成一个树通过选择在每个节点的网络特性和边界值的功能。这将用户分为两个分支在每个节点,继续,直到所有分支机构,用户数量最多是一些阈值。给定一个新的向量的值特性,每棵树是用来预测的价值传播率。森林作为一个整体,然后让一个预测平均每个单独的树的值的预测。这个过程的关键参数:(我) :树的数量。增加这个值应该减少方差没有导致过度拟合(43]。根据文献[建议44),树的数量被设置为500。(2) :在每棵树的数量特征选择。我们跟着的建议44)采取 ,在哪里是功能的总数。(3) :用户的数量在每棵树样本。我们使用的所有用户,即 (iv) :最大叶大小,控制在每棵树停止建设。我们使用 也就是说,we continued splitting until there was only one user in each branch.
回想一下,在运行随机森林算法在训练集,它输出一个回归函数。给出一个新的点 ,回归函数输出预测调整传播率 ,然后可以与传播率的模拟。我们一起在花粉俱乐部表现5倍交叉验证数据集与传播率。表6显示了生成的当这些值回归函数进行了测试与训练集和测试集。
随机森林算法也可以用于网络特性的重要性。每棵树排名的选择功能根据方差的减少在相应的节点。即方差传播率在父节点相比,方差之和的两个子节点;降低越大,更重要的是根据那棵树特性。在相同的过程,减少方差可以计算出每棵树。最后,减少方差的每个功能总结为相应的功能的重要性。
检查稳定,我们再次将数据集分为10块,检查每一块是否产生了一个类似的排名网络的特性。结果如表所示7。我们利用肯德尔的W-test (45)来评估协议的程度的排名在10分,获得了0.7570 W的值。根据测试,这对应于一个的价值 ,指示排名很高的信心,一个真正的协议。
最后,我们获得一个整体排名基于整个数据集。结果如图所示7。前九个特征都属于冷杉层。最重要的特性是亲密中心( )和谐波亲密中心( )冷杉的层。造成层中,最重要的特性是eigencentrality;它表明,用户中心位置的冷杉网络会影响信息传播。同时,邻居造成网络的质量中发挥着重要作用的转变。
6。结论
在本文中,我们提出了NSECD话题识别的关键时刻一个VC的增长后,介绍了一种新产品。一个两层的模型是评估信息传播在VC开发的,在那里可以流在用户间的信息回复的帖子(冷杉层)或寻找共同感兴趣的话题(造成层)。我们这个模型应用于案例研究,集中在P10 / P10 +设备在华为的花粉俱乐部,来确定哪些用户在通过网络传播信息最有效。最后,我们将这些结果与常用的应用随机森林算法的网络特性,发现传播有效性相关最好的亲密中心和谐波亲密冷杉的中心层和eigencentrality造成层。
我们有两个建议如何改进我们的模型在未来的研究。首先,传染性公式在冷杉层不仅可以考虑修改数量postreplies还他们的质量。例如,自然语言分析(46)可以用来分文章的质量。第二,网络模型可以扩展到超过两层。例如,许多风投支持用户关注其他用户;因此,第三层可以用来捕获这些追随者的关系。
总之,本研究为网络理论引入了新的概念,并提供建议公司如何管理自己的风投公司。
附录
比较一个概率1转换模型:1转换模型的概率定义如下。信息模型也将基于一个简单的两国框架;在任何给定的时间,一个节点的两个可能状态之一。与描述的模型部分5.2,如果节点状态是感染 ,美国的邻国( )在所有层的节点会变成感染状态。这意味着,一旦感染,它将改变所有邻居的信息的概率1(图8)。
(一)
(b)
(c)
(d)
为了说明这显然,图中使用的相同的示例5节5.2是证明。如果节点选为最初的来源信息,这些信息将蔓延到所有其他节点在两个层,除了孤立节点,在四个步骤。因为1的概率模型不涉及不确定性,它可以实现一次一步。协调与我们的模型中描述的主要文本,最大传播时间被设置为10。标题的意义的表的表是一样的吗4。结果见表8表明较低品位的OUG成员更有影响力,这与分数的意义。这是由于1的概率模型,它只考虑节点的程度,而忽略了体重和不确定性的偏好。另外,我们的模型在预测中信息传播更有效的节点,而1的概率模型。
数据可用性
所有的数据,在研究中使用的模型出现在提交文章,和原始数据用来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项研究得到了国家自然科学基金(没有。71974115),中国的创新方法基金(2018 im020200),和一个教案研究资助的研究资助委员会香港特别行政区,中国(项目号T12-710/16-R)。