您好,欢迎来到爱玩科技网。
搜索
您的当前位置:首页基于用户表示学习的微博水军识别研究

基于用户表示学习的微博水军识别研究

来源:爱玩科技网
情摇报摇杂摇志第37卷摇第7期摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇Vol.37摇No.7

2018年7月July摇2018JOURNALOFINTELLIGENCE

基于用户表示学习的微博水军识别研究

刘姝雯摇徐摇扬摇王冰璐摇高摇铭摇邓佳琪

(北京大学信息管理系摇北京摇100871)

摘摇要摇[目的/意义]微博水军的“异军突起冶,导致微博充斥着大量虚假信息,社会舆情环境也受到干扰。因此,如何快速、精准地识别微博水军,是亟待解决的问题。[方法/过程]提出一种用户表示学习的方法,通过分析用户的行为特征,采用user2vec算法将用户表示成向量来对水军进行识别。[结果/结论]实验证明,该算法能够准确地识别出样本中的水军。相比已有研究,该算法能在通过学习小比例的训练数据,在大比例的测试数据上实现较高的分类准确率,一定程度上实现了弱监督的微博水军识别。关键词摇水军识别摇表示学习摇user2vec摇监督学习

中图分类号摇TP391摇摇摇摇摇摇摇摇文献标识码摇A摇摇摇摇文章编号摇1002-1965(2018)07-0095-06

引用格式摇刘姝雯,徐摇扬,王冰璐,等.基于用户表示学习的微博水军识别研究[J].情报杂志,2018,37(7):95-100,87.

DOI摇10.3969/j.issn.1002-1965.2018.07.014

WaterArmyDetectionofWeiboUsingUserRepresentationLearning

LiuShuwen摇XuYang摇WangBinglu摇GaoMing摇DengJiaqi

(DepartmentofInformationManagement,PekingUniversity,Beijing摇100871)

Abstract摇[Purpose/Significance]ThesuddenemergenceofwaterarmyledtothefloodingoffakeinformationinWeiboandtheinterfer鄄enceofthepublicopinionenvironment.Therefore,itiswidelyconcernedabouthowtoquicklyandaccuratelyidentifythewaterarmyonWeibo.[Method/Process]Inthispaper,toidentifythewaterarmy,wecomeupwithamethodbasedonuserrepresentationlearning,whichappliestheuser2vecalgorithmtorepresentusersasvectorsthroughanalyzinguserbehaviorcharacteristics.[Result/Conclusion]Theresultsshowthatthealgorithmproposedinthispapercanaccuratelyidentifythewaterarmyfromthesampledata.Comparedwithpreviousstudies,thisalgorithmcanachieveahigherclassificationaccuracyonalargeproportionoftestdatabylearningasmallproportionoftrain鄄ingdata,which,tosomeextent,realizesthewaterarmydetectionwithweaksupervision.Keywords摇waterarmydetection摇representationlearning摇user2vec摇supervisedlearning

0摇引摇言

Web2.0时代的到来,改变了网站设计和使用的方式,其一大特征就是用户生成内容(User-GeneratedContent,UGC),即网站等线上内容由用户创作、贡献而成。对于多数用户来说,其创造内容的动力主要是自我表达、获得他人的认可、解决遇到的问题等,他们往往是主动地、自发地创造内容,是内在需要主要驱动

的[1]。网络水军则是被雇佣以发布特定的内容,来达到宣传、营销、炒作等目的,这种行为往往是被动的、利益驱动的内容创造。微博作为一种被广泛使用的社交媒体,其营销具有零成本、低门槛、多样化、裂变传播等特点[2],但是营销初始阶段往往很少有人进行关注和传播,效果不佳。此时,微博水军便大行其道,成为微博中的一股具有干扰性的声音。

谢忠红等指出,网络水军是指由商业利益驱动,为

收稿日期:2017-12-10摇摇摇摇摇修回日期:2018-02-28

作者简介:刘姝雯(ORCID:0000-0001-5078-1368),女,1996年生,本科生,研究方向:信息管理与信息系统、自然语言处理;徐摇扬(ORCID:0000-0001-6799-6832),男,1981年生,博士,副教授,研究方向:情报分析、知识管理;王冰璐(ORCID:0000-0002-5712-5950),女,1995年生,本科生,研究方向:信息管理与信息系统;高摇铭(ORCID:0000-0001-9334-8425),女,1998年生,本科生,研究方向:信息管理与信息系统;邓佳琪(ORCID:0000-0001-7021-7123),男,1997年生,本科生,研究方向:信息管理与信息系统。通信作者:徐摇扬

摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇情摇报摇杂摇志摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第37卷·9摇6·

达到影响网络、扰乱网络环境等不正当目的,通过操纵软件机器人或水军账号,在互联网中制造、传播虚而袁旭萍等认为,网络水军是出于商业或私人目的专门组织的网络群体,他们通过雇佣大批人手在互联网上集体炒作,以达到宣传、推销或攻击某些人或商品的目的[4]。根据微博在互联网世界中的社交及自媒体属性,本文认为,微博水军是指商业利益驱动的、在微博平台中发布虚假意见或者无意义的信息以达到宣传营销或引导等目的的、对特定信息进行推广的主体。假意见和垃圾信息等网络垃圾意见的用户的总称[3]。

比例、含特殊符号的微博比例、含图片的微博比例[8]等。这些特征往往衡量用户在发表微博时是否为自发、原创行为的真实性。此外,有研究指出,网络水军的内容传播具有一定的时序特征[9],因此一些研究加入了平均传播时间、首次传播时间、传播启动时间、平均传播间隔、传播间隔方差等时间特征[7,10],用以刻画用户发表微博的时间规律。以上的特征能在一定程度上衡量用户是否为水军,但是目前的微博水军逐步完善自己的资料,发表的微博也更多为原创,粉丝数也能达到数十个甚至上百个,芝加哥大学的一项研究表明,微博水军的泛滥使得微博平台充斥着大量虚假信息,导致微博信息质量下降,甚至可能影响用户的观点、引导用户购买劣质产品。因此,如何迅速识别水军账号,帮助用户对其信息真实性进行判断,创造更为健康的微博环境,成为亟待解决的问题。

本文提出一种表示学习的方法,借鉴user2vec的思想,对微博水军进行识别。实验证明,基于本文所提出的算法,能够通过较少的训练样本有效地识别出隐藏在普通用户中的水军,从而为形成健康有序的环境提供助力。

1摇研究现状

微博水军识别的研究开始得较晚,研究数量也较少。目前的研究主要是通过用户的属性特征、行为特征、关系特征以及所发布的文本内容来进行识别。前三类往往总结得出一系列可能与该用户是否为水军有关的特征,将其作为模型的特征输入,并通过分类算法对样本进行分类;最后一类则根据关键词匹配、文本自相似度分析、情感极性识别等方法来识别水军。

人们使用微博的过程,也是在虚拟世界活动的一个过程。在这个过程中,每个用户的账号都具有一定的身份属性,而他们发布的信息、传播的信息等都可以代表他们的行为。在属性特征方面,个人资料、社交数据往往是人们形成对一个用户的判断的入口。其中,粉丝数、关注数、好友粉丝比等用户的基本特征往往可以用来衡量一个用户是真实的、拥有自己的社交用户,还是被雇佣的、无社交意义的水军[3,5]研究通过用户类别(资料完整性等)、。用户活跃度韩忠明等人的

、粉丝值(该用户的粉丝是否是“僵尸粉冶)、好友值来衡量用户的属性特征[6]“引入了用户是否认证,程晓涛等则在此基础上加入了“阳光评价冶这一特征[7]冶这个微博平台上新出现的信用指。张艳梅等人的研究还标,并且取得了较好的效果[8]而在行为特征方面,研究者往往基于微博原创比。

、非空转发比、原创微博交互性、非营销活动参与性、URL使用率[6]、文本自相似度[5]、含第一人称的微博

目前的人工智能技术已经可以通过循环神经网络这些评论不仅可以避开人为检测(RNNs,RecurrentNeuralNetworks,还可以在用户评价)来生成虚假评论,

的“有用性冶上得到高分,一定程度上通过了图灵测试[11]就网络关系而言。水军的不断“进化,虽然微博水军在关注数上和粉冶,使得识别变得更加困难。

丝数上可以通过水军之间相互关注来掩盖自己的属性,但是其网络关系仍然非常脆弱。例如,水军的关注对象很少互相关注,水军也很少和别人互相关注[7]水军互相关注的往往是水军[12]研究将网络领域的算法应用到微博的水军识别中。基于以上原理,一些,与。这样一来,就可以挖掘出水军深层的社交特征。

从文本的角度来看,水军自身的博文及其发出的评论也具有较为明显的特征:由于许多是机器自动生成,同一个水军发出的微博内容的相似度往往比较高[4]容往往带有一定的关键词;水军的情感倾向往往较为明显[8][3];特定形式的内

军的文本特征识别方面做了一定的尝试。目前一些研究在微博水,但多数仅仅基于简单的关键词或者情感词匹配,逻辑上较为简单,忽略了否定词、上下文等其他因素的影响。

在算法方面,多数研究是通过使用一定的机器学习方法来进行分类,例如逻辑回归[3,5]素贝叶斯[7]、决策树[10]、支持向量机[13-14]、概率图[6]等。这样的、朴方法往往依赖于能够较为准确地刻画目标的特征,以及大量的标注好的数据。其中,张艳梅等人运用遗传算法逐代优化得到判别水军和非水军的阈值矩阵,提高了分类结果的准确性[8](。还有研究运用综合指数阈值的即为水军对各项特征采用熵值法进行加权再求和)[4]以上的算法多为有监督的学习、网络的社区发现算法,[12]高于一定等来进行水军的识别。,难点往往在于寻找好的特征,以及标注水军数据。对部分文献的模型输入、算法以及评估指标展示如表1所示。

算法:A.概率图;B.朴素贝叶斯;C.贝叶斯网络;D.决策树;E.支持向量机;F.逻辑回归;G.快速社区发现算法(Fastunfolding);H.综合指数法;I.熵值法

评估指标:玉.准确率;域.召回率;芋.F值;郁.摇第7期摇摇摇摇摇摇摇摇摇摇摇刘姝雯,等:基于用户表示学习的微博水军识别研究·97·

AUC(AreaUnderrocCurve);吁.水军比值对应社区数;遇.识别率误差

步完成下游任务。本文也主要借鉴这种思想,对word2vec算法进行应用。

表1摇已有研究对比

文献模型输入算法评估指标[3][4]淤

F

玉,域,芋[5]淤,于,盂[6]淤,于H玉,域,芋玉,域

[7]淤,于,榆淤,于F,IB,AC,D玉,域,芋,郁玉,域,芋,郁[10][8]

,于[13]于BD

玉,域,芋玉,域,芋摇注[14]盂EE模型输入:

淤,于,盂

玉,域,芋

摇:淤属性特征;于行为特征;盂文本特征;榆网络关系

而本文提出的基于用户表示学习的微博水军识别算法,则主要是基于用户的行为特征来获得用户的向量表示,再通过一定的分类方法来识别水军。相比起以上的研究来说,本算法能够更加直接地挖掘出水军和用户之间的差异,从而实现基于少量标注数据的准确分类。

2摇摇出2word.基于用户表示学习的微博水军识别算法

1摇2wordvec2这vec一算法简介词向量(摇word2014embedding年,Mikolov)表等人提示算法[15-16]前的词(,可以通过语料库中某个词的上下文来预测当又称ContinuousBag-of-Words,CBOW);或者通过文本的当前词来预测上下文的词(又称Skip-Gram,SG)。而该算法采用的方法又可以分为层次多项逻辑斯特回归(hierarchicalsoftmax)和负采样(nega鄄tive-sampling)。而本文则主要采用基于层次多项逻辑斯特回归的CBOW算法,其主要目标是通过词的上下文表示来得到中心词的表示。假设窗口大小为c,当前词为语料中的第t个词,该模型主要是一个三层的网络结构(如图1所示),包括输入层、映射层和输出层三个部分,其本质是一个矩阵分解。通过最大化上下文的词出现时中心词出现的概率,可以对模型的参数进行训练,最后得出单词的词向量表示。

除了在文本领域,word2vec也在其他领域得到了应用的延伸:LeeH等将服装图片进行训练得到了各式服装的向量表示,并能进行风格分类[17]等人则通过在社交网络上进行随机游走得到一组序。PerozziB

列,并通过word2vec训练得到网络上节点的向量表示[18]网络(;Content与之类似curation,LiuHsocial等人则根据基于内容的社交networks,CCSN)来训练得到网络节点的表示[19]体当成词来进行训练,得到该个体的向量表示。以上的研究都是将某种个,再进一图1摇word2vec模型

摇一定程度上可以反映出用户的兴趣喜好2.2摇微博水军识别算法摇微博用户的关注列表在。例如,一个微博用户对篮球感兴趣,其往往会关注篮球明星、体育记者等。从这些被关注者的角度来看,可以认为他们之间具有一定的共性。对于水军来说也是如此:由于水军发表的多是无意义的内容,因此,关注水军的粉丝往往是为了使水军看起来更加真实。这些粉丝往往不只会关注一个水军,而这与word2vec中上下文和中心词的关系原理十分相似。

借鉴word2vec的思路,本文提出的算法首先需要训练得到微博中各用户的向量表示。对于微博用户Ui列。:

,其关注列表为一组用户的序……,FolloweeFollowee(Ui)1(U,Followee(Ui)2,Followee(Ui)3,淤输入层主要包括前后被关注者的向量输入层(Inputi)

n

Layer)

,即当前用

户前后c个用户的向量V(followee([-c,t于c]依i)),其中i沂对这映射层.

2c个用户的向量做累加(ProjectionLayer)Xcontext(followee(t)移,即:

)=

-c臆i臆cV(followee(t+i))

盂i屹0

输出层是一个哈夫曼编码树输出层(OutputLayer)

,其叶子节点是所有关注列表中出现的用户。第i个节点表示当前用户是用户followee(i)的概率。

该算法的目标函数为:

J(兹)=

-1

移T

Tt=1

logp(followee(t)|context(followee(t));兹)而当前用户出现的概率由softmaxfunction得到:

摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇情摇报摇杂摇志摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第37卷·9摇8·

exp(score(followee(t),context(followee(t))))

f沂followeelist

p(w(t)|context(followee(t));兹)=

3摇实验分析

exp(score(f,context(followee(t))))

摇3.1摇数据集摇本次用于实验的数据主要集中于广告型水军。首先,在热门微博的评论列表通过人工识别获得水军共414个。然后,以这些水军用户为种子,按广度优先向外爬取用户共54559个。目前,由于微博API授权登录的用户只能通过接口获取自身的关注者和粉丝信息,因此本次试验通过编写python爬虫程序对这些用户的关注列表和粉丝列表进行爬取。

其中兹为该模型的参数,即各用户的向量表示。该序列可以被近似看作语料库中的一个句子,而

每个被关注者就相当于语料库中的一个词。

可见,同样可以将一个三层的模型(如图2所示)对用户的关注列表序列进行训练,通过某一个被关注者前后的用户,就可以预测当前被关注者的向量表示,从而通过移动窗口得到每个被关注者的向量表示。

图2摇微博水军识别模型

训练得出每个用户的向量表示后,就可以通过各种机器学习算法进行分类。

word2vec模型训练出的词向量可以通过求余弦距离或者欧式空间距离来表示两个词之间的词义相似程度,类似地,在本算法中,用户的向量表示在空间上的距离也可以在一定程度上衡量两个用户之间的相似程度。换言之,水军与水军的向量表示往往更为接近,而非水军之间的向量表示也更为接近。基于此,直接将向量表示作为分类器的输入会比总结出各种特征、设置权重进行训练得到的效果更好。同时,由于水军集团的向量表示会呈现出团簇状态,因此在进行分类时就不需要太多的标注好的训练集,少量的标注数据就可以得到很好的分类效果,从而实现弱监督的分类。

在上述微博水军识别算法的基础上,本文所提出的识别水军的整体方法流程如图3所示。

图3摇微博水军识别流程

经过数据清洗后,再根据本文的水军识别算法,将每个用户的关注列表转换成一个数组,将其近似地看作语料库中的“句子冶,总共生成了241个“句子冶。摇word3.22vec摇实[20]验训练。设置窗口数大小为,采用连续词袋过程摇本文8,(利CBOW用Google特征向量的维度为)算法对模型进行的开源项目100,过滤掉词频小于4的词,并用hierarchicalsoftmax方法进行训练,迭代次数为5。训练得到2961个词的词向量,分别对应2961个微博用户,其中有313个已标注的水军。

由于这些向量的维数是100,存在于高维空间中,不便于对其进行观察,因此需要对其进行降维。对于训练得到的向量,采用主成分分析(PrincipalCompo鄄nentAnalysis,PCA)[21]的方法将其降维到50维,再使用t-分布邻域嵌入算法(t-SNE)[22]将获得的50维的向量降为二维,这样的方法可以在提高降维速度的同时,获得更优的降维效果。

40200-20-40-60󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀-40󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀-20󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀0󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀20󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀40图4摇用户向量分布(降维后)

如图4所示,图片下方有一团簇状的群体,与其他微博用户有较为明显的区别。将实验开始前人工识别出的水军在图中用灰色“x冶符号进行标注,如图5所示,多数水军存在于图中下方的团簇中。对于得到的降维后的数据,可以采用相关的机器学习算法进行分类。

摇树3、.支持向量机3摇评估摇、对于以上的降维数据朴素贝叶斯等机器学习的分类方法来,分别采用决策进行分类,将训练数据和测试数据随机划分成1:9,即

只采用10%的训练数据来测试90%的数据,一定程度

摇第7期摇摇摇摇摇摇摇摇摇摇摇刘姝雯,等:基于用户表示学习的微博水军识别研究·99·

上实现弱监督的学习。

表5摇混淆矩阵———朴素贝叶斯

40200-20-40-60󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀-40󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀-20󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀0󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀20󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀󰀀40图5摇水军分布

对于评估指标来说,本文分别采用以下指标对本文所构建的模型进行评估:准确率(Precision)、召回率AUC(Recall(ROC)、F曲线下降面积-score(准确率;当测试集中的正负样本的和召回率的加权平均)、

分布变换的时候,ROC曲线能够保持不变)、错误分类数(包括将普通用户检测为水军的个例数量,与将水军检测为普通用户的个例数量之和)。

训练之后对模型进行评估的结果如表2所示:

表2摇分类算法指标评估

分类算法准确率召回率F值AUC错误分类数

决策树0.980.980.980.9251支持向量机0.980.980.980.9340朴素贝叶斯

0.98

0.98

0.98

0.92

44

摇是模式识别领域用于描述样本的真实属性与模型预测摇混淆矩阵是一种常用的评价分类器性能的指标,类别之间关系的一种指标。通过求出混淆矩阵,可以计算得出模型的正确识别率和错误识别率。而ROC曲线(ReceiverOperatingCharacteristiccurve,接受者操作特征曲线),是一个用于描述连续变量对信号刺激的敏感性和特异性的综合指标。通过画出ROC曲线,可以得到AUC值(AreaUnderrocCurve,ROC曲线下面积),用来衡量分类器将正样本放在负样本前面的概率。对于以上三种机器学习算法,分别展示其混淆矩阵和ROC曲线如表3-表5、图6-图8所示(图中所示数字为ROC曲线下面积,即AUC值):

表3摇混淆矩阵———决策树

预测分类

普通用户

微博水军真实分类

普通用户1.000.00微博水军

0.16

0.84

表4摇混淆矩阵———支持向量机

预测分类

普通用户

微博水军真实分类

普通用户1.000.00微博水军

0.14

0.86

预测分类

普通用户

微博水军真实分类

普通用户1.000.00微博水军

0.15

0.85

图6摇ROC曲线———决策树

图7摇ROC曲线———支持向量机

图8摇ROC曲线———朴素贝叶斯

从以上结果可以看出,当用10%的数据作为训练数据,90%的数据作为测试数据时,无论是使用决策树、支持向量机还是朴素贝叶斯,模型都能得到98%以上的准确率,分类效果较好。其AUC值也高于文献[6]中对于微博进行分类得到的AUC值0.88。

为了检验本文提出的算法的模型的优越性,本文将实验结果与文献[5]和文献[10]进行了对比(如表3所示),可以看出,当训练数据占总数据比例相同时,本文所建立的模型的准确率、召回率和F值结果均优于其他模型。由于IR-DT算法[10]的F值已经比较高,无法在此基础上取得较大幅度的提升;本文所提出的模型在此基础上F值提高了1%,更加接近理想的结

·1摇00摇·摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇情摇报摇杂摇志摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第37卷

果。而当只选取少量的已标注的训练数据时,本文所提出的算法仍能得到普遍优于其他模型的结果。

在现实情况中,通过人工鉴别水军的难度逐渐增大,因此我们能够获得的标注水军的数据数量往往较少。因此研究的重点在于如何能够通过学习较少的已标注数据,对较多的未标注数据进行高质量的判断。从表6可见,本文能够在较低的训练数据比例的情况下,获得较高的准确率和召回率,相比以往研究来说,对于自动识别微博水军具有更高的现实意义。本模型之所以能够在水军识别任务中得到比已有研究更加优一定的特点,例如情感极性较单一、内容重复或相似等,因此还可以考虑对用户所发布的微博文本进行分析,挖掘出微博水军在微博文本上的特征和规律,例如情感极性分析、文本相似度计算等,从文本分析的角度帮助对微博水军进行识别。此外,还可以考虑与定性研究相结合,首先通过定性研究找出微博水军的运作机制和活动机制,再通过设计模型和算法来进行判断和分类,进一步提高模型的可解释性。

参考文献

越的表现,在于抓住了其关注行为这一很有规律的特征,并且通过相应的算法将这样的关注行为转换成了各用户的向量表示,并且尽量地减少了过程中特征信息的丢失。

表6摇算法评估对比

算法训练数据占总数据比例

准确率召回率F值LR[5]80%0.923880.921020.9227IR-DT[10]70%0.990.960.98IR-SVM[10]70%0.9850.670.798IR-RBF[10]70%0.9690.7970.875RL-DT10%0.980.980.98RL-SVM10%0.980.980.98RL-NB10%0.980.980.98RL-DT70%0.990.990.99RL-SVM70%0.990.990.99RL-NB70%

0.99

0.99

0.99

摇摇注:

算法

方法

LR:基于逻辑回归的算法[3]DT:决策树IR:基于交互行为的算法[9]医SVM:支持向量机RL:基于用户表示学习的算法RBF:径向基网络摇摇(本文提出)

NB:朴素贝叶斯

4摇结摇语

微博水军群体被商业利益所驱使,发布大量虚假或无意义的信息,容易误导当前的正确走向。为了帮助用户更好地判断微博信息的真实性,维护健康的环境,需要对微博水军进行识别。本文通过一种用户表示学习的方法,通过分析微博用户的关注与被关注数据将用户转换成向量表示,随后采用相应的机器学习算法对样本进行分类。结果显示,本文所提出的模型能够基于较小比例的训练数据对更多的测试数据进行准确的判断,取得了较好的识别效果。

本模型主要强调用户的行为特征,即微博用户的关注与被关注的行为。未来,还可以结合用户的网络关系特征等进行分析,引入更多变量,以提升模型的效果。同时,微博水军在所发布的微博文本上也存在着

[1]摇柳图书情报工作摇瑶,郎宇洁,2013,57(10):51-57,李摇凌.微博用户生成内容的动机研究.[J].

[2]摇闻界张筱筠,2012(1):10-12,连摇娜.网络水军.

:微博营销中的“灰色阴影冶[J].新[3]摇谢忠红[J].微型机与应用,张摇颖,张摇,2017(16):67-69琳.基于逻辑回归算法的微博水军识别[4]摇袁旭萍.

自动识别,王仁武[J].情报杂志,翟伯荫.,2014(7):176-179基于综合指数和熵值法的微博水军

.

[5]摇张别方法摇良,[朱J]摇.信息安全与技术湘,李爱平,等.一种基于逻辑回归算法的水军识

,2015(4):57-62.

[6]摇韩忠明[J].计算机研究与发展,许峰敏,段大高,2013,50(.面向微博的概率图水军识别模型[7]摇程晓涛s2):180-186.法[J].,自动化学报刘彩霞,刘树新,2015,41(9):1533-1541.基于关系图特征的微博水军发现方

.

[8]摇张艳梅识别算法研究,黄莹莹[,J甘世杰].通信学报,等.基于贝叶斯模型的微博网络水军

,2017,38(1):44-53.

[9]摇FanofNetworkC,LiuCWater,ZhangArmyC,etBasedal.AnalysisonBBSofInformationtheTimeCharacteristics

[C]//Inter鄄nationalConferenceonIntelligentScienceandBigDataEngi鄄neering.Springer,Cham,2015:20-28.

[10]检测方法摇侃,陈摇[亮J],.朱培栋通信学报,等,2015,36(7):120-128.基于交互行为的在线社会网络水

.

[11]YaotacksYand,ViswanathDefensesB,inCryanOnlineJ,etReviewal.AutomatedSystemsCrowdturfing[EB/OL].At鄄

ht鄄tps://arxiv.org/abs/1708.08151,2017-09-08/2016.11.13.[12]叶施仁方法[J,]叶仁明.计算机工程与应用,朱明峰.基于网络关系的微博水军集团发现

,2017,53(6):96-100.

[13]谢忠红户识别和分类,张琳,孔佳玮[J].金陵科技学院学报.基于内容和支撑向量基算法的微博用

,2017,33(2):9-12.[14]Chenmy:detectionC,WuK,ofSrinivasanhiddenpaidV,etpostersal.Battling:ASONAMtheinternet2013:waterInterna鄄ar鄄

tionalConferenceonAdvancesinSocialNetworksAnalysisandMining,August25-28,2013[C].NiagaraFalls.

[15]TomasresentationsMikolovof,wordsIlyaSutskeverandphrases,KaiChenand,theiretal.compositionalityDistributedrep鄄

[16][TomasMikolovC]//Proceedingstionofwordrepresentations,KaiofChenNIPS,Greg,2013:invectorCorrado3111-3119space,et[Cal..

]Efficient//Proceedingsestima鄄

of

WorkshopatICLR,2013.

[17]FashionLeeH,ItemsSeolJfrom,LeeStyleS.StyleSets2[VecEB:/OLRepresentation].https://arxiv.Learningorg/absfor

/

(下转第87页)

摇第7期摇摇摇摇摇摇摇摇摇闵摇晨,等:视频在热点事件议程设置与引导中的作用研究·87·

认知,引发发酵。特别是在由视频引发的热点舆情事件中,视频是公众了解舆情事件真实情况的重要凭证,但由于视频的“技术性信息隐藏冶,眼见为实并不等于事实。新媒体凭借“刻板印象冶和“弱者伦理冶等情感因素,在不全面了解隐藏信息的情况下先入为主抢发报道,如黑龙江“庆安击案冶、四川“泸县坠亡案冶、海口“打人案冶等,会进一步强化网友对“冶“冶等涉及公权力群体的负面印象,刻意设置社会矛盾议程,影响了新闻的真实性,弱化了传播效果,激化放大了社会问题,不利于社会和谐稳定。

因此,媒体在进行媒体报道之前应尽可能了解视频隐藏信息,在结合报道及时性、公众兴奋点和受众疑惑点的情况下客观真实反映舆情。尽管新媒体的出现抢走了传统媒体部分的议题设置权,但传统媒体由于其权威性、系统性和深刻性,往往在事件二次传播中更占据优势

[10]

知情权,还是平息各种谣言和不负责任的推测,信息公开成为必然也是唯一的选择。而直播技术的开放性、互动的实时性、传播的鲜明个性、不可篡改的真实性是信息全过程公开的良好选择,也是疏导平息的较好方式。近年来,移动视频直播正成为政务公开和与民互动的新常态,面对热点舆情事件时,应当善于利用直播等新媒体平台即时传播成本小、效率快、效果大、影响远等天然技术优势,以更好地设置议程和引导舆情。

参考文献

[1]MccombsME,ShawD.Theagenda-settingfunctionofmass

media[J].PublicRelationsReview,1972,36(2):176-187.学学报(社会科学版),2014,32(4):318-323.意义生成[J].国际新闻界,2012(9):82-90.

[2]宁海林,陈摇萍.论新闻图像的议程设置作用[J].浙江理工大[3]周摇勇,黄雅兰.从图像到:网络传播中的视觉形象建构与[4]吕摇艺.论当代报纸视觉传播特点及其价值———基于“静态冶图

像与“动态冶图像的分析[J].国际新闻界,2016(3):81-.版),2010,12(3):15-19.

[5]叶柯柯.网络视频探析[J].北京邮电大学学报(社会科学[6]张收鹏.网络视频新闻的力量———以“6·5冶成都公交燃烧

术研讨会,2010.

[7]FahmyS,ChoS,WantaW,etal.Visualagenda-settingafter9/

[J].VisualCommunicationQuarterly,2006,13(1):4-15.11:Individuals'emotions,imagerecall,andconcernwithterrorism

在后续媒体报道时在后续媒体报道时对新闻进行深度避免新媒体场域中的“群体极化冶效应。通过对事件进行更准确的还原,补充新媒体首发信息“倾向性、主观性、片面性冶的问题,避免虚假信息的不良传播,及时疏导公众情绪。

摇4.4摇善用直播,实时提供信息疏导摇网络直播平台的发展不仅改变了信息传播的方式,更改变了公众社会交往、社会治理的方式。相比于文字、图片、语音以及富媒体化的视频,直播具有更强的信息即时性和互动性,直播的引入让社会热点问题的解决由原来的“结果公开冶过渡到如今的“过程公开冶。2016年7月南方暴雨,各路媒体充分运用直播、数据可视化等形式、新技术实时跟进灾情报道,中安在线甚至直播了“抗洪救猪冶的全部过程,引发千万网友围观。2017年7月连云港反核件中,前方群众同样采取现场直播的方式,引发数万网友对连云港事件的关心和关注。在热点舆情事件中,无论是满足社会公众的

(上接第100页)

,所以传统媒体应发挥二次传播的优势,

挖掘、信息筛选和报道,科学设置议程,转变传播策略,

事故为例[C]//中国传媒大学全国新闻学与传播学博士生学

[8]李黎丹,官建文.从征地拆迁、环境污染事件看新媒体情境中的

议程设置[J].现代传播(中国传媒大学学报),2013(6):128-131.

[9]AndreaMiller,ShearonRoberts.Visualagenda-setting&proximi鄄

[J].VisualCommunicationQuarterly,2010,17(1):31-46.新闻与写作,2010(11):25-27.

tyafterhurricanekatrina:Astudyofthoseclosesttotheevent

[10]谢耘耕,裘一娜.“议程设置冶模式下的危机传播与应对[J].

(责编:王摇菊;校对:贺小利)

蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚

[18]PerozziB,Al-RfouR,SkienaS.DeepWalk:onlinelearningof

socialrepresentations[C]//ACMSIGKDDInternationalConfer鄄enceonKnowledgeDiscoveryandDataMining.ACM,2014:701[19]LiuH,WuL,ZhangD,etal.Multi-perspectiveUser2Vec:Ex鄄

ContentCurationSocialNetwork[J].SignalProcessing,2017.-710.

摇1708.08151,2017-10-20/2017.08.14.

tps://code.google.com/archive/p/word2vec.

[20]Google.Word2vec[EB/OL].[2017-11-1/2013-07-30].ht鄄[21]KarlPearsonF.R.S.LIII.Onlinesandplanesofclosestfitto

systemsofpointsinspace[J].PhilosophicalMagazine,1901,2(11):559-572.

[22]LaurensVDM,HintonG.VisualizingHigh-DimensionalData

11(9):2579-2605.

Usingt-SNE[J].JournalofMachineLearningResearch,2008,

(责编:王摇菊;校对:白燕琼)

ploitingRe-pinActivityforUserRepresentationLearningin

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- aiwanbo.com 版权所有 赣ICP备2024042808号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务