情感分析的新方法

来源：爱玩科技网

转载自：

情感分析是一种常见的自然语言处理（NLP）方法的应用，特别是在以提取文本的情感内容为目标的分类方法中。通过这种方式，情感分析可以被视为利用一些情感得分指标来量化定性数据的方法。尽管情绪在很大程度上是主观的，但是情感量化分析已经有很多有用的实践，比如企业分析消费者对产品的反馈信息，或者检测在线评论中的差评信息。
最简单的情感分析方法是利用词语的正负属性来判定。句子中的每个单词都有一个得分，乐观的单词得分为 +1，悲观的单词则为 -1。然后我们对句子中所有单词得分进行加总求和得到一个最终的情感总分。很明显，这种方法有许多局限之处，最重要的一点在于它忽略了上下文的信息。例如，在这个简易模型中，因为“not”的得分为 -1，而“good”的得分为 +1，所以词组“not good”将被归类到中性词组中。尽管词组“not good”中包含单词“good”，但是人们仍倾向于将其归类到悲观词组中。
另外一个常见的方法是将文本视为一个“词袋”。我们将每个文本看出一个1xN的向量，其中N表示文本词汇的数量。该向量中每一列都是一个单词，其对应的值为该单词出现的频数。例如，词组“bag of bag of words”可以被编码为 [2, 2, 1]。这些数据可以被应用到机器学习分类算法中（比如罗吉斯回归或者支持向量机），从而预测未知数据的情感状况。需要注意的是，这种有监督学习的方法要求利用已知情感状况的数据作为训练集。虽然这个方法改进了之前的模型，但是它仍然忽略了上下文的信息和数据集的规模情况。

Word2Vec 和 Doc2Vec
最近，谷歌开发了一个叫做 Word2Vec 的方法，该方法可以在捕捉语境信息的同时压缩数据规模。Word2Vec实际上是两种不同的方法：Continuous Bag of Words (CBOW) 和 Skip-gram。CBOW的目标是根据上下文来预测当前词语的概率。Skip-gram刚好相反：根据当前词语来预测上下文的概率（如图 1 所示）。这两种方法都利用人工神经网络作为它们的分类算法。起初，每个单词都是一个随机 N 维向量。经过训练之后，该算法利用 CBOW 或者 Skip-gram 的方法获得了每个单词的最优向量。

然而，即使上述模型对词向量进行平均处理，我们仍然忽略了单词之间的排列顺序对情感分析的影响。作为一个处理可变长度文本的总结性方法，Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一个段落向量以外，这个方法几乎等同于 Word2Vec。和 Word2Vec 一样，该模型也存在两种方法：Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)。DM 试图在给定上下文和段落向量的情况下预测单词的概率。在一个句子或者文档的训练过程中，段落 ID 保持不变，共享着同一个段落向量。DBOW 则在仅给定段落向量的情况下预测段落中一组随机单词的概率。（如图 2 所示）

利用 Python 实现的 Word2Vec 实例
在本节中，我们展示了人们如何在情感分类项目中使用词向量。我们可以在 Anaconda 分发版中找到 genism 库，或者可以通过 pip 安装 genism 库。从这里开始，你可以训练自己语料库（一个文本数据集）的词向量或者从文本格式或二进制格式文件中导入已经训练好的词向量。

我发现利用谷歌预训练好的词向量数据来构建模型是非常有用的，该词向量是基于谷歌新闻数据（大约一千亿个单词）训练所得。需要注意的是，这个文件解压后的大小是 3.5 GB。利用谷歌的词向量我们可以看到单词之间一些有趣的关系：

Emoji 推文的情感分析
现在我们将分析带有 Emoji 表情推文的情感状况。我们利用 emoji 表情对我们的数据添加模糊的标签。笑脸表情（:-））表示乐观情绪，皱眉标签（:-()表示悲观情绪。总的 400000 条推文被分为乐观和悲观两组数据。我们随机从这两组数据中抽取样本，构建比例为 8：2 的训练集和测试集。随后，我们对训练集数据构建 Word2Vec 模型，其中分类器的输入值为推文中所有词向量的加权平均值。我们可以利用 Scikit-Learn 构建许多机器学习模型。
首先，我们导入数据并构建 Word2Vec 模型：

利用 Doc2Vec 分析电影评论数据
利用词向量均值对推文进行分析效果不错，这是因为推文通常只有十几个单词，所以即使经过平均化处理仍能保持相关的特性。一旦我们开始分析段落数据时，如果忽略上下文和单词顺序的信息，那么我们将会丢掉许多重要的信息。在这种情况下，最好是使用 Doc2Vec 来创建输入信息。作为一个示例，我们将使用 IMDB 电影评论数据及来测试 Doc2Vec 在情感分析中的有效性。该数据集包含 25000 条乐观的电影评论，25000 条悲观评论和 50000 条尚未添加标签的评论。我们首先对未添加标签的评论数据构建 Doc2Vec 模型：

这个代码创建了 LabeledSentence 类型的对象：

接下来，我们举例说明 Doc2Vec 的两个模型，DM 和 DBOW。gensim 的说明文档建议多次训练数据集并调整学习速率或在每次训练中打乱输入信息的顺序。我们从Doc2Vec 模型中获得电影评论向量。

现在我们准备利用评论向量构建分类器模型。我们将再次使用 sklearn 中的 SGDClassifier。

这个模型的预测精度为 86%，我们还可以利用下面的代码绘制 ROC 曲线：

原论文中声称：与简单罗吉斯回归模型相比，他们利用 50 个节点的神经网络分类器能获得较高的预测精度。

有趣的是，在这里我们并没有看到这样的改进效果。该模型的预测精度为 85%，我们没有看到他们所声称的 7.42% 误差率。这可能存在以下几个原因：我们没有对训练集和测试集进行足够多的训练，他们的 Doc2Vec 和 ANN 的实现方法不一样等原因。因为论文中没有详细的说明，所以我们很难知道到底是哪个原因。不管这么说，没有经过很多的数据预处理和变量选择过程，我们仍然取得了 86% 的预测精度。而且这不需要复杂的卷积和树图资料库。

结论
我希望你已经看到 Word2Vec 和 Doc2Vec 的实用性和便捷性。通过一个非常简单的算法，我们可以获得丰富的词向量和段落向量，这些向量数据可以被应用到各种各样的 NLP 应用中。更关键的是谷歌公司开放了他们自己的预训练词向量结果，这个词向量是基于一个别人难以获取的大数据集而训练得到的。如果你想要在大数据集中训练自己的向量结果，现在已经有一个基于 Apache Spark 的 Word2Vec 实现工具。
（https://spark.apache.org/mllib/）

原文链接:
https://districtdatalabs.silvrback.com/modern-methods-for-sentiment-analysis
原文作者：Michael Czerny
翻译：Fibears

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文