从经典结构到改进方法，神经网络语言模型综述

发布时间：2019-07-25 10:10:26 所属栏目：建站来源：机器之心编译

导读：副标题#e# 作为自然语言处理(NLP)系统的核心组成部分，语言模型可以提供词表征和单词序列的概率化表示。神经网络语言模型(NNLM)克服了维数的限制，提升了传统语言模型的性能。本文对 NNLM 进行了综述，首先描述了经典的 NNLM 的结构，然后介绍并分析了一些

长短期记忆(LSTM)RNN 解决了这个问题。Sundermeyer 等人于 2012 年将 LSTM 引入到了 LM 中，并且提出了 LSTM-RNNLM。除了记忆单元和 NN 的部分，LSTM-RNNLM 的架构几乎与 RNNLM 是一样的。为了控制信息的流动，他们将三种门结构(包括输入门、输出门和遗忘门)加入到了 LSTM 的记忆单元中。LSTM-RNNLM 的常规架构可以写作：

其中，i_t，f_t，o_t 分别代表输入门、遗忘门和输出门。c_t 是单元的内部记忆状态。s_t 是隐藏状态单元。U_i、U_f、U_o、U、W_i、W_f、W_o、W、V_i、V_f、V_o 以及 V 都是权值矩阵。b_i、b_f、b_o、b 以及 d 是偏置。f 是激活函数，σ 是各个门的激活函数(通常为 sigmoid 函数)。

对比上述三种经典的 LM，RNNLM(包括 LSTM-RNNLM)的性能要优于 FFNNLM，而且 LSTM-RNNLM 一直是最先进的 LM。当下的 NNLM 主要都是以 RNN 或 LSTM 为基础的。

改进的技术

1. 降低困惑度的方法

为了降低困惑度，人们将一些新的结构和更有效的信息引入到了经典的 NNLM 模型中(尤其是 LSTM-RNNLM)。受到语言学和人类处理自然语言的方式的启发，研究者们提出了一些新的、有效的方法，包括基于字符的(character-aware)模型、因式分解模型、双向模型、缓存模型、注意力机制，等等。

(1) 基于字符的(Character-Aware)模型

在自然语言中，一些形式相似的词往往具有相同或相似的意思。例如，「superman」中的「man」和「policeman」中的「man」有着相同的含义。Mikolov 等人于 2012 年在字符级别上对 RNNLM 和 FFNNLM 进行了探究。字符级 NNLM 可以被用来解决集外词(OOV)问题，由于字符特征揭示了单词之间的结构相似性，因此对不常见和未知单词的建模有所改进。由于使用了带有字符级输出的小型 Softmax 层，字符级 NNLM 也减少了训练参数。然而，实验结果表明，训练准确率高的字符级 NNLM 是一项具有挑战性的工作，其性能往往不如单次级的 NNLM。这是因为字符级 NNLM 必须考虑更长的历史数据才能正确地预测下一个单词。

人们已经提出了许多将字符级和单词级信息相结合的解决方案，它们通常被称为基于字符(character-aware)的语言模型。一种方法是逐个单词组织字符级特征，然后将它们用于单词级语言模型。Kim 等人于 2015 年提出了用于提取单词字符级特征的卷积神经网络以及用于在一个时间步内接收这些字符级特征的 LSTM。Hwang 和 Sung 于 2016 年使用一个分层 RNN 架构解决了字符级 NNLM 的问题，该架构包含具有不同时间规模的多个模块。

（编辑：惠州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/5

首页

尾页