jiu分解汉字怎么写,niu的汉字怎样写

首页 > 文化 > 作者:YD1662023-10-31 18:03:34

前馈神经网络语言模型

而现在构建语言模型的前馈神经网络,已被循环神经网络(RNNs)和长短期记忆神经网络(LSTMs)取代。

虽然后来提出许多新模型在经典LSTM上进行了扩展,但它仍然是强有力的基础模型。甚至Bengio等人的经典前馈神经网络在某些设定下也和更复杂的模型效果相当,因为这些任务只需要考虑邻近的词语。理解这些语言模型究竟捕捉了哪些信息,也是当今一个活跃的研究领域。

语言模型的建立是一种无监督学习(unsupervisedlearning),Yann LeCun称之为预测学习(predictivelearning),是获得世界如何运作常识的先决条件。

关于语言模型最引人注目的是,尽管它很简单,但却与后文许多核心进展息息相关。反过来,这也意味着NLP领域许多重要进展都可以简化为某种形式的语言模型构建。但要实现对自然语言真正意义上的理解,仅仅从原始文本中进行学习是不够的,我们需要新的方法和模型。

2.5 里程碑五:2008多任务学习(Multi-task learning)

多任务学习是在多个任务下训练的模型之间共享参数的方法,在神经网络中通过捆绑不同层的权重轻松实现。多任务学习思想1993年Rich Caruana首次提出,并应用于道路追踪和肺炎预测。多任务学习鼓励模型学习对多个任务有效的表征描述。这对于学习一般的、低级的描述形式、集中模型的注意力或在训练数据有限的环境中特别有用。

多任务学习2008年被Collobert和Weston等人首次在自然语言处理领域应用于神经网络。在他们的模型中,词嵌入矩阵被两个在不同任务下训练的模型共享,如图4所示。

jiu分解汉字怎么写,niu的汉字怎样写(5)

词嵌入矩阵共享

共享的词嵌入矩阵使模型可以相互协作,共享矩阵中的低层级信息,而词嵌入矩阵往往构成了模型中需要训练的绝大部分参数。

Collobert和Weston发表于2008年的论文,影响远远超过了它在多任务学习中的应用。它开创的诸如预训练词嵌入和使用卷积神经网络处理文本的方法,在接下来的几年被广泛应用。他们也因此获得2018年机器学习国际会议(ICML)的test-of-time奖。

如今,多任务学习在自然语言处理领域广泛使用,而利用现有或“人工”任务已经成为NLP指令库中的一个有用工具。

虽然参数的共享是预先定义好的,但在优化的过程中却可以学习不同的共享模式。当模型越来越多地在多个任务上进行测评以评估其泛化能力时,多任务学习就变得愈加重要,近年来也涌现出更多针对多任务学习的评估基准。

2.6 里程碑六:2013词嵌入

稀疏向量对文本进行表示的词袋模型,在自然语言处理领域有很长历史。而用稠密的向量对词语进行描述,也就是词嵌入,则在2001年首次出现。2013年Mikolov等人工作主要创新之处在于,通过去除隐藏层和近似计算目标使词嵌入模型的训练更为高效。

尽管这些改变本质上十分简单,但它们与高效的word2vec(wordto vector用来产生词向量的相关模型)组合在一起,使得大规模的词嵌入模型训练成为可能。

Word2vec有两种不同的实现方法:CBOW(continuousbag-of-words)和skip-gram。它们在预测目标上有所不同:一个是根据周围的词语预测中心词语,另一个则恰恰相反。如图5所示。

jiu分解汉字怎么写,niu的汉字怎样写(6)

CBOW和skip-gram架构

虽然这些嵌入与使用前馈神经网络学习的嵌入在概念上没有区别,但是在一个非常大语料库上的训练使它们能够获取诸如性别、动词时态和国际事务等单词之间的特定关系。如下图 4 所示。

jiu分解汉字怎么写,niu的汉字怎样写(7)

word2vec捕获的联系

这些关系和它们背后的意义激起了人们对词嵌入的兴趣,许多研究都在关注这些线性关系的来源。然而,使词嵌入成为目前自然语言处理领域中流砥柱的,是将预训练的词嵌入矩阵用于初始化可以提高大量下游任务性能的事实。

虽然word2vec捕捉到的关系具有直观且几乎不可思议的特性,但后来的研究表明,word2vec本身并没有什么特殊之处:词嵌入也可以通过矩阵分解来学习,经过适当的调试,经典的矩阵分解方法SVD和LSA都可以获得相似的结果。从那时起,大量的工作开始探索词嵌入的不同方面。尽管有很多发展,word2vec仍是目前应用最为广泛的选择。

Word2vec应用范围也超出了词语级别:带有负采样的skip-gram——一个基于上下文学习词嵌入的方便目标,已经被用于学习句子的表征。它甚至超越了自然语言处理的范围,被应用于网络和生物序列等领域。

一个激动人心的研究方向是在同一空间中构建不同语言的词嵌入模型,以达到(零样本)跨语言转换的目的。通过无监督学习构建这样的映射变得越来越有希望(至少对于相似的语言来说),这也为语料资源较少的语言和无监督机器翻译的应用程序创造可能。

2.7 里程碑七:2013RNN/CNN用于NLP的神经网络

2013和2014年是自然语言处理领域神经网络时代的开始。其中三种类型的神经网络应用最为广泛:循环神经网络(recurrentneural networks)、卷积神经网络(convolutionalneural networks)和结构递归神经网络(recursiveneural networks)。

循环神经网络是NLP领域处理动态输入序列最自然的选择。Vanilla循环神经网络很快被经典的长短期记忆网络(long-shorttermmemory networks,LSTM)代替,该模型能更好地解决梯度消失和梯度爆炸问题。

在2013年之前,人们仍认为循环神经网络很难训练,直到Ilya Sutskever博士的论文改变了循环神经网络这一名声。双向的长短期记忆记忆网络通常被用于同时处理出现在左侧和右侧的文本内容。LSTM 结构如图7所示。

jiu分解汉字怎么写,niu的汉字怎样写(8)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.