jiu分解汉字怎么写,niu的汉字怎样写

首页 > 文化 > 作者:YD1662023-10-31 18:03:34

转载自 数据简化DataSimp
作者 秦陇纪
郭一璞 编辑
量子位 报道 | 公众号 QbitAI

本篇推送包含三篇文章,

《自然语言处理技术发展史十大里程碑》
《语言处理NLP知识结构》
《自然语言处理NLP国内研究方向机构导师》

总共超过20000字,量子位建议先码再看。

自然语言处理技术发展史十大里程碑

文|秦陇纪,参考|黄昌宁、张小凤、Sebatian Ruder

自然语言是人类独有的智慧结晶。

自然语言处理(NaturalLanguage Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,旨在研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。用自然语言与计算机进行通信,有着十分重要的实际应用意义,也有着革命性的理论意义。

由于理解自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,所以自然语言处理,也被视为解决人工智能完备(AI-complete)的核心问题之一。对自然语言处理的研究也是充满魅力和挑战的。

微软亚洲研究院黄昌宁张小凤在2013年发表论文,就过去50年以来自然语言处理(NLP)研究领域中的发现和发展要点进行阐述,其中包括两个事实和三大重要成果。

近年来,自然语言处理的语料库调查显示如下两个事实:

(1)对于句法分析来说,基于单一标记的短语结构规则是不充分的;单个标记的PSG规则不足以进行自然语言描述;

(2)PSG规则在文本语料库中具有偏差分布,即PSG规则的总数似乎不能够涵盖大型语料库中发现的语言现象,这不符合语言学家的期望。短语结构规则在真实文本中的分布呈现严重扭曲。换言之,有限数目的短语结构规则不能覆盖大规模语料中的语法现象。这与原先人们的预期大相径庭。

NLP技术发展历程在很大程度上受到以上两个事实的影响,在该领域中可以称得上里程碑式的成果有如下三个:

(1)复杂特征集和合一语法;

(2)语言学研究中的词汇主义;

(3)语料库方法和统计语言模型。业内人士普遍认为,大规模语言知识的开发和自动获取是NLP技术的瓶颈问题。因此,语料库建设和统计学习理论将成为该领域中的关键课题。

一、NLP研究传统问题

自然语言处理(NLP)是计算机科学、信息工程和人工智能的子领域,涉及计算机和人类(自然)语言之间的交互,尤其是编程实现计算机处理和分析大量自然语言数据。自然语言处理的挑战包括语音识别,自然语言理解和自然语言生成。

信息输入、检索、人机对话等需求增多,使自然语言处理(NLP)成为21世纪初的热门学科。从50年代机器翻译和人工智能研究算起,NLP至今有长达半个世纪的历史了。

近年来这一领域中里程碑式的理论和方法贡献有如下三个:

(1)复杂特征集和合一语法;

(2)语言学研究中的词汇主义;

(3)语料库方法和统计语言模型。

这三个成果将继续对语言学、计算语言学和NLP的研究产生深远影响。为了理解这些成果的意义,先介绍一下两个相关事实。

自然语言处理中识别句子句法结构的句法分析的全过程:

(1)把句子中的词一个一个地切分出来;

(2)查词典,给句子中的每个词指派一个合适的词性(part of speech);

(3)用句法规则把句子里包含的句法成分,如名词短语、动词短语、小句等,逐个地识别出来。

(4)判断每个短语的句法功能,如主语、谓语、宾语等,及其语义角色,最终得到句子的意义表示,如逻辑语义表达式。

1.1 事实一:语言的结构歧义问题

第一个事实(黄昌宁,张小凤,2013)是:短语结构语法(PhraseStructure Grammar,简称PSG)不能有效地描写自然语言。

PSG在Chomsky的语言学理论[1]中占有重要地位,并且在自然语言的句法描写中担当着举足轻重的角色。但是它有一些根本性的弱点,主要表现为它使用的是像词类和短语类那样的单一标记,因此不能有效地指明和解释自然语言中的结构歧义问题。

让我们先来看一看汉语中“V N”组合。假如我们把“打击,委托,调查”等词指派为动词(V);把“力度,方式,盗版,甲方”等词视为名词(N),而且同意“打击力度”、“委托方式”是名词短语(NP),“打击盗版”、“委托甲方”是动词短语(VP),那么就会产生如下两条有歧义的句法规则:

(1) NP → V N

(2) VP → V N

换句话讲,当计算机观察到文本中相邻出现的“V N”词类序列时,仍不能确定它们组成的究竟是NP还是VP。我们把这样的歧义叫做“短语类型歧义”。例如:

• 该公司正在招聘[销售V人员N]NP。

• 地球在不断[改变V形状N]VP。

下面再来看“N V”的组合,也同样会产生带有短语类型歧义的规则对,如:

(3) NP → N V 例:市场调查;政治影响。

(4) S → N V 例:价格攀升;局势稳定。

其中标记S代表小句。

不仅如此,有时当机器观察到相邻出现的“N V”词类序列时,甚至不能判断它们是不是在同一个短语中。也就是说,“N V”词类序列可能组成名词短语NP或小句S,也有可能根本就不在同一个短语里。后面这种歧义称为“短语边界歧义”。下面是两个相关的例句:

• 中国的[铁路N建设V]NP发展很快。

• [中国的铁路N]NP建设V得很快。

前一个例句中,“铁路建设”组成一个NP;而在后一个例句中,这两个相邻的词却分属于两个不同的短语。这足以说明,基于单一标记的PSG不能充分地描述自然语言中的句法歧义现象。下面让我们再来看一些这样的例子。

(5)NP → V N1de N2

(6)VP → V N1de N2

其中de代表结构助词“的”。例如,“[削苹果]VP的刀”是NP; 而“削[苹果的皮]NP”则是VP。这里既有短语类型歧义,又有短语边界歧义。比如,“削V苹果N”这两个相邻的词,可能构成一个VP,也可能分处于两个相邻的短语中。

(7)NP → P N1de N2

(8)PP → P N1de N2

规则中P和PP分别表示介词和介词短语。例如,“[对上海]PP的印象”是NP; 而“对[上海的学生]NP”则是PP。相邻词“对P 上海N”可能组成一个PP,也可能分处于两个短语中。

(9)NP → NumPN1 de N2

其中NumP 表示数量短语。规则(9)虽然表示的是一个NP,但可分别代表两种结构意义:

(9a)NumP [N1de N2]NP 如:五个[公司的职员]NP

(9b)[NumPN1]NP de N2 如:[五个公司]NP 的职员

(10)NP → N1 N2N3

规则(10)表示的也是一个NP,但“N1 N2”先结合,还是“N2 N3”先结合,会出现两种不同的结构方式和意义,即:

(10a)[N1 N2]NPN3 如:[现代汉语]NP 词典

(10b)N1 [N2N3]NP 如:新版[汉语词典]NP

以上讨论的第一个事实说明:

! 由于约束力不够,单一标记的PSG规则不能充分消解短语类型和短语边界的歧义。用数学的语言来讲,PSG规则是必要的,却不是充分的。因此机器仅仅根据规则右边的一个词类序列来判断它是不是一个短语,或者是什么短语,其实都有某种不确定性。

! 采用复杂特征集和词汇主义方法来重建自然语言的语法系统,是近二十年来全球语言学界就此作出的最重要的努力。

1.2 事实二:词频统计的齐夫律

通过大规模语料的调查,人们发现一种语言的短语规则的分布也符合所谓的齐夫率(Zipf’s Law)

Zipf是一个统计学家和语言学家。他提出,如果对某个语言单位(不论是英语的字母或词)进行统计,把这个语言单位在一个语料库里出现的频度(frequency)记作F,而且根据频度的降序对每个单元指派一个整数的阶次(rank) R。结果发现R和F的乘积近似为一个常数。即

F*R ≈ const (常数)

被观察的语言单元的阶次R与其频度F成反比关系。词频统计方面齐夫律显示,不管被考察的语料仅仅一本长篇小说,还是一个大规模的语料库,最常出现的100个词的出现次数会占到语料库总词次数(tokens)的近一半。

假如语料库的规模是100万词次,那么其中频度最高的100个词的累计出现次数大概是50万词次。如果整个语料库含有5万词型(types),那么其中的一半(也就是2.5万条左右)在该语料库中只出现过一次。即使把语料库的规模加大十倍,变成1000万词次,统计规律大体不变。

有趣的是,80年代英国人Sampson对英语语料库中的PSG规则进行统计,发现它们的分布同样是扭曲的,大体表现为齐夫率。也就是说,一方面经常遇到的语法规则只有几十条左右,它们的出现频度非常非常高;另一方面,规则库中大约一半左右的规则在语料库中只出现过一次。

随着语料库规模的扩大,新的规则仍不断呈现。Noam Chomsky曾提出过这样的假设,认为对一种自然语言来说,其语法规则的数目总是有限的,但据此生成的句子数目却是无限的。但语料库调查的结果不是这个样子。这个发现至少说明,单纯依靠语言学家的语感来编写语法规则不可能胜任大规模真实文本处理的需求,必须寻找可以从语料库中直接获取大规模语言知识的新方法。

几十年来,NLP学界曾发表过许多灿烂成果,有词法学、语法学、语义学的,有句法分析算法的,还有众多著名的自然语言应用系统。那么究竟什么是对该领域影响最大的、里程碑式的成果呢?

二、NLP十大里程碑

2.1 里程碑一:1985复杂特征集

复杂特征集(complex feature set)又叫做多重属性(multiple features)描写。语言学里,这种描写方法最早出现在语音学中。美国计算语言学家Martin Kay于1985年在“功能合一语法”(FunctionalUnification Grammar,简称FUG)新语法理论中,提出“复杂特征集”(complex feature set)概念。后来被Chomsky学派采用来扩展PSG的描写能力。

jiu分解汉字怎么写,niu的汉字怎样写(1)

美国计算语言学家Martin Kay

现在在语言学界、计算语言学界,语法系统在词汇层的描写中常采用复杂特征集,利用这些属性来强化句法规则的约束力。一个复杂特征集F包含任意多个特征名fi和特征值vi对。其形式如:

F = {…, fi=vi, …}, i=1,…,n

特征值vi既可以是一个简单的数字或符号,也可以是另外一个复杂特征集。这种递归式的定义使复杂特征集获得了强大的表现能力。举例来说,北京大学俞士汶开发的《现代汉语语法信息词典》[10],对一个动词定义了约40项属性描写,对一个名词定义了约27项属性描写。

一条含有词汇和短语属性约束的句法规则具有如下的一般形式:

: <属性约束>

: <属性传递>

一般来说,PSG规则包括右部(条件:符号序列的匹配模式)和左部(动作:短语归并结果)。词语的“属性约束”直接来自系统的词库,而短语的“属性约束”则是在自底向上的短语归并过程中从其构成成分的中心语(head)那里继承过来的。在Chomsky的理论中这叫做X-bar理论

X-bar代表某个词类X所构成的、仍具有该词类属性的一个成分。如果X=N,就是一个具有名词特性的N-bar。当一条PSG规则的右部匹配成功,且“属性约束”部分得到满足,这条规则才能被执行。此时,规则左部所命名的的短语被生成,该短语的复杂特征集通过“属性传递”部分动态生成。

80年代末、90年代初学术界提出了一系列新的语法,如广义短语结构语法(GPSG)、中心语驱动的短语结构语法(HPSG)、词汇功能语法(LFG)等等。这些形式语法其实都是在词汇和短语的复杂特征集描写背景下产生的。合一(unification)算法则是针对复杂特征集的运算而提出来的。“合一”是实现属性匹配和赋值的一种算法,所以上述这些新语法又统称为“基于合一的语法”。

2.2 里程碑二:1966词汇主义

NLP领域第二个里程碑式贡献是词汇主义(lexicalism)。

1966年,韩礼德(Halliday)提出词汇不是用来填充语法确定的一套“空位”(slots),而是一个独立的语言学层面;词汇研究可以作为对语法理论的补充,却不是语法理论的一部分,他主张把词汇从语法研究中独立地分离出来。

语言学家Hudson宣称,词汇主义是当今语言学理论头号发展倾向。出现原因也同上节两事实有关。词汇主义方法不仅提出一种颗粒度更细的语言知识表示形式,而且体现一语言知识递增式开发和积累的新思路。

首先解释一个背景矛盾。

一方面,语言学界一向认为,不划分词类就无法讲语法,如前面介绍的短语结构语法,语法“不可能”根据个别单独的词来写规则。但是另一方面,人们近来又注意到,任何归类其实都会丢失个体的某些重要信息。所以从前文提到的第一个事实出发,要想强化语法约束能力,词汇的描写应当深入到比词类更细微的词语本身上来。

换句话讲,语言学呼唤在词汇层采用颗粒度更小的描写单元。从本质上来说,词汇主义倾向反映了语言描写的主体已经从句法层转移到了词汇层;这也就是所谓的“小语法,大词库”的思想。下面让我们来看与词汇主义有关的一些工作。

2.2.1 词汇语法学(Lexicon-grammar)

法国巴黎大学Gross教授60年代创立研究中心LADL(http://www.ladl.jussieu.fr/),提出了词汇语法的概念。

• 把12,000个主要动词分成50个子类。

• 每个动词都有一个特定的论元集。

• 每一类动词都有一个特定的矩阵, 其中每个动词都用400个不同句式来逐一描写(“ ”代表可进入该句式;“-”表示不能)。

• 已开发英、法、德、西等欧洲语言的大规模描写。

• INTEX是一个适用于大规模语料分析的工具,已先后被世界五十多个研究中心采用。

2.2.2 框架语义学(Frame Semantics)

Fillmore是格语法(Case Grammar)创始人,前几年主持美国自然科学基金的一个名为框架语义学的项目(http://www.icsi.berkeley.edu/~framenet)。该项目从WordNet上选取了2000个动词,从中得到75个语义框架。例如,动词”categorize”的框架被定义为:

一个人(Cognizer)把某个对象(Item)视为某个类(Category)。

同原先的格框架相比,原来一般化的动作主体被具体化为认知者Cognizer,动作客体被具体化为事物Item,并根据特定体动词的性质增加了一个作为分类结果的语义角色Category。

项目组还从英国国家语料库中挑出50,000个相关句子,通过人工给每个句子标注了相应的语义角色。例句:

Kimcategorized the book as fiction.

(Cog) (Itm)(Cat)

2.2.3 WordNet

WordNet(http://www.cogsci.princeton.edu:80/~wn/)是一个描写英语词汇层语义关系的词库,1990年由普林斯顿大学Miller开发。至今有很多版本,全部公布在因特网上,供研究人员自由下载。

欧洲有一个Euro-WordNet,以类似的格式来表现各种欧洲语言的词汇层语义关系。WordNet刻意描写的是词语之间的各种语义关系,如同义关系(synonymy)、反义关系(antonymy)、上下位关系(hyponymy),部分-整体关系(part-of)等等。

这种词汇语义学又叫做关系语义学,这一学派同传统的语义场理论和和语义属性描写理论相比,其最大的优势在于第一次在一种语言的整个词汇表上实现了词汇层的语义描写。这是其他学派从来没有做到的。其他理论迄今仅仅停留在教科书或某些学术论文中,从来就没有得到工程规模的应用。下面是WordNet的概况:

• 95,600条实词词型(动词、名词、形容词)

• 被划分成70,100个同义词集(synsets)

2.2.4 知网网(How-Net)

知网是董振东和董强设计的一个汉语语义知识网(http://www.keenage.com),访问只有主页。

• 自下而上地依据概念对汉语实词进行了穷尽的分类。

• 15,000个动词被划分成810类。

• 定义了300个名词类,100个形容词类。

• 全部概念用400个语义元语来定义。

知网特点是既有WordNet所描写的同一类词间语义关系(如:同义、反义、上下位、部分-整体等),又描写不同类词之间的论旨关系和语义角色。

2.2.5 MindNet

MindNet是微软研究院NLP组设计的词汇语义网(http://research.microsoft.com/nlp/),用三元组(triple)作为全部知识的表示基元。一个三元组由两个节点和一条连接边组成。每个节点代表一个概念,连接两个概念节点的边表示概念之间的语义依存关系。全部三元组通过句法分析器自动获取。

具体通过对两部英语词典(Longman Dictionaryof Contemporary English,AmericanHeritage Dictionary)和一部百科全书(Encarta)中的全部句子进行分析,获得每个句子的逻辑语义表示(logical form,简称LF)。

而LF本来就是由三元组构成的,如(W1, V-Obj,W2)表示:W1是一个动词,W2是其宾语中的中心词,因此W2从属于W1,它们之间的关系是V-Obj。比如(play, V-Obj,basketball)便是一个具体的三元组。又如(W1, H-Mod,W2),W1代表一个偏正短语中的中心词(head word),W2是其修饰语(modifier),因此W2从属于W1,它们之间的关系是H-Mod。

这种资源是完全自动做出来的,所得三元组不可能没有错误。但是那些出现频度很高的三元组一般来说正确。MindNet已经应用到像语法检查、句法结构排歧、词义排歧、机器翻译等许多场合。

2.3 里程碑三:1976统计语言模型

第三大贡献是语料库方法,或叫统计语言模型。

首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师弗雷德·贾里尼克(Fred Jelinek)。1968年始在IBM研究中心兼职1974年全职加入,他领导一批杰出科学家利用大型计算机处理人类语言问题,学术休假(SabbaticalLeave)时(约1972-1976年间)提出统计语言模型。

1990s李开复用统计语言模型把997个词的语音识别问题简化成了20词识别问题,实现了有史以来第一次大词汇量非特定人连续语言的识别。常用统计语言模型,包括N元文法模型(N-gram Model)、隐马尔科夫模型(Hidden MarkovModel,简称HMM)、最大熵模型(MaximumEntropy Model)等。

jiu分解汉字怎么写,niu的汉字怎样写(2)

美国工程院院士Frederick Jelinek

如果用变量W代表一个文本中顺序排列的n个词,即W = w1w2…wn,则统计语言模型的任务是给出任意一个词序列W在文本中出现的概率P(W)

利用概率的乘积公式,P(W)可展开为:

P(W) =P(w1)P(w2/w1)P(w3/ w1 w2)…P(wn/w1 w2…wn-1) (1)

式中P(w1)表示第一个词w1的出现概率,P(w2/w1)表示在w1出现的情况下第二个词w2出现的条件概率,依此类推。

不难看出,为了预测词wn的出现概率,必须已知它前面所有词的出现概率。从计算上来看,这太复杂了。如果近似认为任意一个词wi的出现概率只同它紧邻的前一个词有关,那么计算就得以大大简化。这就是所谓的二元模型(bigram),由(1)式得:

P(W) ≈ P(w1)∏i=2,…,nP(wi/ wi-1 ) (2)

式中∏i=2,…,nP(wi/ wi-1 )表示多个概率的连乘。

需要着重指出的是:这些概率参数都可以通过大规模语料库来估值。比如二元概率

P(wi/ wi-1) ≈count(wi-1 wi) / count(wi-1) (3)

式中count(…)表示一个特定词序列在整个语料库中出现的累计次数。若语料库的总词次数为N,则任意词wi在该语料库中的出现概率可估计如下:

P(wi) ≈count(wi) / N (4)

同理,如果近似认为任意词wi的出现只同它紧邻前两个词有关,就得到一个三元模型(trigram):

P(W) ≈P(w1)P(w2/w1) ∏i=3,…,nP(wi/wi-2 w-1 ) (5)

统计语言模型的方法有点像天气预报。用来估计概率参数的大规模语料库好比是一个地区历年积累起来的气象记录,而用三元模型来做天气预报,就像是根据前两天的天气情况来预测当天的天气。天气预报当然不可能百分之百正确。这也算是概率统计方法的一个特点。

2.3.1 语音识别

语音识别作为计算机汉字键盘输入的一种图代方式,越来越受到信息界人士的青睐。所谓听写机就是这样的商品。据报道中国的移动电话用户已超过一亿,随着移动电话和个人数字助理(PDA)的普及,尤其是当这些随身携带的器件都可以无线上网的时候,广大用户更迫切期望通过语音识别或手写板而不是小键盘来输入简短的文字信息。

其实,语音识别任务可视为计算以下条件概率的极大值问题:

W*= argmaxWP(W/speech signal)

= argmaxWP(speech signal/W) P(W) / P(speech signal)

= argmaxWP(speech signal/W) P(W) (6)

式中数学符号argmaxW表示对不同的候选词序列W计算条件概率P(W/speech signal)的值,从而使W*成为其中条件概率值最大的那个词序列,这也就是计算机选定的识别结果。换句话讲,通过式(6)的计算,计算机找到了最适合当前输入语音信号speech signal的词串W。

式(6)第二行是利用贝叶斯定律转写的结果,因为条件概率P(speech signal/W)比较容易估值。公式的分母P(speech signa)对给定的语音信号是一个常数,不影响极大值的计算,故可以从公式中删除。在第三行所示的结果中,P(W)就是前面所讲得统计语言模型,一般采用式(5)所示的三元模型;P(speechsignal/W)叫做声学模型

讲到这儿,细心的读者可能已经明白,汉语拼音输入法中的拼音-汉字转换任务其实也是用同样方法实现的,而且两者所用的汉语语言模型(即二元或三元模型)是同一个模型。

据笔者所知,目前市场上的听写机产品和微软拼音输入法(3.0版)都是用词的三元模型实现的,几乎完全不用句法-语义分析手段。为什么会出现这样的局面呢?这是优胜劣汰的客观规律所决定的。可比的评测结果表明,用三元模型实现的拼音-汉字转换系统,其出错率比其它产品减少约50%。

2.3.2 词性标注

一个词库中大约14%的词型具有不只一个词性。而在一个语料库中,占总词次数约30%的词具有不止一个词性。所以对一个文本中的每一个词进行词性标注,就是通过上下文的约束,实现词性歧义的消解。历史上曾经先后出现过两个自动词性标注系统。一个采用上下文相关的规则,叫做TAGGIT(1971),另一个应用词类的二元模型,叫做CLAWS(1987)。

两个系统都分别对100万词次的英语非受限文本实施了词性标注。结果显示,采用统计语言模型的CLAWS系统的标注正确率大大高于基于规则方法的TAGGIT系统。请看下表的对比:

jiu分解汉字怎么写,niu的汉字怎样写(3)

令C和W分别代表词类标记序列和词序列,则词性标注问题可视为计算以下条件概率的极大值:

C*= argmaxCP(C/W)

= argmaxCP(W/C)P(C) / P(W)

≈ argmaxC∏i=1,…,nP(wi/ci )P(ci /ci-1 ) (7)

式中P(C/W)是已知输入词序列W的情况下,出现词类标记序列C的条件概率。数学符号argmaxC表示通过考察不同的候选词类标记序列C,来寻找使条件概率取最大值的那个词类标记序列C*。后者应当就是对W的词性标注结果。

公式第二行是利用贝叶斯定律转写的结果,由于分母P(W)对给定的W是一个常数,不影响极大值的计算,可以从公式中删除。接着对公式进行近似。首先,引入独立性假设,认为任意一个词wi的出现概率近似只同当前词的词类标记ci有关,而与周围(上下文)的词类标记无关。于是词汇概率可计算如下:

P(W/C) ≈∏i=1,…,n P(wi/ci ) (8)

其次,采用二元假设,即近似认为任意一个词类标记ci的出现概率只同它紧邻的前一个词类标记ci-1有关。有

P(C) ≈ P(c1)∏i=2,…,n P(ci /ci-1 ) (9)

P(ci /ci-1 )是词类标记的转移概率,也叫做基于词类的二元模型。

上述这两个概率参数都可以通过带词性标记的语料库来分别估计:

P(wi/ci ) ≈count(wi,ci) / count(ci) (10)

P(ci /ci-1 ) ≈count(ci-1ci) / count(ci-1) (11)

据文献报道,采用统计语言模型方法汉语和英语的次性标注正确率都可以达到96%左右[6]。

2.3.3 介词短语PP的依附歧义

英语中介词短语究竟依附于前面的名词还是前面的动词,是句法分析中常见的结构歧义问题。下例用语料库方法来解决这个问题,以及这种方法究竟能达到多高的正确率。

例句:Pierre Vinken,61 years old, joined the board as a nonexecutive director.

令A=1表示名词依附,A=0为动词依附,则上述例句的PP依附问题可表为:

(A=0,V=joined, N1=board, P=as, N2=director)

令V, N1, N2分别代表句中动词短语、宾语短语、介宾短语的中心词,并在一个带有句法标注的语料库(又称树库)中统计如下四元组的概率Pr:

Pr = (A=1 /V=v, N1=n1, P=p, N2=n2) (10)

对输入句子进行PP 依附判断的算法如下:

若Pr = (1 / v, n1, p, n2) ≥ 0.5,

则判定PP依附于n1,

否则判定PP依附于v。

Collins和Brooks实验使用的语料库是宾夕法尼亚大学标注的华尔街日报(WSJ)树库,包括:训练集20,801个四元组,测试集3,097个四元组。他们对PP依附自动判定精度的上下限作了如下分析:

一律视为名词依附(即A≡1) 59.0%

只考虑介词p的最常见附加72.2%

三位专家只根据四个中心词判断88.2%

三位专家根据全句判断93.2%

很明显,自动判断精确率的下限是72.2%,因为机器不会比只考虑句中介词p的最常见依附做得更差了;上限是88.2%,因为机器不可能比三位专家根据四个中心词作出的判断更高明。

论文报告,在被测试的3,097个四元组中,系统正确判断的四元组为2,606个,因此平均精确率为84.1%。这与上面提到的上限值88.2%相比,应该说是相当不错的结果。

传统三大技术里程碑小结

语言学家在不论是复杂特征集和合一语法,还是词汇主义方法,都是原先所谓的理性主义框架下做出的重大贡献。词汇主义方法提出了一种颗粒度更细的语言知识表示形式,而且体现了一种语言知识递增式开发和积累的新思路,值得特别推崇。

尤其值得重视的是,在众多词汇资源的开发过程中,语料库和统计学习方法发挥了很大的作用。这是经验主义方法和理性主义方法相互融合的可喜开端,也是国内知名语言学者冯志伟等人认可的研究范式。

语料库方法和统计语言模型,国内同行中实际上存在不同评价。有种观点认为NLP必须建立在语言理解基础上,他们不大相信统计语言模型在语音识别、词性标注、信息检索等应用领域中所取得的进展。这些争论不能澄清,是因为同行间缺少统一评测。有评测才会有鉴别。

评判某方法优劣应公开、公平、相互可比的评测标准,而非研究员设计“自评”。黄昌宁、张小凤2013年论文表示,语料库方法和统计语言模型是当前自然语言处理技术的主流,其实用价值已在很多应用系统中得到充分证实。统计语言模型研究在结构化对象的统计建模方面,仍有广阔发展空间。

自然语言处理领域业界知名博主Sebatian Ruder在2018年文章从神经网络技术角度,总结NLP领域近15年重大进展、8大里程碑事件,提及很多神经网络模型。这些模型建立在同一时期非神经网络技术之上,如上述三大里程碑。下面接着看后续NLP技术的发展。

2.4 里程碑四:2001神经语言模型(Neural language models)

语言模型解决的是在给定已出现词语的文本中,预测下一个单词的任务。这是最简单的语言处理任务,有许多具体实际应用,如智能键盘、电子邮件回复建议等。语言模型历史由来已久,经典方法基于n-grams模型(利用前面n个词语预测下一个单词),并利用平滑操作处理不可见的n-grams。

第一个神经语言模型,前馈神经网络(feed-forward neural network),是Bengio等人于2001年提出的。模型以某词语之前出现的n个词语作为输入向量,也就是现在大家说的词嵌入(word embeddings)向量。这些词嵌入在级联后进入一个隐藏层,该层的输出然后通过一个softmax层。如图3所示。

jiu分解汉字怎么写,niu的汉字怎样写(4)

首页 12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.