- 分词 – Tokenization
- 词干提取 – Stemming
- 词形还原 – Lemmatization
- 词性标注 – Parts of Speech
- 命名实体识别 – NER
- 分块 – Chunking
- 中文分词 – Chinese Word Segmentation
- 词性标注 – Parts of Speech
- 命名实体识别 – NER
- 去除停用词
自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。
NLP的2个核心任务:
- 自然语言理解 – NLU
- 自然语言生成 – NLG
NLP 的5个难点:
- 语言是没有规律的,或者说规律是错综复杂的。
- 语言是可以自由组合的,可以组合复杂的语言表达。
- 语言是一个开放集合,我们可以任意的发明创造一些新的表达方式。
- 语言需要联系到实践知识,有一定的知识依赖。
- 语言的使用要基于环境和上下文。
NLP 的4个典型应用:
- 情感分析
- 聊天机器人
- 语音识别
- 机器翻译
NLP 的6个实现步骤:
- 分词-tokenization
- 次干提取-stemming
- 词形还原-lemmatization
- 词性标注-pos tags
- 命名实体识别-ner
- 分块-chunking