▲图4-2:图像识别与检测
诸如人脸识别这样的生物特征识别技术可以用来为图中的人自动打标签。生物特征识别的另外一种形式是根据指纹来识别。
其他的应用包括:
- 读出视频和音频中的文字
- 在图像上打标签和分类
- 汽车保险中基于图像来评估汽车受损程度
- 从视频和音频中提取信息
- 基于面部和声音的情感识别
- 面部表情识别
音频识别的应用包括:
- 语音识别
- 将语音转换为文本
- 分离并识别出讲话者
- 基于声音、实时客服和销售电话的情感智能分析
- 伐木和森林砍伐声音检测
- 缺陷检测(例如制造过程中的缺陷或零配件失效)
最后,手写或打印的文本可以通过光学字符识别(OCR)和手写字符识别转换为电子文档。文档也可以转换为语音,但这被认为更可能是人工智能的生成性应用,而不是识别性应用。本文稍后会讨论生成性应用。
聚类和异常检测图5中所示的聚类和异常检测是两种最常见的无监督机器学习技术。它们也被认为是模式识别技术。
▲图5:聚类和异常检测
这两个过程都以无标签数据作为输入,经过相应算法(聚类或异常检测)的处理,在聚类的场景下完成分组,或者在异常检测场景下确定是否属于异常。我们首先讨论聚类。
聚类把无标签数据中相似的数据聚合成组。具体的组数由完成聚类任务的人(通常是数据科学家)决定。并没有绝对正确或者错误的组数,但对某一特定的应用,通常可以通过试错来确定理想的组数。
因为数据没有标签,所以聚类者必须为每组指定某种含义或标签以便清楚地描述(例如运动狂)。然后用模型把新数据分配给某个组,从而假定该组的标签或描述。可以把这个过程想象成某种形式的预测分类,也就是为每个新数据点分配一个类(通过分组标签)。
把新数据点(例如客户)分配给集群(细分市场),会为我们提供一种可以精准定位、个性化以及策略性定位产品的更好方法,并可以用合适的方式来对每个细分市场的客户进行营销。
聚类应用包括细分和聚焦市场与客户、三维医疗影像分析、按照购物习惯分类产品以及社交媒体分析。
异常检测是用来检测异常数据(高度不寻常、偏离常规或畸形)模式的一种技术。异常检测应用包括基于音频的缺陷和裂纹检测、网络安全、质量控制(例如制造缺陷检测)以及计算机与网络系统健康(例如NASA的缺陷和错误检测)。
在网络安全的异常检测应用方面,常见的威胁包括恶意软件、勒索软件、计算机病毒、系统和内存攻击、拒绝服务(DoS)攻击、网络钓鱼、不需要的程序执行、凭据盗窃、数据传输和盗窃等。毋庸讳言,这方面的异常检测场景层出不穷。
自然语言自然语言是人工智能发展与应用中非常有趣且令人激动的领域,通常分成三个子领域:自然语言处理(NLP)、自然语言生成(NLG)和自然语言理解(NLU)。让我们分别进行讨论。
1. NLP
自然语言处理(NLP)输入文本、语音或手写形式的语言,经过NLP算法处理后,输出结构化的数据,如图6-1所示。现在有很多潜在的NLP场景和输出。
▲图6-1:NLP
值得一提的是,有时NLP也被认为是NLG和NLU的超集,因此人工智能自然语言应用在总体上可以被认为是NLP的一种形式。也有人认为它是自然语言应用的特定集合,我们正在讨论的就是其中的一部分。
与NLP相关的具体任务和技术包括:
- 量化和目标文本分析
- 语音识别(语音转换为文本)
- 话题模型(例如话题以及文档中讨论的主题)
- 文本分类(例如电视剧《权利的游戏》)
- 情感分析(例如正面、负面、中性)
- 主体检测(例如人、地点)
- 命名识别(例如大峡谷、迈尔斯·戴维斯)
- 语义相似性分析(例如不同词和文本之间在总体上意思的相似性)
- 为部分语音打标签(例如名词、动词)
- 机器翻译(例如英文到法文的翻译)
一个具体的NLP应用涉及公司会议录音、文本转换,然后提供会议总结,其中包括围绕不同话题的分析和会议表现(https://www.chorus.ai)。
另外一个应用采用NLP来对招聘面试进行分析,并根据性别中立性、语调、措辞等因素给出整体评分。它还为提高评分和整体工作描述提供优化建议。
其他的应用还包括:
- 基于情感的新闻聚合
- 情感驱动的社会媒体调查以及品牌监控
- 基于消息板的父母疫苗关注分析
- 电影评论和产品评论的情感分析
- 动物声音转换
现在有许多云服务提供商通过NLP服务和API接口来提供这方面的一些功能。
2. NLG
NLG以结构化数据的形式来输入语言,经过NLG算法处理,产生对应语言作为输出,如图6-2所示。这种语言输出可以是文本或者文本转换为语音的形式。结构化输入数据的案例可以是比赛中运动员情况的统计数据、广告效果数据或者公司的财务数据。
▲图6-2:NLG
应用包括:
- 根据句子和文档自动产生文本概述https://arxiv.org/abs/1602.06023https://arxiv.org/abs/1603.07252
- 简要回顾(例如新闻和体育)
- 关于图片的故事
- 业务分析报告概要
- 招聘人员参与医院研究
- 自然语言形式的患者医院账单
- 梦幻足球选秀总结和每周比赛回顾
- 房产描述和房地产市场报告
- 与公司收入报告相关的新闻发布
安德烈·卡帕西创建的模型可以自动产生维基百科文章、婴儿姓名、数学论文、计算机代码和莎士比亚的模型。其他的应用包括生成手写文本甚至创作笑话。
3. NLU
最后,NLU以语言为输入(文本、语音或手写),经过NLU算法的处理,产生可以被理解的语言作为输出,如图6-3所示。所产生的可理解语言可以用来采取行动、生成响应、回答问题、进行对话等。