最近国内又有许多优秀的军企国企民企,甚至重点院校被美国列入出口管制实体清单。首先这样做肯定是野蛮无理的,应当抵制。其次,美国是如何策划这份清单,我们也可借鉴美国官方自己发布的介绍材料从侧面了解其过程。知己知彼,有益无害。而这个制定过程,除了使用人工检索分辨大量的信息、各党派议员的个人喜好,也逐步用到了机器学习的相关技术。
美国国防部防御创新单元(DIU)发布的《可负责的AI实践指导书》,概括解释了他们是如何通过知识图谱技术,分辨他们认为有害的实体组织。与他们合作的公司叫Quantifind,台面上的业务是反洗钱和金融犯罪。很容易搜到,它的口号是利用强大的人工智能和颠覆性科学来帮助客户自动发现隐藏的犯罪和金融风险。当然、显然,我们可以正义的认定,不管怎样这个指导书只是用来辩解他们制定实体制裁清单的合理性和科学性。
这个指导书主要是解释了在人工智能应用的全生命周期每个阶段(规划、开发和部署)都应解决的具体道德和可靠性问题。指导书为美国国防部利益相关方和人工智能公司项目经理提供科学依据,以确保明面上人工智能项目与美国官方宣传的人工智能道德原则相一致,钱也没有白花乱花。
美国国防部发布的《可负责的AI实践指导书》
书中的“遏制国外恶意影响”案例说明了美国国防部和合作公司的联合团队如何发现和辨识恶意实体并打击。该案例旨在通过机器学习模型利用从公开、可用的商业信息中获得的可信任的分析来更好地支持国防部识别,跟踪和打击试图掩盖其身份和活动的所谓“跨国犯罪集团”。它主要利用各个渠道的开源数据来支持知识图谱的构建,从而可以更有效地提升分析师的效果、解读实体之间的表面关系和隐藏关联。由于现代社会的数据量大且复杂,人类分析师很难识别这些关系,而且更容易被干扰或者误导。
据称,通过识别前台活动分子和幕后黑手的“搞事”过程,并进行后续的危害建模,该案例团队确定了很多有价值的信息。联合团队结合对跨内容类型(结构化和非结构化的数据)的关系提取,确定特定实体(比如想要制裁的个人、公司等)与其他实体和行为的关系。这样就算这些实体可观察到的活动看上去大致相似、整体相同,比如买卖差不多的东西、举办差不多的活动,但联合团队仍能区分卧底记者和犯罪集团的真正成员,避免发生FBI打击CIA的无间道笑话。所以,他们认为,这样制裁就是可信任可靠的,被制裁的实体(比如公司个人)就是活该。
联合团队构建知识图谱模型的方式是:
- 把与潜在危害来源相关的大量数据和背景作为模型的输入来。
- 将一些重要的原始数据,如严重影响特定模型结果的源文件档案,作为系统输出的一部分。
- 将关键源文件输出后,人工循环检查复验,使用人类的推理来做出合理完整的判断。(疑似看答案扣帽子)
- 这不就建立了可信的机制来量化评估平台在特定的子任务上的表现嘛。(不用说下去了,有多少人工,就有多少智能;智能不够,阿三来凑)
描述艺术史领域中实体关系的知识图谱
上图是一个描述艺术史领域中实体之间的关系的示例知识图谱,作为参考。图中的实体通常称为“节点”,而关系通常称为“边”。这里的实体例子是苏格拉底、拉斐尔等,关系是通过描述方式、创作者、被描述者等角色关联体现的。
为了创建一个对机器学习系统特定输出可验证和可评估的完善流程,美国国防部和合作公司的联合团队还做了这些努力:
- 研究了官老爷们的用户体验,以确定应用是否合适、以后是不是还能拿到经费。
- 了解用户界面如何影响信任和减少误解,留一手免得日后官老爷随便甩锅。这涉及到定期获得对平台的直接反馈,公开用于提取实体关系的源文件,以及试验不同的方法来向美国官方显示模型的可信度。
- 联合团队说自己仍在不断更新开发,所以似乎负责机构和审计方法的还不是那么确定,这大概是为了推卸责任预留后路了?
最后指导书认为,该项目一是做到了将有道德负责任的人工智能原则纳入官方工作过程,双向对话使台上台下的参与者都受益,创造了一个可以在整个美国国防部复制的合作模式。一是促成了机器学习成功应用和推广,系统性地发现了在知识图谱模型在现实世界的部署前应该解决的重要问题。例如,分析通过利用更大的自然语言处理模型获得的性能提升和可能带来的潜在偏差、误导或异常之间的具体权衡,以及在单个模型和端到端系统层面上持续测量性能。
其实最后收益说的也不是很清楚,制裁的对不对、有没有用、能不能审计也不能确定,但美国人民的钱就愉快地到了美国国防部、商务部官老爷和合作公司的口袋里了,而且明年继续哦。