大模型如雨后春笋般涌现,在全民化生成式AI到来之前,由其产生的隐私泄露、数据污染、产权保护等风险是难以忽视的重大问题,这既包含人为因素的作祟,也包括技术本身带来的弊端。
文|王雅迪 石丹
ID | BMR2004
2023年最热关键词当属“大模型”。3月16日伴随着百度大语言模型“文心一言”的面世,开启了生成式AI技术集中爆发的一年,乃至成为未来十年都难以绕开的话题。
6月,科技部“新一代人工智能发展研究中心”发布的《中国人工智能大模型地图研究报告》显示,中国研发的大模型数量排名全球第二,仅次于美国,目前中国10亿参数规模以上的大模型已发布79个。
大模型如雨后春笋般涌现,在全民化生成式AI到来之前,由其产生的隐私泄露、数据污染、产权保护等风险是难以忽视的重大问题,这既包含人为因素,也包括技术本身带来的弊端。2023年下半年,我国已出台相关办法管理生成式AI,总体坚持“发展和安全并重、促进创新和依法治理相结合的原则”,作为改变生活的新技术,如何把握技术发展与合规监管的尺度仍处于实践探索阶段。
01
备案先行,落地待解
生成式AI技术是大数据的整合,它的应用可以提高工作效率,此前大量依靠的是关键字搜索,如今从单纯的数据检索变成更强适应力的模糊搜索。
2023年1月10日起施行的《互联网信息服务深度合成管理规定》(以下简称《规定》)第十九条明确,具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《规定》履行备案和变更、注销备案手续。深度合成服务技术支持者应当参照履行备案和变更、注销备案手续。
深度合成服务提供者针对的是To C的场景,即各类有AI生成服务的产品,而深度合成服务技术支持者更多针对的是To B的场景,即主要以API(应用程序接口)形式为企业等提供深度合成支持。
2023年8月底,阿里巴巴、腾讯、百度、华为等8家企业成为首批通过备案的大模型公司。
11月4日,美团、蚂蚁集团、360、网易有道等11家互联网及公司成为第二批获批备案的企业,除了知名互联网公司外,还包括月之暗面、面壁智能两家初创企业。这意味着这些大模型将正式面向公众,面临To C端的考验。
据研究咨询机构爱分析调查数据显示,在大模型落地应用中,45%的企业处于观望学习阶段,39%的企业处于探索可研阶段,16%的企业处于试点应用阶段,而全面推广阶段的企业为零。可见,绝大多数企业用户目前处于探索可研阶段。
其中,有关能源、银行、政务大模型落地进展最快,均进入试点应用阶段。
百度创始人,董事长兼首席执行官李彦宏表示,截至10月份,国内已经发布了238个大模型,但相较于国外的几十个基础大模型和上千个AI原生应用来看,国内AI原生应用数量却很少。
《商学院》记者从腾讯处了解到,作为中国最大的软件服务商,目前超过180个腾讯内部业务已接入腾讯混元大模型,包括腾讯会议、腾讯文档、企业微信、腾讯广告、微信支付和微信搜一搜等。最近,QQ浏览器还基于腾讯混元推出了“PDF阅读助手”,具备智能摘要、智能问答和多轮提问等功能。
北京市中闻律师事务所律师杜明怀向记者表示,生成式AI技术是大数据的整合,它的应用可以提高工作效率,此前大量依靠的是关键字搜索,如今从单纯的数据检索变成更强适应力的模糊搜索,例如它可以初步形成较为标准化的文件,这一类文件不是绝对标准的,但都有一个模糊的共通性。
产业应用方面,杜明怀认为生成式AI适用于智能化需求比较强的行业,例如游戏行业利用这类大数据整合式的AI技术会有新发展。此前游戏行业需要大量的程序员编写很多模型数据,每一个人物数据都需要重新搭建,若有一个比较规范化的大模型操作引擎,就会极大提高效率。诸如聊天工具、客服等行业,应用大模型也可以提高劳动效率,利用人工才能实现的基本操作,通过大模型会慢慢有比较好的替代,当然不可能完全替代。
02
生成式AI弊端初现
从生成式AI技术本身来看,它存在侵权、数据滥用、算法歧视等隐患。
正如世界著名媒体文化研究者和批评家尼尔·波兹曼所言,“每一种技术都既是包袱又是恩赐,不是非此即彼的结果,而是利弊同在的产物。”技术本无善恶,但应用技术的人却可能存在邪念,技术的不完善也可能带来实践中的乱象。
国内大模型从正式推出至今,尚不足一年时间,由此带来的弊端已开始显露端倪,从生成式AI技术本身来看,它存在侵权、数据滥用、算法歧视等隐患;从利用角度看,由于使用门槛的降低,利用生成式AI技术,可以伪造音频、视频、图像等数字内容,由此带来了网络诈骗、敲诈勒索等事件的发生,同时恶意使用该技术还可生成大量恶意软件和病毒,对网络安全造成威胁。
2023年在C端用户中比较出圈的莫过于“妙鸭相机”。7月份,用户通过上传20张以上照片再支付9.9元,选择自己喜欢的模板后就能生成个人“数字分身”的妙鸭相机在朋友圈刷屏,这款AI写真小程序生成的照片效果堪比市场上动辄上百上千的艺术照,超高性价比吸引大量用户尝鲜的同时,有关信息安全的争议接踵而至。
起初,妙鸭相机要求用户上传大量个人照片,包括五官清晰的正面照,用户协议中规定“您特此授权我方在全世界(包括元宇宙等虚拟空间)范围内享有永久的、不可撤销的、可转让的、可转授权的、免费的和非独家的许可,使得我方可以任何形式、任何媒体或技术(无论现在已知或以后开发)使用您的内容。”
这种强势要求被质疑后,妙鸭相机更新协议,明确“服务完成后,系统将自动删除上述信息,不予留存”。用户人脸数据被过度使用的风险埋下隐患,随后与妙鸭相机有异曲同工之妙的HeyGen也火速出圈。
HeyGen背后是一家国内初创公司“诗云科技”,借助HeyGen工具,用户只需上传视频,选择语言后就能自动翻译,调整音色,生成嘴型匹配的外语视频,让“郭德纲说英语相声”、让“霉霉说中文”等出圈视频均诞生于此。
有趣的背后,HeyGen也面临着与妙鸭相机一样的可能存在侵权和数据滥用的风险。
此外,生成式AI技术基于算法的产生,可能导致生成的内容存在歧视现象。据有关报道,2022年12月,清华大学交叉信息研究院助理教授于洋带领团队做了一个AI模型性别歧视水平评估项目,结果显示,所有受测AI对于测试职业的性别预判,结果倾向都为男性。在于洋看来,针对AI歧视,如果想筛掉数据集的偏见,成本过高,更合适的方式是在AI模型出来后进行调整;针对AI歧视,也需要政府监管、不同学科学者参与讨论。
03
“幻觉”不保证“真实”与“正确”
应用生成式AI所产生的侵权问题,以及恶意使用带来的风险是技术发展中难以避开的,监管层面要把握好发展与安全的尺度,多名业内专家认为,监管“滞后性”在一定程度上是需要的。
无论是技术本身带来的侵权、数据滥用、算法歧视等隐患,还是利用者蓄意造成的网络诈骗、敲诈勒索等不法现象,它们背后都离不开现阶段大模型的技术逻辑——“模仿”。
生成式AI通过学习大量数据,掌握生成新数据的规律和机制,其核心原理是基于深度学习算法,通过构建复杂的神经网络模型,模仿人类创造性的思维过程。因此,其自主生成的文本、图像、音频等作品,在现阶段依旧脱离不开对现有数据集的模仿,而并非真正理解其背后的意义,由此带来的大模型“幻觉”就可能导致合规风险与科技伦理问题。
大模型的“幻觉”通常指大模型会生成与用户输入不符、与先前生成的上下文相矛盾或与已建立的世界知识不一致的内容,这种现象对大模型在现实世界场景中的可靠性构成了重大挑战。
杜明怀表示,大模型的逻辑起点是“模糊计算”,而不是强调真实性。大模型的目的是为了让用户能和它持续地聊天,不是为了真实性。因为如果把真实性放第一位的话,那就意味着所有答案都必须从真实的数据中准确得到,那么答案具有唯一性,而唯一性的时候思维就很难进行发展。
腾讯混元大模型相关技术负责人向记者表示,数据方面可能存在三个问题,即训练数据本身存在的错误或虚假知识;训练数据可能携带某些文化或社会偏见;数据中的重复内容或低质量数据可能导致模型偏好生成某些特定的词汇或短语。
这就容易带来诸如失实内容、算法歧视甚至侵权问题的产生,目前只能通过技术手段优化大模型,使其尽量降低“幻觉”比例,而很难保证“绝对”准确。因为模型学习和推理时,大模型预训练存在知识遗忘的问题,不能保证准确记住所有训练过程中见过的知识,这是所有深度模型都会面临的问题。
对此,腾讯混元大模型相关技术负责人指出,解决“幻觉”问题可以从三方面入手,即在预训练期间,鉴于现有预训练语料库的庞大规模,当前的研究主要采用简单的启发式规则来进行数据选择和过滤;外挂类的一些知识,比如一些知识库或者基于外挂的搜索引擎,即搜索增强的方式可以有效缓解幻觉的问题;大模型之所以产生幻觉,假设模型在记忆方面没有问题的情况下,那么就是在表达的时候出了问题,需要强化学习。
至于应用生成式AI所产生的侵权问题,以及被恶意使用带来的风险是技术发展中难以避开的,监管层面要把握好发展与安全的尺度,多名业内专家认为,监管“滞后性”在一定程度上是需要的。
04
发展与安全并重,合规走在实践中
大模型中,平台既是发布者又是生成者,如何去约定它的责任是一个重点。
实际上,对于生成式AI的监管已经在探索的路上。2023年7月13日,国家网信办等七部门联合公布《生成式人工智能服务管理暂行办法》(以下简称《办法》),并于2023年8月15日起施行。该《办法》强调了训练数据处理活动及服务流程中的合规性,要遵守法律、行政法规,尊重社会公德和伦理道德。
值得一提的是,《办法》第二条明确提出了“不适用”场景,即“行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等研发、应用生成式人工智能技术,未向境内公众提供生成式人工智能服务的,不适用本办法的规定”,这为生成式AI的研究与发展留下空间。同时,与第三条指出的“国家坚持发展和安全并重、促进创新和依法治理相结合的原则”相呼应。
企业网络安全专家联盟秘书长张威向记者指出,从合规管理角度来看,它相对于技术发展会比较滞后,假如技术还没应用,就“一刀切”说不允许,那就很难发展起来。当有一些问题发生之后,再来考虑怎么监管,这是一种比较合适的方式。
在具体监管层面,如何适当监管以及如何划定责任归属是合规管理过程的重点和难点,责任归属对于AI和人没有区分的情况下,极有可能泛化责任。
在杜明怀看来,由于没有办法保证所有数据都严格经过审核,这就导致当出现问题时由谁来担责存在争议,可以发现似乎所有人责任都很小,但它产生的问题很大。责任的归属是一个根本性的问题,此前平台往往是发布者,但在大模型中,平台既是发布者又是生成者,如何去约定它的责任是一个重点。
杜明怀和张威都提醒道,在日常使用中不要过度依赖大模型,在实践中要把握好合规监管的尺度,不应过度干预,守住“公民的生命财产和信息保护”及“国家安全和国家敏感信息”两条底线,于发展中探索合规路径。
来源 | 《商学院》杂志2023年12月刊