安全的社交媒体使用方法包括不发布展示个人信息的照片,例如车牌号码、街道名称或门牌号码。但是,如果我告诉你生成式人工智能仍然可以通过照片的背景来找到你,你会怎么想?
随着生成式人工智能的发展,新的应用场景正在被发现。现在,斯坦福大学的研究生们开发了一个可以从街景或者仅仅一张图片中检测你位置的应用程序。
这个项目被称为“预测图像地理位置”(PIGEON),它在大多数情况下可以通过查看该地点的谷歌街景来准确确定具体位置。
根据预印本论文,PIGEON可以以92%的准确率预测所显示的国家,并且在超过40%的猜测中,可以将目标位置定位在25公里以内的范围内。
要理解这一点的印象力,PIGEON在GeoGuessr玩家中排名前0.01%,该游戏要求用户猜测从谷歌街景中拍摄的照片所在的位置。这个游戏为这个项目的起源。
那么,PIGEON是如何工作的呢?学生们利用了OpenAI开发的CLIP神经网络,它可以通过训练来连接文本和图像,训练时使用了要识别的视觉类别的名称。
然后,受到GeoGuessr的启发,PIGEON被训练使用了一个数据集,其中包括从GeoGuessr中随机抽取的10万个原始位置以及一个包含四张图像以覆盖给定位置的完整“全景”图像的下载集,总共达到了40万张图像。
与其他AI模型的训练图像数量相比,PIGEON的数量相形见绌。作为参考,OpenAI的热门图像生成模型DALL-E 2是在数亿张图像上进行训练的。
学生们还开发了一个名为PIGEOTTO的独立模型,该模型使用了从Flickr和维基百科中获取的400万张照片进行训练,以从单张图像中识别出所在位置。
根据论文,PIGEOTTO在图像地理定位基准测试中表现出色,城市准确度超过先前最先进结果高达7.7%,国家准确度超过29.8%。
论文还探讨了与该模型相关的伦理考虑,包括利益和风险。一方面,图像地理定位具有许多积极的用例,如自动驾驶、视觉调查,以及满足对照片拍摄位置的好奇心。
然而,负面影响包括对隐私的最明显侵犯。因此,根据论文,学生们决定不公开发布模型权重,只公开了用于学术验证的代码。