(黑产现状规模统计)
某知名的大型商场,在自己的超市里搞了一堆免费WIFI,顾客过来就可以连接,但是需要手机注册会员。
用免费WIFI换超市会员,其实是一笔划算的买卖,这个营销增长思路也是OK的。
但很快就被黑产盯上。
黑产进入商场去布置自己的WIFI,使用的名字和商场是完全一致的,同样是要你的账号密码来登录,登录过后,可以联网。
当然,不管你输入什么,其实都是可以登录的,因为黑产并不知道你的会员账号密码。
与此同时,黑产布置了一个假基站。
只要你在这个范围内,连接了这个假的WIFI,填写了你的手机号,就会有脚本自动去登录商场的会员系统,同时这个假基站就会对你的GSM短信进行劫持,获取你的短信验证码。
登录之后会自动替你领券,然后用券来套取优惠的利差。
我们都知道商场拉新是会发很大额的新手券的,付出了大量的补贴成本,黑产就是要赚这个福利。
这是很大一笔收益。
而作为用户,你被仙人跳了。
更有趣的是,假基站设备和假WIFI设备是放在书包里的,被他们直接背着在商场里逛来逛去,赚够了之后出门打车就走了,下次换个商场。
后来这个方法被发现,是因为商场上云之后,被系统自动识别出问题,因为出现了大量的异常WIFI设备登录(正常WIFI是在白名单的),商场付出的代价是天文数字。
收获的是一群虚假的注册用户,而真实的用户在注册的时候反而会被提示已经注册。
大额补贴打水漂,还得罪了用户,鸡飞蛋打。
3
第二个故事出现在内容行业。
在现在这个年代,异常内容风险始终是最大的风险。
对于一切支持用户发布内容的,其实内容失控的风险都是存在的。
话题广场,论坛,评论区,用户昵称,甚至私人对话,语音连麦,只要可以录入文字,图片,语音和视频的地方,就存在着失控的风险。
除了垃圾信息外,社区的异常发言,直播里的敏感内容,音频里的隐匿色情,视频中的问题素材,甚至电商材料详情页的产品介绍,全都是风险。
所以换一个角度,如果你想进攻你的对手,有没有更加隐秘的方法呢?
对竞争对手做内容攻击就好了。
(御见安全运营中心(SOC))
使用机器录入的方式,在对方平台中灌入大量异常内容(文字图片音频视频),导致对方产品下架或者用户负面,属于借刀*人的新玩法。
某知名种草社区,就面临了这样的进攻,下架了很久。
针对垃圾信息进攻,第一重防御是在文本阶段。
现在搞垃圾进攻的,全都是变体字 中英混合的,传统的词库审核是拦不住这个的,你怎么可能穷举呢?
(腾讯内容风控技术分析)
业内经典的文本分类算法,大概三种。
TextCNN、RNN、FastText。
其中文本攻击的特点是,短时间高频录入,使用顺序调整(汉字的序顺并不定一能影阅响读,你仔细看看),以及使用大量的异型符号来曲线传达垃圾信息。
在这种场景下,最适合的是方案TextCNN,因为对顺序不敏感,抗干扰强,且结构简单,推理速度快,你不能让用户等待几个小时才发内容,这样业务也不用做了。
但与此同时,还要做针对性训练。
1.基于字符、拼音的Word2Vec来解决同音字问题,汉字穷举不可能,但是拼音穷举还是简单的。
2.提升抗干扰能力使用高频字做拆字,例如【威信】中的2个字,拆成2个单一字作为变量来做核验。
例如只要出现【信】这个字的内容,都要走二级策略。
3.模型训练增加额外的场景变量,同样一个词,【死鬼】,我妈说我是死鬼和我妈说我爸是死鬼就是完全不同的场景。
所以在设计模型策略的时候,必然要有场景这个概念。
很多模型不好使的关键节点就是没有场景概念,导致很多数据结果其实是过拟合的。
(腾讯天御内容风控文本安全的打击原理,作为国内最大的内容平台,腾讯每天都在面对高强度的攻防)
4
讲完文本讲图片。
图片面临战主要打击场景是色情低俗类。
由于图片是存在暗示的,并且图片的要素是要远远多于文字的,而且图片本身的敏感点也是隐蔽的,单纯使用简单的过滤方法是不行的。
很简单的道理,你要过滤胸部,只用白,圆等特征,可能馒头也完犊子了。
目前针对图片,应用最广的还是图像分类/目标检测算法 关键要素识别。