我在新加坡尋找“紅燈區(qū)”,AI 老司機翻了個白眼
这是一个真实的故事。前几天,我和一群小伙伴在新加坡参加了一场神秘的黑客大会,具体是什么大会,以后再说。我先说说你们感兴趣的“寻找红灯区事件”。
我们本来纯洁地打算寻找吃榴莲的圣地,不料女导游神秘兮兮地介绍,新加坡有个地区叫芽笼,是个开展合法羞羞服务的区域,就在你们吃榴莲的地方附近哦。
蛤?贵坡还有这么不符合我们社会主义核心价值观的地方?
车上的小伙伴顿时来了兴致,强烈要求司机载着我们在芽笼区域晃荡一圈。而且,一位男同学提出了一个相当正经的问题:听说提供这些服务的场所就隐藏在大街小巷里,我们怎么区别什么样的场所是红灯区?迷路怎么办?
女导游羞涩地朝着一个方向指过去:你们看,新加坡的这些街巷分成了单双号,在这个区域,单号街道都是正经吃喝的地方,一般红灯区隐藏在双号街道里哦。
【 图片来源:新加坡眼 所有者:新加坡眼 】
为了再一次教我们辨别什么是提供特殊服务的小店,导游指出,一般在这些场所外面,会挂上两个红灯笼,这些灯笼会在夜晚点亮。
可是,这辆大巴转了许久,我们还是没有看到红灯笼,不禁失望至极,导游安慰我们:对了,有些场所不挂灯笼,但有 bling bling的霓虹灯,你们如果在这个区域的双号街巷看到闪烁的五颜六色,那就八九不离十了!
我之所以想起寻找红灯区事件,是因为1月16日,我参加了阿里安全部的一次年度媒体沟通会,AI 鉴黄被作为一个典型的安全 AI应用案例推出。我才发现,相较于肉身寻找红灯区,AI 早就在鉴定黄赌毒上一路狂奔了。
但是,厉害如 AI 唐马儒,竟然也面临着安全风险。
攻击者 VS AI老司机
我们来看看,发生了什么。
阿里目前有三大战略领域:传统电商、数字化娱乐和新零售,这三个领域都涉及到网络安全,比如,原创内容保护、内容治理和网络黑灰产对抗。
以内容治理为例,由于淘宝体量巨大以及内容生态越来越繁荣,淘宝的短视频每天的观看量差不多能达到 20 亿次,这就衍生了一个问题:如何让内容合法合规?
阿里安全部图灵实验室高级算法专家威视(花名)告诉我,在过去一年网信办接到的各种违规信息举报中,超过 70%的举报涉及色情低俗,这意味着,色情低俗风险确实是各种内容面临的合规风险中占比最大的一种,所以, 在巨大的信息中,运用 AI寻找黄色内容,规避内容风险成了一个强需求。
现在出现了一类不正经的算法工程师,他们被称为“调包侠”,虽然他们可能并不理解 AI 技术底层如何实现,但特别擅长调包——调用别人的开源代码,将一些非法信息灌进去,训练出一个特殊模型。这导致了另一个问题——安全研究员辛辛苦苦训练出的 AI唐马儒竟然可能叛变,就像被人塞了小红包,对黄色内容睁一眼闭一眼。
【 图片来源:pconline 所有者:pconline 】
更让人担忧的是,还有更多安全对抗在发生。
第一回合:没用上 AI 技术,违规信息对抗在不同媒体间转移。
以商品信息为例,一开始,色情低俗信息,直接写在商品标题里面,比如:“看爽片XXX”,立马能找到不可描述的东东。
安全技术专家像打地鼠一样,敲掉了标题里的色情低俗。现在一搜“看爽片”“爽片”,出来的分别是这样的商品:
【 注:仅为搜索结果示例】
攻击者马上把违规信息转移到了商品的主图、副图中。由于色情图片具有较强的视觉可分性,图片的鉴黄比较容易开展,攻击者发现自己被拦住之后,开始做拼接图,把违规信息拼在一个正常背景中,或者通过翻拍逃避检测。
甚至,当他们发现,算法对彩色图片的识别效果好,攻击者就用黑白图片,后来,整张图片容易被识别,就变成局部暴露,比如,衣服裹得严严实实的,只漏出关键的一点点。
或者,用美图工具把常规照片转换成铅笔画、蜡笔风格,甚至素描,当安全技术专家把这些问题解决了,攻击者又想了一个新办法——在图片里写字,开始时,违规文字是正常的印刷体,被识别后,坏人开始用斜体、花体字;又被识别出来后,攻击者干脆用手写,还故意写得很潦草,不断考验识别算法和人类的想象力。
当图片的鉴黄做得差不多时,违规信息转战到了视频、直播里,用音频来做。当违规音频也被干掉时,攻击者更狡猾了,他们把信息拆解开,在图片、文本、语音中分散放置,变成一个典型的多模态问题,这时需要综合各方信息进行判断。
第二回合:高端对抗,坏人掌握了AI 技术。
这种攻击者不仅是调包侠,还懂得了AI技术底层的一些特点。他能进行什么骚操作?
曾有一篇经典论文指出,本来模型识别一张图片,正常的输出结果是一只大熊猫,但是坏人经过一些简单运算,比如像素级别的操作,得到一张新图片,人眼看上去还是一只大熊猫,但是欺骗了识别模型,被模型判断为一只长臂猿。
坏人是如何做到的?
第一种情况,攻击者知道鉴黄的算法、模型和网络结构。
威视将这种情况称为“白盒攻击”,这种攻击并不复杂和困难,只要花的时间足够长,耐心尝试密码,攻击者总可以打开盒子。
第二种情况,算法使用的模型是不公开的。
在这种黑盒攻击下,攻击者不断用不同图片调用公开的算法接口,分析返回的结果,不断尝试验证哪些方法可以让AI唐马儒输出的结果含糊不清,直到尝试出来某一种修改能够攻破威视等人建立的模型。
威视说,黑盒攻击比白盒攻击成本高很多,这就是闭源模型好处。事实上,没有什么模型是不可被攻破的,只是攻击成本的高低。安全技术专家要做的,就是不断提高攻击门槛。
除了面对攻击者的威胁,AI 鉴定内容风险时还面临天然阻碍:
一是大海捞针,违规信息可能占比不到千分之一,违规样本和正常样本数量呈现出极度的不均衡的态势。
一是新增风险,安全场景面临的新风险往往“临时爆发”,谁能想到,直播主进行吃播时也可能涉黄。。。emmm,比如吃香蕉、喝酸奶等。
新风险下的新方法
对AI 唐马儒而言,深度学习算法强依赖高质量的样本,样本的质量越高,数量越多,鉴定效果就越好。
威视介绍,为此,他们提出了“小样本学习(few-shotlearning)”这样的技术。这个方法主要解决两个问题:第一,训练中出现从来没有见过的新类别,每个类别又只有很少的样本;第二,训练新样本后,不能遗忘以前的知识,不能改变已有的模型。
针对上述问题,很多人想到用finetune(微调)的方式解决,也就是在已有模型基础上,用新类别的样本做微调训练。但是,已有的模型依赖很大的样本量训练,比如,需要1000万个训练样本。这时用几十个、一百个样本训练新类别,基本改变不了网络。而且,这种训练还会遗忘以前的知识。
威视告诉我:“发现这条走不通后,我们考察了很多新方法,比如,度量学习(metriclearning),学习类和类之间的度量,把不同的类间的距离尽可能地拉大,缩小同类之间的距离,用模式识别的话,就是增大了类间的方差,减少了类内的方差。”
基于度量学习的思路,他们尝试了很多方法,比如,孪生网络 (Siamese Neural Networks)、匹配网络 (matchingnetworks)、原型网络 (Prototypical Networks)等。
这些方法的核心思想是,把样本看作一个点,再来度量不同样本在空间中的分布,利用算法合适地调整分布,让新的类别在原来的样本空间里找到合适的位置,区别原有的类别。
后来,他们还发现了基于图网络(graph neuralnetwork)的方法,这种放在在度量学习的基础上展开,图网络把样本不仅看成一个点,它认为,样本和样本之间是有关系的,用点和点之间的边来表达,有点有边就构成一张图。度量学习只学习了点的信息,图网络既学习了点的信息,也学习了边的信息,这样就构成了网络的学习,实际效果优于度量学习。
还有一种“元学习metalearning”方法,利用以往的知识经验指导新任务的学习。AI算法不是从0开始构建自己的知识体系,而是在已有的知识体系之上,快速学习新技能。
威视等人设计了一种新方法,元学习中融合了度量学习的方法,用构成每个类的标签样本的的原型来表征类,进而通过相似度分类(KNNClassification)进行识别。他们在多个数据集上做了验证,结果表明,该方法比基线有不错的提升。
这种新方法被应用在阿里云内容安全的产品中,阿里安全部提供了一个已有模型及训练方法,第一线的运营人员发现可定义的新风险时,他们用几十个或者上百个样本,在页面上点鼠标,上传并标注样本,这个模型就可以进行一次学习。学习之后,模型对没有学习过样本提出结论,这时运营人员需要标注算法的结果,判断哪个做对了,哪个做错了。大概重复两到三轮,模型基本可用了。
这种方法可以让AI应对大部分新增的风险,而且降低了对样本的依赖性,缩短了响应的时间。以前,安全人员需要收集信息,打标,训练模型进行测试,周期比较长的。现在,这些事情都交给了第一线的业务人员,他们可以自主进行几轮迭代和部署,模型可能在几个小时内就能上线,防范新增的风险。
安全 AI 的想象
AI 唐马儒要想比真的唐马儒更厉害,还需要发挥一些想象力。
在阿里安全图灵实验室的实践中,安全人员发现,AI模型擅长在一些“老司机心知肚明的情况下”处理视觉可分性的任务,比如出现某种明显标志,或者出现了某种动作和场景,但在业务的审核标准里,很多时候连人都需要“脑补”,AI就面临更艰巨的任务了,比如,在色情低俗的场景下,照片里并没有呈现完整的违规场景,AI表示无能为力,但人却可以想象画面之外发生了什么。
【 滑雪胜地,图片来源:百家号 所有者:Strange咖 】
即使 AI 唐马儒成了业务相当熟练的老司机,他可能也会忙到吐血,因为新风险实在太多了!
面对不同风险点,难道要每一种都做出来一个模型吗?威视希望,设计多任务网络,模型不仅可以判断色情低俗风险,同时可以判断广告,还可以找人脸,多任务合并到一个网络中。对于计算成本,现在有一种趋势是,业界开始做专门的AI芯片,大幅度提升计算效率,降低成本。
当然,这些仅仅只是一类案例。说了这么多,到底什么是“安全AI”?为什么在大家都提AI、AI安全时,阿里安全要“别出心裁”地来这么一出,并告诉大家,阿里安全要“ALLIN 安全AI”?
阿里安全研究员陆全称:“我们阿里安全有这样一个场景,把 AI 在安全场合进行打磨。其实我们通过 AI应用在安全去保护AI,通过这样一个不断迭代的过程,把这两个东西形成一个整体。这个整体叫做‘安全AI’,它可以自我进化。”
进化的结果是,他们想培养出一种“人”,“他”是天生就是很好的拳击手,具备高灵活性,非常强壮,还要有高对抗性,最后反哺通用的AI,对整个AI领域提供帮助,促进人工智能的发展。
虽然结尾如此有雄心壮志 ,机智如你,可能想知道一个问题:你们到底有没有找到红灯区?
A.找什么找,吃猫山王才是正经事。
B.晚上一波人在一个地方偶遇,啊呸,你们在想什么?
C.人不如 AI 老司机,唐马儒别哭,起来再战。
【 图片来源:haoqilu 所有者:haoqilu 】
致谢:该文得到了阿里安全图灵实验室高级算法专家华棠、觉奥以及阿里安全资深技术专家铁花的帮助。
推薦系統(tǒng)
雨林木風(fēng) winxp下載 純凈版 永久激活 winxp ghost系統(tǒng) sp3 系統(tǒng)下載
系統(tǒng)大小:0MB系統(tǒng)類型:WinXP雨林木風(fēng)在系統(tǒng)方面技術(shù)積累雄厚深耕多年,打造了國內(nèi)重裝系統(tǒng)行業(yè)知名品牌,雨林木風(fēng)WindowsXP其系統(tǒng)口碑得到許多人認(rèn)可,積累了廣大的用戶群體,是一款穩(wěn)定流暢的系統(tǒng),雨林木風(fēng) winxp下載 純凈版 永久激活 winxp ghost系統(tǒng) sp3 系統(tǒng)下載,有需要的朋友速度下載吧。
系統(tǒng)等級:進入下載 >蘿卜家園win7純凈版 ghost系統(tǒng)下載 x64 聯(lián)想電腦專用
系統(tǒng)大?。?/em>0MB系統(tǒng)類型:Win7蘿卜家園win7純凈版是款非常純凈的win7系統(tǒng),此版本優(yōu)化更新了大量的驅(qū)動,幫助用戶們進行舒適的使用,更加的適合家庭辦公的使用,方便用戶,有需要的用戶們快來下載安裝吧。
系統(tǒng)等級:進入下載 >雨林木風(fēng)xp系統(tǒng) xp系統(tǒng)純凈版 winXP ghost xp sp3 純凈版系統(tǒng)下載
系統(tǒng)大?。?/em>1.01GB系統(tǒng)類型:WinXP雨林木風(fēng)xp系統(tǒng) xp系統(tǒng)純凈版 winXP ghost xp sp3 純凈版系統(tǒng)下載,雨林木風(fēng)WinXP系統(tǒng)技術(shù)積累雄厚深耕多年,采用了新的系統(tǒng)功能和硬件驅(qū)動,可以更好的發(fā)揮系統(tǒng)的性能,優(yōu)化了系統(tǒng)、驅(qū)動對硬件的加速,加固了系統(tǒng)安全策略,運行環(huán)境安全可靠穩(wěn)定。
系統(tǒng)等級:進入下載 >蘿卜家園win10企業(yè)版 免激活密鑰 激活工具 V2023 X64位系統(tǒng)下載
系統(tǒng)大?。?/em>0MB系統(tǒng)類型:Win10蘿卜家園在系統(tǒng)方面技術(shù)積累雄厚深耕多年,打造了國內(nèi)重裝系統(tǒng)行業(yè)的蘿卜家園品牌,(win10企業(yè)版,win10 ghost,win10鏡像),蘿卜家園win10企業(yè)版 免激活密鑰 激活工具 ghost鏡像 X64位系統(tǒng)下載,其系統(tǒng)口碑得到許多人認(rèn)可,積累了廣大的用戶群體,蘿卜家園win10純凈版是一款穩(wěn)定流暢的系統(tǒng),一直以來都以用戶為中心,是由蘿卜家園win10團隊推出的蘿卜家園
系統(tǒng)等級:進入下載 >蘿卜家園windows10游戲版 win10游戲?qū)I(yè)版 V2023 X64位系統(tǒng)下載
系統(tǒng)大?。?/em>0MB系統(tǒng)類型:Win10蘿卜家園windows10游戲版 win10游戲?qū)I(yè)版 ghost X64位 系統(tǒng)下載,蘿卜家園在系統(tǒng)方面技術(shù)積累雄厚深耕多年,打造了國內(nèi)重裝系統(tǒng)行業(yè)的蘿卜家園品牌,其系統(tǒng)口碑得到許多人認(rèn)可,積累了廣大的用戶群體,蘿卜家園win10純凈版是一款穩(wěn)定流暢的系統(tǒng),一直以來都以用戶為中心,是由蘿卜家園win10團隊推出的蘿卜家園win10國內(nèi)鏡像版,基于國內(nèi)用戶的習(xí)慣,做
系統(tǒng)等級:進入下載 >windows11下載 蘿卜家園win11專業(yè)版 X64位 V2023官網(wǎng)下載
系統(tǒng)大?。?/em>0MB系統(tǒng)類型:Win11蘿卜家園在系統(tǒng)方面技術(shù)積累雄厚深耕多年,windows11下載 蘿卜家園win11專業(yè)版 X64位 官網(wǎng)正式版可以更好的發(fā)揮系統(tǒng)的性能,優(yōu)化了系統(tǒng)、驅(qū)動對硬件的加速,使得軟件在WINDOWS11系統(tǒng)中運行得更加流暢,加固了系統(tǒng)安全策略,WINDOWS11系統(tǒng)在家用辦公上跑分表現(xiàn)都是非常優(yōu)秀,完美的兼容各種硬件和軟件,運行環(huán)境安全可靠穩(wěn)定。
系統(tǒng)等級:進入下載 >
相關(guān)文章
- 如何解決銳龍2200g死機藍屏
- Win8.1本地搜索為什么無法使用
- Win8.1無線網(wǎng)絡(luò)不穩(wěn)定/掉線怎么辦
- 電腦機箱漏電怎么消除?電腦機箱漏電是哪里的問題?
- 電腦開不了機怎么辦?電腦無法開機怎么解決?
- 硬盤雙擊無法打開的問題該怎么辦
- 風(fēng)行下載速度慢甚至是為0怎么辦?風(fēng)行播放器下載問題及解決方法匯總
- 蘋果回應(yīng)新的iOS惡意軟件YiSpector:已在iOS8.4中解決該問題
- 沒有路由器怎么連無線 160wifi 解決沒有路由器連接無線問題
- 維棠FLV下載視頻失敗問題匯總及解決方法
- Word2016 出現(xiàn)“此功能看似已中斷 并需要修復(fù)”問題解決方案(圖文)
- Cisco管理的35個常見問題及解答
- NanoStudio怎么用?NanoStudio使用方法及常見問題
- IE瀏覽器登錄網(wǎng)上銀行時出現(xiàn)崩潰問題的解決辦法
熱門系統(tǒng)
推薦軟件
推薦應(yīng)用
推薦游戲
熱門文章
常用系統(tǒng)
- 1win11最新娛樂版下載 技術(shù)員聯(lián)盟x64位 ghost系統(tǒng) ISO鏡像 v2023
- 2電腦公司windows7純凈版 ghost x64位 v2022.05 官網(wǎng)鏡像下載
- 3外星人系統(tǒng)Win11穩(wěn)定版系統(tǒng)下載 windows11 64位穩(wěn)定版Ghost V2022
- 4win11一鍵裝機小白版下載 外星人系統(tǒng) x64位純凈版下載 筆記本專用
- 5蘿卜家園Ghost win10 64位中文版專業(yè)版系統(tǒng)下載 windows10純凈專業(yè)版下載
- 6【國慶特別版】番茄花園Windows11高性能專業(yè)版ghost系統(tǒng) ISO鏡像下載
- 7青蘋果系統(tǒng) GHOST WIN7 SP1 X64 專業(yè)優(yōu)化版 V2024
- 8深度技術(shù)ghost win7純凈版最新下載 大神裝機版 ISO鏡像下載
- 9雨林木風(fēng)windows11中文版免激活 ghost鏡像 V2022.04下載