慧聪安防网

AI错删YouTube机器人视频,背后是人类难以消弭的身份焦虑

http://www.secu.hc360.com2019年09月09日10:56 来源:脑极体T|T

    人类有时理性。

    为了让机器人学习技能,对它们进行千锤百炼、花式虐待,都是常有的事。

    有时也很感性。

    尽管我们也知道铜腔铁臂的机器人并不会因为被击打而感觉到疼痛,但依然希望能通过更温和的方式来让它们成长,科学家们想方设法试图让它们看看YouTube视频便能学习,或是在模拟环境里展开竞技……

    机器人

    除了同理心作祟,还有点未雨绸缪的小机智在里面。万一哪天某天机器人觉醒了,发现这些被人类虐待的“黑历史”,“黑化”了怎么办?电影里的机器人革命不都是这么来的嘛……

    但,如果替人类反思的不是我们自己,而是AI呢?

    当AI开始管理内容,它会违背规则、保护同类吗?

    8月21人,YouTube用户JamisonGo最近收到了一封来自官方的通知,平台自动删除了他上传的战斗机器人比赛视频,原因是算法检测到该内容对动物施以折磨或强迫动物对抗。当时,机器人乔普正在和另一个机器人作战。

    JamisonGo在自己的Facebook账号上写道:“今天是一个悲伤的日子。全世界的机器人爱好者都发出痛苦的哀鸣。”

    youtobe

    他并不是一个人。上一季战斗机器人比赛的参赛者莎拉·波霍雷基也在YouTube上受到了相同的打击,这很快引发了全世界机器人相关内容频道的关注。许多像BattleBots和RobotWars这样的节目站出来,指责了YouTube这个将机器人战斗检测为虐待动物的新算法。

    之所以认为是AI在捣乱,是因为人类几乎不可能在观看这些视频时将机器人认成动物,画面中也并没有出现人类和其他生物,被删除的视频并没有在描述、标签甚至标题里提到机器人名字这样容易被误认为是生命体的文本。而且,YouTube自身对于机器人战斗视频并没有明确的禁令。这不,第二天便有人工团队重新审查并恢复了大部分被误删的视频。看来,将其错误标注并删除的只能是算法自己干的了。

    事情虽然告一段落,但AI开始擅自停止以机器人同胞们为目标的暴力,这让不少人陷入了“机器觉醒”的阴谋论里。甚至有人开始猜想,YouTube是不是被AI接管了,让算法做一切决定?所谓的“人工审核”到底是不是真实存在的?

    又或者,你永远不知道人工智能何时会找到另一种方法来保护它的机器人兄弟。

    AI有情?真的是只是一时眼花

    那么,从技术的角度讲,错误删除视频到底是无意识地误伤,还是AI们的自我保护呢?

    目前来看,答案当然是前者。因为,在理解视频这件事上,AI真的还没有大家想象的那么强。

    2017年,谷歌推出了一款视频智能(VideoIntelligence)的API,可以自动识别视频中的物体和内容。这在当时是里程碑式的应用,因为YouTube、Facebook、新浪微博、快手等等拥有视频产品的平台,无不深受不良内容的困扰。

    一位泰国男子在Facebook上直播杀害亲生女儿然后自杀的视频,在网站上挂了将近24个小时,播放量超过25万次,但其全球将近5000人的人工审核团队依然无法在第一时间在浩如烟海的视频流里立即定位并删除这些不良内容。

    Facebook屡屡因扩散不良信息而受到政府审查的同时,YouTube也在为视频审查带来的业务危机而头痛。因为早先YouTube的智能广告推荐算法,便将沃尔玛、百事可乐、电信运营商Verizon等广告主的贴片广告,分发到了一些宣扬仇恨和恐怖主义的视频上……金主爸爸们很快用脚投票,这让YouTube乃至整个Google的广告网络都感受到了压力。

    品牌

    虽然Google声称,这些问题只影响到了“非常非常非常少”的视频,但显然唯有行动才能打消用户与广告商的顾虑。

    所以,“视频智能”技术发布的时候,时任谷歌云机器学习与人工智能首席科学家的李飞飞曾经这样形容它——通过视频识别技术,“我们将开始给数字星空中一个黑暗的物质照亮光芒。”

    如今,两年时间过去了,网络内容的黑暗一角真的被AI照亮了吗?成果当然是值得肯定的,比如随着新算法模型的不断突破,谷歌的BERT训练方法可以将审查的人工劳动量从12,000小时减少到80小时。

    但同样的,各大内容平台的人工审核团队也在不断扩张。显然,机器方法的引入并没有如预期中那样帮助平台提质增效。视频理解,依旧是一朵未能从应用层面被摘下的高岭之花,它具体难在何处呢?

    首先是真实环境下的行为识别(ActionRecognition)。

    目前的视频行为识别模型,都使用动作分割好的数据集进行训练,像是UCF101、ActivityNet、DeepMind的Kinetics、Google的AVA数据集等等。每个视频片段包含一段明确的动作,并被打上了明确且唯一的分类标签。但是真实环境中的视频都没有被预先切分,有时还会包含多人动作等复杂场景,或是包含复杂的情绪、意图,这些问题的处理难度都比人脸识别等明确定义的难以下,所以实际应用时准确率便会下降。

    图像识别

    比如一只狗张开嘴巴,和一个人打开门,都会用“打开”(open)这个动词来标注,并被放进同一个分类中……从这个角度看,YouTube算法将机器人战斗当做动物虐待,好像也挺符合它目前的“智商”的。

    对视频中的行为进行分类便已经很难了,如果再加上时序,便更让AI发愁了。

    因为对于图像中的物体,目前的技术已经能做到很容易地进行检测和分割,然而生物行为的时序边界往往是很不明确的,一个动作何时开始、何时结束,动作变化幅度太大等等,都很容易让算法“眼花”。一方面,既要在大量连续帧之间解决时序冗余的问题,提高检测速度;又要提高“眼力”,在运动模糊、部分遮挡等情况下也能精准定位和识别,便在前不久Google又提出了新的基于Q-learning学习自适应交替策略,便是在速度与准确率之间寻求平衡。至少从这次“算法误删事件”看来,这条技术高山还需要工程师们持续向上攀爬。

上一页12下一页
《慧聪安防网》服务升级
扫码关注

安防资讯官方微信

安防资讯官方微博