揭秘:美国天网文档泄露,机器学习算法或错误杀害数千人
按:本文来自arstechnica,作者Christian Grothoff J.M. Porup,由新智元原创翻译。 [导读]从2004年至今,美军无人机的轰炸已经在巴基斯坦的某个地区杀死了2500~4000人,其中绝大多数死者都被美国政府归类为“极端分子”。轰炸对象的选择背后,很可能是美国天网计划,采用机器学习算法对5500完民众进行打分。但本文作者Christian Grothoff 和 J.M. Porup 认为,这种算法会带来很大的误报率,而0.18%的误报率意味着99000名无辜民众被错误地标记为“恐怖分子”。在这些死亡的人数中,又有多少是无辜的民众? 作者Christian Grothoff在法国国家信息与自动化研究所(Inria)领导一支研究团队。他从UCLA获得了计算机科学博士学位。他也以自由记者的身份进行科技和国家安全方面的报道。 J. M. Porup是一位网络安全方面的自由记者,居住在加拿大多伦多。当他死后,他的墓志铭将会写上“承担违约责任”几个字。他在Twitter上的账号是@toholdaquill。 全文如下: 专家表示,这种“乐观到可笑”的机器学习算法是“彻头彻尾的胡说八道”。 一架MQ-9收割者侦察机停在停机坪上。 在2014年,同时负责领导美国中情局(CIA)和国安局(NSA)的主管人宣布,“我们根据元数据来杀人(we kill people based on metadata)”。现在,重新翻看先前披露的斯诺登档案——被杀害的人中有许多可能都是无辜的。 去年,Intercept披露了一些详细描述NSA“天网”计划的文件。从这些文件中可以得知,“天网”涉及到通过巴基斯坦的移动通信网络对民众实行监控,随后使用机器学习算法,基于5500万民众的蜂窝网络元数据,尝试着为其中每一个人是否是一名恐怖分子的可能性打分。 先前在战犯法庭开庭前给出过专家证词的Patrick Ball——他是一位数据科学家,也是人权数据分析组织的研究主管——用“乐观得可笑”和“彻头彻尾的胡说八道”来形容NSA的这个方法。Ball告诉我们,NSA在训练“天网”用于分析蜂窝元数据的机器学习算法上的一个瑕疵,让它的结果在科学上是不可靠的。 据新闻调查局(Bureau of Investigative Journalism)所言,从2004年至今,美军无人机的轰炸已经在巴基斯坦的某个地区杀死了2500~4000人,其中绝大多数死者都被美国政府归类为“极端分子”。鉴于有一份“天网”PPT的归档时间写着“20070108”,这种机器学习程序可能早在2007年就已经开始了研发。 随后数年,巴基斯坦可能有数以千计的无辜民众都被这个“在科学上不可靠”的算法错误地标记为恐怖分子,让他们不幸身亡。 |大数据的塞壬之歌“天网”的工作方式就像一个现代典型的大数据业务应用。这个程序收集来元数据、将它们储存在NSA的云服务器上,提取相关信息,然后应用机器学习的方法来辨别执行既定行动的线索。除了不像商业应用那样试图向目标人群兜售某样东西之外,这种活动——考虑到美国政府在巴基斯坦的整体业务重心——可能也涉及到美国政府的另一个机构,CIA或者军方,通过掠食者无人机和地面暗杀小队(death squads)来执行他们的“寻觅——修正——收工(Find-Fix-Finish)”策略。 从GSM的元数据中,我们可以测量每个被选中的人的生活模式、社交网络、以及出行习惯等方面。 除了要处理记录下的蜂窝手机通话数据(所谓的“DNR”,也就是被叫号码识别数据,包括通话时间、通话长度、谁呼叫谁等数据),“天网”也收集用户的位置信息,建立详细的出行档案。关闭手机则被当做是试图逃避监控的迹象而受到“天网”的标记。天真地相信更换SIM卡就能防止被追踪、并且这么做了的人,也会受到“天网”的标记(烧入手机的ESN、MEID或是IMEI会让手机即使换了SIM卡也会被追踪痕迹)。 对海量的元数据进行出行模式、基于行为的分析、以及其他“补充内容”的分析,以此判断“恐怖分子程度(terroristiness)”。 幻灯片称,即使是更换手机也会被探测到并受到标记。这种探测,我们只能猜测(因为幻灯片上没有对这一点进行详细介绍),可能是基于其他元数据(比如现实世界中的用户位置、社交网络等)不变的基础上的。 有了完整的元数据集,“天网”就能拼凑出一个人典型的日常轨迹——和谁一起出行、有哪些共同联系人、和朋友们一起通宵、去其他国家旅行或是永久地搬离了。总体而言,这些幻灯片显示,NSA的机器学习算法使用超过80种不同的属性来为人们的“恐怖分子程度”打分。 幻灯片告诉我们,这个程序的假设是,恐怖分子与普通居民在其中一些属性的行为上有显著的区别。然而,在Intercept去年的披露中可以清楚地看到,被这个机器学习程序打出最高分的是Ahmad Zaidan,半岛电视台在伊斯兰堡的分社社长。 得到最高评分的人是PROB AHMED ZAIDAN,他去过Peshawar和Lahore。他长期担任半岛电视台在伊斯兰堡的分社社长。 据Intercept报道,Zaidan为了采访叛军、报道新闻,经常前往有恐怖活动的地区。不过,这种机器学习算法背后的NSA工程师们不但没有质疑产生这种可笑结果的机器学习方法,反而在他们内部的报告会中鼓吹Zaidan的例子证明了“天网”的胜利,其中一张幻灯片上将Zaidan标为“基地组织成员”。 |给机器输入数据 训练机器学习算法,就像是在训练一个贝叶斯垃圾邮件过滤器:你将已知的垃圾邮件和已知的非垃圾邮件输入给它。从这些“确定事实(ground truths)”中,算法学习怎样正确地过滤垃圾邮件。 同样地,“天网”程序的一块关键部分是将“已知的恐怖分子”数据输入给机器学习算法,以此来教会算法探测相似的人群。 (编辑:应用网_镇江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |