揭秘:美国天网文档泄露,机器学习算法或错误杀害数千人
问题是,能输入给算法用来学习的“已知的恐怖分子”数量较少,而就算NSA就这个问题发布一份调查收集数据,真正的恐怖分子们也不可能回答。NSA内部文档显示,“天网”使用“已知的联络员”数据作为确定事实,默认假定其他人都是无辜的。 巴基斯坦有大约1.92亿人口,到2012年底时——也是工作人员作“天网”报告的时候——蜂窝手机持有量在1.2亿左右。NSA分析了5500万移动手机的数据。鉴于有5500万人的数据和80个要考虑的变量,人工处理数据、探索其中的意义显而易见是不可能的。所以,就像其它任何一个大数据应用一样,NSA用机器学习来帮助——或者也许是替代,幻灯片上没有说到——人类,进行推理和判断。 “天网”的分类算法分析了元数据和确定事实数据,然后基于元数据为其中的每一个人都生成了一个分数。这个做法的目标是,为恐怖分子生成较高的分数,为剩下的无辜人群生成较低的分数。 “天网”生成的出行报告样例。 为了做到这一点,“天网”算法使用的是随机森林算法,这种算法被经常用在这类大数据应用上。事实上,据上周新披露的斯诺登文档的说法,英国的政府通信总部(GCHQ)似乎也用到了相似的机器学习方法。“这看上去像是,当说到让机器学习算法做出选择的技术时,就是随机决策森林,”伦敦大学学院(UCL)安全与隐私工程副教授George Danezis在一篇博客中对披露的文档这样分析道。 随机森林法在训练集数据中随机选择子集来创造决策“树”的“森林”,随后通过对这些树的预测做平均来将结果综合到一起。“天网”的算法从每个手机用户身上都提取80个属性,然后为他们生成一个分数——就像一个垃圾邮件过滤器。 做完这些以后,“天网”要选择一个阈值——超过这个值的手机用户会被分类为“恐怖分子”。幻灯片中展示了当阈值被设定为50%漏报率(false negative)时的评估结果。这个时候,原本将会被分类为“恐怖分子”的人中有一半就被分到了无辜民众的类别,以此让误报率——无辜民众被错误地归类成“恐怖分子”——尽可能的低。 |误报 当然,我们不能肯定的是,在这次展示中使用的50%漏报率,是否就是在生成最终的猎杀名单时使用的阈值。不管怎么样,如何处理无辜的误报情况仍然是一个问题。 “他们这样做的原因,”Ball解释说,“是因为漏报越少,误报就肯定越多。这是不对等的:有那么多的正确拒斥(true negative),如果降低阀值以减少漏报1个人,这就将增加数以千计人的误报。所以有这样的决策。” 统计算法能够在误报率很低的情况下找出联络员(courier),如果能允许我们错失其中的半数人。 一张NSA的幻灯片自夸道,“统计算法能够在误报率很低的情况下找出联络员(courier),如果能允许我们错失其中的半数人。” 但是,NSA所谓的“很低”,到底是多低? |“彻头彻尾的胡说八道”Ball告诉我们,问题在于,NSA是如何通过确定事实来训练算法的。 NSA将已知的7个恐怖分子的数据放入随机选择的10万人的数据子集(通过他们手机上的MSIDN/MSI来辨别)中,以此来评估“天网”程序。他们向学习算法中输入其中6个恐怖分子的数据进行训练,然后让天网程序找出第7个恐怖分子。上面那张幻灯片展示了误报的概率。 “首先,能用来训练和测试模型的‘已知的恐怖分子’数量非常少,”Ball说道,“如果他们测试模型时使用的记录与训练模型时使用的一样,那么他们对拟合性的评估就是彻头彻尾的胡说八道。通常的做法是,一开始就从数据集中分离出一部分数据、不参与训练过程,这样的话测试时用到的记录就是这个模型从未见过的了。如果没有这一步,他们对分类效果的评估就乐观到可笑了。” 这么说是因为,10万名居民是随机选择出来的,而7名恐怖分子则来自于一个已知的小群体。随机选择出不到总体的0.1%的迷你数据子集,那么居民们的社交图谱密度就会大幅降低,但是“恐怖分子”群体内部的关联度仍然很高。科学上可靠的统计分析会要求NSA在随机选择子集之前就将恐怖分子混入普通居民的数据集中——但是由于恐怖分子的数量过少,这没有实际操作意义。 这可能听起来仅仅是一个学术问题,但是,Ball说道,这实际上高度伤害了结果的质量,并最终伤害了将从人群中预测出恐怖分子并将之暗杀的准确程度。在这种情况下,进行质量评估是尤为重要的,因为我们知道随机森林法会过拟合它的训练集,产生过度乐观的结果。因此NSA的分析并不能很好地展现出这个方法质量如何。 在5500万人中,0.18%的误报率意味着99000名无辜民众被错误地标记为“恐怖分子”。 如果能够允许漏报的人(真正的“恐怖分子”)存活下来一半,那么NSA 0.18%的误报率依然意味着成千上万的无辜者被错误地分类为“恐怖分子”,并可能为他们带来死亡的命运。即便是NSA最乐观的结果——0.008%的误报概率——也仍然意味着许多无辜民众的死亡。 “误报率的那张幻灯片上,注意最后一行,写着‘+固定的选择器(Anchory Selectors)’,”Danezis对我们说,“这是关键,而具体的数字却没有报道……如果你对5500万人口应用0.18%的误报率,你实际上可能会杀害成千上万的无辜民众(5500万的0.18%是99000)。然而,如果你是在一个你已经预测是恐怖主义盛行的群体上应用这个误报率——因为,比如说他们位于一群恐怖分子的两跳邻居关系(two-hop neighbourhood)之内——那么你杀死的无辜民众会少一些。 (编辑:应用网_镇江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |