加载中...请稍后..

深扒大数据公司Cambrige Analytica

发布日期:
2018-07-26
浏览量:
72210

导语:2016年美国大选已然结束,但武器化的AI宣传机器只是刚刚兴起,它代表的是一个新的时代——谁能够收集更多的数据、创造出更好的个性分析手段、快速开发互动型AI,以及组织起更庞大的机器人水军,谁就能取胜。

“这简直就是台宣传机器。它一个个地拉拢公众,使他们拥护某个立场。如此程度的社会工程,我还是头一次得见。他们用情绪作为缰绳,套住人们,然后就再也不松手了。”乔纳森•奥尔布赖特(Jonathan Albright)教授说。

奥尔布赖特是美国伊隆大学的助理教授兼数据科学家。唐纳德•特朗普当选美国总统后,他开始探究假新闻网站泛滥的幕后真相。我们采访了包括奥尔布赖特在内的业内专家,包括牛津大学计算机政治宣传项目主任萨缪尔•沃利(Samuel Woolley),以及英国国王学院的媒体、传播与权力中心主任马丁•摩尔(Martin Moore)。

从中我们发现,事情不只几篇假新闻这么简单。假新闻只是一小块拼图。它与其他拼图一道,构成了一幅更大、更黑暗的图景——人工智能变成武器,被用于操控我们的意见和行为,以实现特定的政治和商业目的。

利用大数据分析、人工智能程序、机器人水军、Fecebook“暗帖”(dark post;定向投放给特定用户的帖子)和A/B对照实验,一家名为Cambrige Analytica的公司制造出了一台无形的机器,它抓住选民的不同个性,实现了舆论的大规模引导和转向。

在过去,这些技术都曾被单独运用过,可一旦集结起来,它们就成了一台坚不可摧的选民操控机器。很快,它创造的这种机器就会大行其道,变成全球各国选举中的决定性因素之一。

 1.png

Cambridge Analytica首席执行官亚历山大•尼克斯在2016年的康科迪亚峰会上的演讲视频

去年,Cambrige Analytica仅仅是小试牛刀便创造了辉煌的战绩。在它的辅佐下,唐纳德•特朗普登上美国权力巅峰;英国脱欧运动一锤定音;泰德•克鲁兹(Ted Cruz)也曾在2016年短时崛起,一跃进入共和党初选的第一阵营。

对于这家公司,目前我们只知道它是由保守派和“另类右派”政治势力控制。这些势力也与特朗普政府有着千丝万缕的联系。

比如,美国的默瑟家族既是Cambridge Analytica的大老板之一,也是特朗普的大金主之一。史蒂夫•班农——特朗普的首席战略师、白宫国家安全理事会的成员——又是Cambridge Analytica的董事会成员。此前,Cambridge Analytica的首席技术官(CTO)还一直担任美国共和党全国代表大会的代理CTO。

眼下,Cambridge Analytica正全速挺进美国商业市场,也在与欧洲、亚洲和拉美的右翼政党和政府讨论合作事宜。

2.png

其实,拥有这个能耐的科技公司并不只有Cambridge Analytica一家,只不过目前最炙手可热的就数它了。这家公司浮出水面,代表着一个新时代的到来。今后无论你是想要在政治或商业上取得成功,就必须要理解Cambridge Analytica的那套玩法,以及理解它创造的那种AI宣传机器。在这个充斥着极化、孤立、水军和暗帖的世界中,这家公司所代表的东西,亦即武器化的AI宣传机器,已经成为政治和商业成功的新前提。

关于Cambridge Analytica本身,以及这种机器的其中某些个方面——机器人水军、假新闻、微定向——媒体的报道已经汗牛充栋。但如果聚合在一起,这些技术会变得多么强大?在未来的竞选和商业宣传中,它们的影响力会达到何种程度?对于这个层面的问题,据我们所知,目前还没有人进行过综合的考察。

在过去的竞选宣传中,人们借助新闻媒体,将文字作为武器,在纸媒、电台和电视上相互讨伐。而这种新武器所带来的,是远远更加阴暗的东西—一因人而异、自我调整、致人上瘾的宣传活动。近十年来,硅谷致力于构建的种种平台,目的就是让用户对数字内容成瘾,但还仅仅是停留在商业层面。2016年,特朗普及其盟友率先在政治层面将它用了起来。

我们步入了一个全新的时代。在未来,我们还能否实现文明的、建设性的对话,就看我们能否理解这个时代,并准确把握它的脉搏了。

欢迎进入AI变成宣传武器的新时代

第一部分:当大数据监视邂逅计算机心理学

这年头,但凡是家像模像样的公司都在收集并购买大数据,但Cambridge Analytica开发了一种模型,可将数据转化为个性档案,用于预测你的行为,并最终改变它们。这个模型是怎么开发出来的呢?

这个事情要从2013年讲起。当时还在剑桥大学心理测量学中心读博士的迈克尔•科辛斯基(Michal Kosinski)公布了一项突破性的研究。它能够将Facebook用户的“点赞”记录,与他们开发的“五大性格特质”(OCEAN;最常用的一种个性特质问卷)评分模型相匹配。

然后,他们便可以仅靠一个人在Facebook上的点赞行为,判断出此人的性别、性取向、政治倾向和个性特质。

这套模型仅凭某用户在Facebook上的十个‘赞’,它就能对一个人的个性特质作出判断,准确率超过此人同事对他的了解;凭借70个“赞”,就足以赛过其好友;150个赞赛过父母;300赞赛过另一半;再多一点,它甚至能赛过此人对自己的了解。

过了没多久,剑桥大学的另一位教授亚历山大•高根(Aleksandr Kogan)找到科辛斯基,撮合他将这套分析工具授权给SCL Elections——一家自称专业操纵选举的公司。对科辛斯基的实验室来说,这笔授权费不是一个小数目,但由于不放心该公司的意图,他最后还是回绝了。

为了开发这个模型,科辛斯基及其同事花了多年的心血,但这些方法和结果既已发布,SCL Elections要复制起来也不难了。而且,他们似乎就是这样做的。

根据英国《卫报》的调查,2014年初,就在科辛斯基拒绝邀约的几个月后,SCL转而与高根达成合作关系。高根通过众包平台Amazon Mechanical Turk,向每位参与者支付1美元,让他们做一份五大个性测试。

不过,事情没那么简单——参与者必须向高根开放所有Facebook数据的访问权。他们被告知:数据将被用于研究。很多参与测试的人可能没有意识到,他们的Facebook好友也在不知不觉中被拉进了测试,数据也被收集走了。

正是高根搜集的这些“研究数据”催生了Cambridge Analytica。它很快就从SCL Elections中分拆了出来。

最早的这批数据固然宝贵,但仅仅是个开端——对Cambridge Analytica来说,它只是种子,用来孵化自己的模型,以便日后脱离五大个性测试,直接分析用户个性。

在成功地验证这些概念后,Cambridge Analytica便开始大举收购互联网用户的年龄、购物习惯、土地所有权等各类数据,乃至他们去哪个教堂、光顾哪些店面、订阅什么杂志,通通收入囊中——这些都可以从各种数据中间商,以及兜售个人信息的第三方机构处买到。

Cambridge Analytica将这些数据与选民名册、网络公开数据——包括Facebook的点赞在内——聚合起来,一起投入个性预测模型。

Cambridge Analytica公司CEO亚历山大•尼克斯(Alexander Nix)就曾经在一次演讲中吹嘘说,凭借其个性模型,该公司足以给美国的所有成年人建立个性档案。

“Twitter和Facebook都被用来收集很多反馈数据,因为围绕某个话题,光回复、转发还不算,人们一兴奋,就把自己的论点和老底全发出来了。”奥尔布赖特解释说。


第二部分:专挑情绪下手的自动化互动脚本

收集有关选民个性的海量数据还不是Cambridge Analytica的与众不同之处,关键要看他们拿数据做什么。

 3.png

“行为是受个性驱动的。你越了解个性对行为的驱动作用,就越能理解人们为何做出某一决定,以及该决定是如何做出的。”尼克斯向彭博社的萨莎•艾森伯格(Sasha Issenburg)解释说。“我们称之为行为学微定向,这可是我们的秘密武器。”

 4.jpg

利用这些个性档案,Cambridge Analytica不仅能知道哪些选民最有可能改变立场,或改变支持对象;还能预测并改变他们未来的行为。

据Vice网站报道,科辛斯基最近正与一名同事合作开展新研究,探讨这些方法的有效性。从早期研究结果看,他们发现:在Facebook上使用个性定向,点击量最多可增加63%;由广告带来的咨询或购买等行为最多可增加1400次。

在技术和媒体生态系统中,有一些研究人员长期观察着Cambridge Analytica的政治传播活动,并发现了一个不断膨胀的自适应型在线网络,它正以政治传播领域内前所未见的规模,进行着自动化的选民操控。

“他们(特朗普竞选团队)每天投放4到5万条内容略有差异的广告,然后反复评估用户的反馈,并依据这些反馈作出调整,”国王学院的马丁•摩尔说,“这些操作都是完全不透明的,针对某个特殊的地理范围,他们爱投多少,就投多少。这个范围最小可以精确到五英里。”

传统民调机构可能会直接问你:你打算把票投给谁?但Cambridge Analytica依据的不是言语,而是行动。它跟踪人们在网络上的举动,以及表现出来的兴趣,恰如其分地呈现出差异性的广告,旨在利用每个人的个性特质,改变他们的行为。

该公司CEO尼克斯去年在一篇专栏文章中写道:“举个例子,我们的模型发现,爱荷华州存在那么一小部分选民,他们强烈认为,公民在投票站投票时,应出示身份证件。”

“我们又借助另外的数据模型,给竞选团队给出建议,教他们如何抓住这个小众议题,按照每个人的独特个性,随机应变地施加影响力,激励人们行动起来,投票给克鲁兹。有的人个性反复无常,不喜欢从一而终,对这群人,我们可以说:投票时出示一下身份证件,就跟买箱啤酒一样简单。有的人传统观念根深蒂固,我们就可以说:投票时出示身份证件,难道不是我们生活在民主国家的众多特权之一吗?”

对Cambridge Analytica而言,反馈是即时的,应对过程也是自动化的:这人是宾州的一个摇摆选民,他有没有点击关于希拉里邮件门的广告?点击了?那就显示更多的内容,强调希拉里如何失责。没有?自动脚本就换个标题试试,也许换个切入点——比如针对此人容易听信权威的特质。于是,标题就换成了:《情报部门高官一致认为:希拉里电邮门危及国家安全》。

以上很多都是靠Facebook暗帖来实现的,只有被定向投放的人才能看见。

基于用户对这些帖子的反响,Cambridge Analytica就能知道,在特朗普的政治宣传中,哪些讯息在哪个地方最能引起共鸣。特朗普竞选路线的安排也参考了这些信息。

如果在密歇根州肯特郡,你定向投放了三篇有关让就业回归美国的文章,而73%的定向选民都点击了其中一篇——那还等什么,赶紧在那儿安排一场特朗普竞选集会!不讲别的,就讲经济复苏。

希拉里的竞选团队采取了传统的民调方法,当特朗普安排在“蓝墙”州(历来倒向民主党的几个州,包括密歇根、宾夕法尼亚和威斯康辛等)举行集会时,希拉里阵营差点笑掉大牙。但根Facebook暗帖的互动情况,Cambridge Analytica察觉到其中有机可乘。

特朗普最后当上总统,关键就在于密歇根、宾夕法尼亚和威斯康辛这几个州的倒戈。

Cambridge Analytica也把暗帖部署到了民主党的关键选民群体中,用来降低这些人的投票率。“在这场大选中,暗帖被用来抑制黑人选民投票。”记者麦肯齐•芬克(McKenzie Funk)在《纽约时报》的社论中写道。

“据彭博社报道,特朗普团队向特定黑人选民投放广告,反复提及希拉里把黑人称为‘超级掠夺者’。在迈阿密的小海地社区,它则定向投放2010年海地地震内容,突出当时克林顿基金会的丑事。”

暗帖只有特定用户可见,除了Cambridge Analytica和特朗普团队,没有人能追踪这些广告的内容,自然不用受到政府部门的监管和大众的监督。只有那几百万个被定向的用户看过它们,真正是做到了阅后即焚。

在临近投票前几周,一个竞选团队可以针对最关键的那些摇摆选民发起暗帖攻势,未来大选中的“黑天鹅”就会是这样诞生。

第三部分:假新闻网络基础设施化

2016年美国大选结果出炉后,奥尔布赖特开始探究“假新闻问题”。作为研究的一部分,他探究了306个假新闻网站,弄清了它们的相互关系,以及它们与主流新闻生态网络的联系。他从中发现一个网络:一个由2.3万个网页和130万个超链接构成的网络。

 5.jpg

“假新闻和极度偏激的多频道网络内的站点,”奥尔布赖特写道,“其节点规模非常之小——这意味着,它们严重依赖链接,这些链接指向主流媒体、社交网络和信息来源(大多都处在网络的‘中央’),但这些网站相互之间的链接却很少。” 

这些网站并非由哪一个独立实体拥有或运营,他说,但联合起来,它们可以将搜索引擎优化(SEO)玩得游刃有余,谁只要搜索与大选相关的词组——特朗普、希拉里、犹太裔、穆斯林,堕胎、奥巴马医保——他们就可以立刻提升假新闻和偏激新闻的可见度。

“这个网络按需激活,以传播各种虚假、极度偏激且夹带政治私货的信息。”奥尔布赖特写道。

然而,更令他震惊的是,这个假新闻网络形成了一个强大的基础设施,使Cambridge Analytica这样的网站得以追踪选民,不断完善其个性定向模型。

“我把这些网站上的追踪器都找了出来,结果就震惊到无语了。每次你在Facebook上给这类帖子点一个赞或者访问类似的网页,你就被脚本盯上了。像Cambridge Analytica这种通过数据挖掘进行政治运作的公司,就可以准确定向个人,在网络上贴身跟踪着你,向你发送高度定制化的政治宣传信息。”

在去年的美国大选中,假新闻和偏激新闻站点组成的地下网络掀起了一股浩荡的政治宣传浪潮,而Cambridge Analytica正是其中的弄潮儿。用户点击查看的假新闻越多,它的个性互动算法就能把你缠得越紧。

虚假内容网站,自动化政治讯息测试,个性档案……这些技术协同作用,并迅速传播到其他数字媒介。奥尔布赖特的最近一项研究专注于这样一种人工智能:它们能围绕新闻和实事,自动创建Youtube视频。

这种AI能响应Facebook和Twitter上的热门话题,配上图像和副标题,并附上计算机生成的配音。短短几天之内,它们就通过19个不同的Youtube频道,发布了近8万则这样的视频。

考虑到这种技术的飞速发展,技术社群要做好心理准备:过不了多久,AI宣传就会进入移动聊天app,还有虚拟现实和增强现实场景,操控人们的情感。

第四部分:机器人水军佣兵集团

如果说,在这台自动化政治宣传机器的构建中,假新闻网络为它搭建了基础设施,那么机器人水军和各种虚假的社交媒体账号就充当了它的马前卒。

文章开头提到的牛津大学计算机政治宣传项目的研究主任塞缪尔•沃利,过去几年就一直在研究机器人水军在线上传播中扮演的角色——它们由谁创造、如何运作,以及要达到何种目的。

在2016年的美国大选前夕,沃利和他在牛津大学的团队发现,偏向特朗普的政治宣传严重依赖机器人水军。到大选日那天,相对于希拉里,特朗普的机器人水军存在5:1的数量优势。

“贯穿这场大选的,是机器人账号的战略性使用,其中以特朗普竞选团队最为明显。在大选辩论期间,程序员们对内容呈现的时机进行精细微调,战略性地占领亲希拉里的主题标签,大选一结束,这些账号就全都销声匿迹了。”沃利团队在研究报告中称。

至于这些机器人账号是不是Cambridge Analytica动用的,我们无从得知。沃利说:“机器人水军往往都是买来的,或是由外包出去,因为这些‘外围工人’跟竞选团队关系很远,也就不受选举委员会监管。”

在团队主要研究员菲利普•霍华德(Philip Howard)的带领下,沃利和同事们自2010年起,就开始追踪这类机器人账号的使用。这个过程中,他们接触过黑客、机器人水军制造者、政治活动者,试图了解他们,理解他们的工作和动机。到最后,这些努力变成了一个由上百名机器人账号制造者组成的线人网络,让沃利团队能及时了解这个地下世界的新动向。 

这其中就包括机器人账号被用于政治宣传运动的消息,来源正是这些账号的制造者。随着越来越多的国际政治领袖开始使用机器人水军网络,来作为他们的竞选工具之一,沃利团队开始追踪事态进展。

这些线人让我们看到这样一个世界:由政府、咨询公司(这些公司的老板或高管通常都处在政府官员最内层的人脉圈子)和个人组成的国际网络,他们构建并维护巨大的机器人水军网络,放大宣传效果,传播与对手针锋相对的讯息,谁要是对他们的服务对象构成威胁,就设法使之噤声。

这些机器人水军也分三六九等。最普通的Twitter机器人账号就完全是个自动程序——专门转发特定账号的帖子,帮助推广特定观念或观点。它们还能鉴别出使用特定关键词或主题标签的Twitter用户,自动回复其推文,文案都是预先写好的。

另一方面,比较高端的机器人水军反而由真人运作的成份更高。他们扮成个性鲜明的路人甲,针对具体内容或话题,跟其他用户展开互动,旨在改变对方的观点。在网络上,他们也有好友和关注者。Facebook或Twitter很难找出并封杀这些账号。

沃利估计,一个人独立工作,最多可同时维护400个传统的Twitter机器人账号;Facebook对虚假账号相对查得更严,所以一个人最多只能同时管理10到20个这样的账号。

因此,这些水军网络常同时服务于多个政治运动。在英国脱欧公投期间,牛津大学的团队观察发现,一个曾参与影响以巴冲突舆论的水军网络被重新激活,为脱欧阵营摇旗呐喊。那些个人页面纷纷更新,反映最新的争论焦点,个性签名也纷纷更改,与最新的效忠对象保持一致——英国就这样走上了脱欧之路。

AI宣传机器的未来

2016年的美国大选已然结束,但武器化的AI政治宣传机器只是刚刚兴起,它代表的是一个新的时代——谁能够收集更多的数据、创造出更好的个性分析手段、快速开发互动型AI,以及组织起更庞大的机器人水军,谁就能取胜。

目前,特朗普和Cambridge Analytica将对手甩出了好几条街。收集的个人数据越多,Cambridge Analytica和特朗普政府就越能从网络效应中受益。

特朗普个人账号@realDonaldTrump和美国总统官方账号@POTUS发出的每一条推文,不论是宣布还是捍卫他们采取的行动,都会迎来反对和争论的声浪。但哪怕是像这样的负面互动,对特朗普政府来说,也是宝贵的资产,因为每一条一时冲动发出的推文,都可以作为心理特质实验。

未来政治比的不是候选人,也不是财力,甚至都不是大数据。大数据谁都能获取,就连2016年败选的希拉里也不例外。

从今往后,一场大选谁胜谁负,决定性因素将是候选人如何运用这些数据,来完善其机器学习算法,以及自动化互动策略。到2018和2020年,大选所比的不再是观点,而是看谁能自动化地改变人们的行为。

谁要想推行变革,就得理解这种新的现实。只有理解这一点,以及构建更加完善的自动化互动系统,放大真实的人类激情,而不是操控它们,全球各地的其他候选人和事业才有竞争的希望。

不久的将来,这种AI宣传将如何在社会中传播开来?对此,我们采访了政治战略师、技术专家,以及机器学习专家。我们希望联手读者,针对未来可能发生的场景展开一番设想。以下列出几个潜在后果,算是抛砖引玉了。

后果1:舆情变成高频交易

拜股票交易算法所赐,很多股市和大宗商品市场中的交易都不再依靠人类来定夺。一些人认为,这样的交易系统也不再能充当价值的风向标。它们成了高频交易算法的斗法之所,这些算法试图影响价格,或在不断变动的价格中,寻找微小的获利空间。

在不久的将来,类似的情况也可能发生在商业宣传和公共辩论之中。舆论不再是官方通告和意见之争,而变成了算法之争,其部署都以左右舆情为目的。

眼下这种算法已经存在于金融市场,它们能实时分析数百万条社交网络发言和网络新闻,并基于市场情绪,在几毫秒的时间内,完成交易。算法交易和“算法舆论”已经紧密联系起来。日后,它们还会进一步整合。

后果2:专抓软肋的个性化、自动化宣传

假设2020年,特朗普在竞选连任时,并不具备最有说服力的政治讯息,但这些政治讯息变成2.5亿个算法版本,针对美国的每一个选民,同步实时更新,经过个性化定制,精准契合政治宣传对象的世界观,专攻他们性格上的薄弱点。

过不了多久,能说会道的政客就会销声匿迹,信口雌黄的政治和企业机器人水军却迎来寒武纪般的生命大爆发,它们操控人的手段也越来越高明。

后果3:困在自己的舒适区?试试困在机器人水军营造的虚拟世界里!

试想2020年,你发现自己最喜欢的社交网络意见群里其实一个真人都没有,只有几千个机器人水军,不断印证你的观点,让你以为“找到了组织”,这将是怎样一副景象?也许,你将永远身在其中而不自知。