1948年,当时美国的三大民调机构Gallup、Roper和Crossley一致预测,共和党候选人杜威(Deey)将以5~6个百分点的优势战胜民主党候选人杜鲁门(Truman)。结果,心急的《芝加哥每日论坛报》在计票结果公布之前就发表了“杜威击败杜鲁门”的头条消息。而最终的结果是,杜鲁门反而以5%的票数优势胜出。
原因何在呢?主要因为这三大民调机构的调查对象并不是美国选民的代表。为什么这么说呢,主要有两方面的原因。,部分投票数据是通过电话收集的,而1948年电话更可能被富裕的共和党人拥有,而不是民主党人。
,也可能是最重要的,民意调查人员在收集数据时,是随意选择调查对象的,只要它们符合投票资格。,民意调查人员很可能出于某种原因而调查了更多的共和党人士,而不是民主党。
既然1948年的投票数据存有偏见,那么MogIA所使用的预测数据可能同样如此。MogIA由健康管理公司Genic.AI创始人桑吉夫·赖(Sanjiv Rai)开发,那么桑吉夫·赖是通过何种方式收集数据并提供给MogIA的呢?
MogIA的预测基于来自美国社交网络平台的2000万个数据点,分别来自Titter、谷歌(微博)、Facebook和YouTube等。这些数据主要捕捉了社交网站用户与每位候选人的互动情况。桑吉夫·赖称,基于过去几届的总统大选结果,拥有更高互动级别的候选人最终赢得了大选。与希拉里相比,特朗普用于更高的互动度,MogIA预测特朗普赢得大选。
如果社交媒体互动的数据也像1948年那样存在偏见,那就意味着《芝加哥每日论坛报》的“杜威战胜杜鲁门”这一错误报道的数字版本即将上演。
通过社交媒体讨论总统候选人也并不是什么新鲜事物,,今年社交媒体在总统大选中所扮演的角色与往年有着明显的区别。例如,特朗普在Titter上发脾气已经成为了热门话题。他还发表了其他一些吸引眼球的话题,这意味着有些特朗普的互动数据并不适合用来预测大选结果。
,皮尤研究中心(Pe Research Center)数据显示,Titter用户多为非农村、非西班牙裔黑人,年龄在29岁或更低。而这并不是特朗普的支持者,后者多为50岁或更高年龄的白人。如果大量的特朗普支持者之前并不使用Titter,只是在近期才开始通过Titter来支持特朗普,那么特朗普的Titter数据就可能存在偏见。
要评估MogIA预测的准确性,我们还要了解其一些个问题。例如,哪些社交平台提供了数据用于分析?互动数据是如何衡量的?发一条关于特朗普的消息、转发这条消息,以及为这条消息点赞,其结果是一样的吗?
,MogIA开发者桑吉夫·赖在接受采访时称,MogIA在处理社交媒体数据时,无法识别用户的情感。这意味着MogIA只是简单地计算候选人被提及的次数作为互动索引,而没有考虑到社交媒体用户对候选人的态度究竟是积极的,还是消极的。
最终,如果Mog IA预测错误,那么可能对将来继续开发预测性AI大有帮助。如果希拉里胜出,我们可以建立一个某型,利用同样的数据来预测她胜出。然后对这两个某型进行对比,看看新模型的架构、算法和数据评估是怎样的。发现其中的不同将有助于推动AI的发展。