手机版
       

穿孔卡片与美国人口普查(2)

作者:维克托-迈尔-舍恩伯格   出版社:浙江人民出版社  和讯读书
  最近,以固定电话用户为基础进行投票民调就面临了这样的问题,采样缺乏随机性,因为没有考虑到只使用移动电话的用户——这些用户一般更年轻和更热爱自由。没有考虑到这些用户,自然就得不到正确的预测。2008年在奥巴马与麦凯恩之间进行的美国总统大选中,盖洛普咨询公司、皮尤研究中心(Pew)、美国广播公司和华盛顿邮报这些主要的民调组织都发现,如果他们不把移动用户考虑进来,民意测试结果就会出现三个点的偏差,而一旦考虑进来,偏差就只有一个点。鉴于这次大选的票数差距极其微弱,这已经是非常大的偏差了。

  更糟糕的是,随机采样不适合考察子类别的情况。因为一旦继续细分,随机采样结果的错误率会大大增加。这很容易理解。倘若你有一份随机采样的调查结果,是关于1000个人在下一次竞选中的投票意向。如果采样时足够随机,这份调查的结果就有可能在3%的误差范围内显示全民的意向。但是如果这个3%左右的误差本来就是不确定的,却又把这个调查结果根据性别、地域和收入进行细分,结果是不是越来越不准确呢?用这些细分过后的结果来表现全民的意愿,是否合适呢?

  你设想一下,一个对1000个人进行的调查,如果要细分到“东北部的富裕女性”,调查的人数就远远少于1000人了。即使是完全随机的调查,倘若只用了几十个人来预测整个东北部富裕女性选民的意愿,还是不可能得到精确结果啊!而且,一旦采样过程中存在任何偏见,在细分领域所做的预测就会大错特错。

  因此,当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了。在宏观领域起作用的方法在微观领域失去了作用。随机采样就像是模拟照片打印,远看很不错,但是一旦聚焦某个点,就会变得模糊不清。

  随机采样也需要严密的安排和执行。人们只能从采样数据中得出事先设计好的问题的结果——千万不要奢求采样的数据还能回答你突然意识到的问题。所以虽说随机采样是一条捷径,但它也只是一条捷径。随机采样方法并不适用于一切情况,因为这种调查结果缺乏延展性,即调查得出的数据不可以重新分析以实现计划之外的目的。

  我们来看一下DNA分析。由于技术成本大幅下跌以及在医学方面的广阔前景,个人基因排序成为了一门新兴产业。2012年,基因组解码的价格跌破1000美元,这也是非正式的行业平均水平。从2007年起,硅谷的新兴科技公司23andme就开始分析人类基因,价格仅为几百美元。这可以揭示出人类遗传密码中一些会导致其对某些疾病抵抗力差的特征,如乳腺癌和心脏病。23andme希望能通过整合顾客的DNA和健康信息,了解到用其他方式不能获取的新信息。

  公司对某人的一小部分DNA进行排序,标注出几十个特定的基因缺陷。这只是该人整个基因密码的样本,还有几十亿个基因碱基对未排序。最后,23andme只能回答它们标注过的基因组表现出来的问题。发现新标注时,该人的DNA必须重新排序,更准确地说,是相关的部分必须重新排列。只研究样本而不是整体,有利有弊:能更快更容易地发现问题,但不能回答事先未考虑到的问题。

感谢您的参与!
查看[本文全部评论]