魔鬼经济学1

从数据分析的角度看问题。

如何通过数据分析来发现隐蔽的欺诈和作弊行为

  • 案例1: 房产中介会尽最大努力帮我们卖出最高的价格吗?

按道理来说会,因为中介是按房子售价的一定比例来收取佣金的,所以抬高房价会得到更多的佣金。

列维特在分析了美国芝加哥市多达10万笔房屋交易数据以后,发现了这样一个规律:中介人员在出售自己的房产时,挂牌出售的平均时间要多出10天,而售价则高出3%。也就是说,一套价值30万美元的房子,如果是中介人员自己的房产,那他一定会耐心地等候最高报价,将它卖到31万以上;而如果他只是在帮你卖房,那他一定会尽力劝说你降价出手,尽快成交。

  • 案例2: 产科医生会不会为了多收取费用,而增加剖腹产的比例呢?

最理想的情况,是拿产科医生群体自己的剖腹产比例,和社会平均剖腹产比例来做一个对比。但现实情况是,产科医生本人的医疗档案是保密的。

列维特还是设法找到了一个间接证明,那就是在生育率下降的地区,实施剖腹产手术的比例,要远高于生育率处于上升趋势的地区。这就很可能意味着,在生意不景气的时候,产科医生倾向于提高剖腹产的比例,以增加收入。

  • 案例3: 日本相扑比赛中的“假球”

日本相扑大会每年举办6届,每届比赛中每名选手要参加15场比赛。选手如果胜利8场以上,排名就会上升;反过来,如果输了8场以上,排名就会下降。这就意味着,在进行了14场比赛之后,对那些7胜7负的选手来说,最后一场比赛生死攸关;而对那些已经胜利了8场以上,尤其是8胜6负的选手来说,最后一场比赛则没那么重要,因为他们已经能够晋级,但又没有希望争夺冠军。也就是说,在最后一场的这两类选手之间,最有作弊的动机和可能。

果然,列维特发现了数据中的异常。根据历史交锋记录,7胜7负选手对阵8胜6负选手时,胜率不超过50%;而在最后一场比赛中,7胜7负选手的实际胜率竟然达到了惊人的80%。也许你会说,这最后一场比赛对7胜7负选手至关重要,他们奋力一搏,超水平发挥,也不是没有可能。但奇怪的是,同样是这两名选手,在下一次比赛中相遇时,7胜7负选手的胜率一下子跌回了40%;而再下次相遇时,胜率就回到了一开始的50%正常水平。

数据是不会说谎的,数据中清清楚楚地留下了作弊行为的“指纹”。

数据分析找出导致某个现象的真正原因

人类大脑就像是一台解释机器,每当看到一个现象,就会不假思索地给对这个现象进行解释,硬加上一个貌似合理的原因。这可以说是人类的一种心理本能。但问题是,这些解释往往是想当然的,漏洞百出,没有事实依据。

有一个经典的案例:

在20世纪80年代,美国社会的犯罪率居高不下,而且还有节节攀升的态势。但是进入20世纪90年代,犯罪率在全美范围内开始莫名其妙地快速下降。许多专家将原因归结于: 经济繁荣,人口老龄化,监狱收容人数增加,警力扩充等。但这些原因都经不住推敲。

列维特给出的观点:全美范围内推行堕胎合法化。

在美国全境实行堕胎合法化之后,各州的实际堕胎率是不同的。数据显示,在70年代堕胎率越高的州,在90年代犯罪率下降的幅度也就越大。最后,90年代犯罪率的下降,很大程度上归功于20多岁年轻罪犯的锐减,而其他年龄段的罪犯并没有明显减少。这几点加起来,很好地证明了70年代的堕胎合法化,才是90年代犯罪率下降的直接原因。

社会问题错综复杂,很多因素之间只具有表面的相关关系,而不是真正的因果关系。

总结

  • 第一,通过数据分析来发现隐蔽的欺诈和作弊行为。列维特利用统计数据,精心设计算法,找出数据中的反常之处,这就是坏人在数据上留下的“指纹”。通过这种方法,他指出了房产中介利用信息优势谋取私利,芝加哥公立学校教师的考场作弊以及日本相扑运动中的腐败。
  • 第二,通过数据分析来找出事物之间的因果关系。社会问题错综复杂,很多因素之间只具有表面的相关关系,而不是真正的因果关系。列维特通过两个案例,一是分析主导选举的因素,二是寻找犯罪率下降的原因,展示了如何通过缜密的数据分析来挖掘事件背后的真正原因。

数据分析不是单纯的比较大小,而是设置好采集数据的条件,答案往往就在设定的条件中,进而验证我们的设想。数据分析也可以是分析连续性,平滑性,帮助我们找到数据的反常之处。