疫情数据会说谎吗?
文章出处: 上海情报服务平台www.istis.sh.cn
文章作者:
这个春节最普遍的现象,莫过于“全民读数”了。男女老少,不分职业,无论地域,都在主动追踪有关新型冠状病毒疫情的最新进展和统计数据。本公众号近日的文章《疫情之下如何打“假”》针对网络信息识别技巧已经给出了一些有用的打假“举措”。本文将对疫情数据的解读误区进行澄析。
如何验证数据的准确度
如今,数据的公开已成为大众最关心的一个方面。相比2003年非典时期只有纸质版报刊杂志可以依赖的状态,此次获取疫情信息的途径在扩增,我们不能只满足于获取数据,更要寻求验证数据的准确度。
全国疫情趋势图?会“说谎”
新型冠状病毒在全国传播,可视化图表是提供疫情传播信息最直观的方法。以下是一张广为流传的全国疫情趋势图:
图1 广为流传的全国疫情趋势图
↑↑↑这张图用今日新增疑似减去昨日新增疑似,得出每日新增疑似的数值,绘成曲线。然而这样的计算方法是不对的。新增疑似病例,并不等于今日疑似病例减昨日疑似病例,因为疑似病例最终会变为三类:转为确诊病例、排除疑似可能、保持疑似,因此,每天实际增加的疑似病例会比两日的累计差值更高。正确的计算方式是:今日疑似病例=昨日疑似病例+新增疑似-疑似确诊-排除疑似。经过正确的计算方式,得出正确的全国疫情趋势图,如下:
图2 正确的全国疫情趋势图
美国统计专家达莱尔·哈夫在其传世之作《统计数据会说谎》中说:“在没有重要数据的情况下,千万不要轻易相信一个平均数,一张图表,或是一条趋势线。否则你就会像一个只凭平均气温选择露营地的人一样盲目。”从图2可以看出,从1月30日至2月2日新增疑似的数据并没有经历图1那样的波动,处于相对稳定的状态中。这就是计算方法有误造成的数据会“说谎”。
来源:丁香园.丁香医生疫情日报,2月3日
预印本文章?会“说谎”
1月31日,印度理工学院德里分校的研究人员在生物预印本BioRxiv发表文章,称2019新冠状病毒棘突蛋白中含有独特的插入序列,并与艾滋病毒的HIV-1 gp120和Gag蛋白有奇特的相似性,认为“武汉新型冠状病毒有可能并非自然界产物”。这一耸人听闻的研究结果引发了学术界的大规模议论。
图3 印度学者在BioRxiv发表文章
这篇文章中,作者通过比较 2019-nCoV 和 SARS-CoV 的Spike蛋白序列,认为这些序列可能来源于HIV。然而,通过北京大学医学部病毒生物信息学团队的独立分析验证发现,原文作者在比对序列选取上做了人为的取舍,选取不当的数据,来支持自己的观点,得出误导性的结论。
这里,值得注意的是,这篇文章刊载于预印本而非权威的学术期刊。预印本(Preprint)是指科研工作者的研究成果还未在正式出版物上发表,而出于和同行交流目的自愿先在学术会议上或通过互联网发布的科研论文、科技报告等文章。预印本有利于科学家之间更加开放、快速的交流,但就权威性而言,由于它尚未经过同行评议制度的考验,严格来说不能作为科学依据。因此,被大家疯转的印度学者“人工病毒”论,也会“说谎”。
来源:杨恩策.北大第三方独立分析:印度神文的数据分析和结论错误
疫情可视化地图?未必会“说谎”
可视化地图是提供疫情传播信息最直观的方法。目前主流媒体所采用的疫情可视化地图如下:
图4 主流疫情可视化地图
↑↑↑这张图以省份为单位,按照确诊人数将疫情严重程度分层,由图可知,湖北省受灾最为严重,相邻省份次之,三级受灾地区包括华北、华中、华南部分省市,西北地区受灾较轻。尽管有些专业人士对这张图的表现形式提出了质疑,但是对普通民众来说,我们完全可以通过这张分省图了解疫情的分布情况。
但对专业人士来说,不能满足于分省图。首先,中国有数百个地市,是一个层次结构,而非平行的区域结构,因此,地市行政单元层面的数据更能反映现实情形;其次,该图区分疫情严重程度采用的变量是颜色,而人眼对于形状大小的分别更加敏感,因此,采用分级符号制图更容易让人捕捉到确诊病例在数量上的差异。
下图是专业制作团队“疫情地图项目组”成员克服以上缺陷重新制图后得出新的疫情可视化地图:
图5 “nCoV疫情地图”项目组绘制的疫情可视化地图
美国学者杰拉尔德·埃弗雷特·琼斯在《谁说图表不会说谎》一书中针对图表的陷阱进行总结,图形的形状、方位、种类、标识、颜色等都会导致不同的解读。这两幅图都没有“说谎”,只是面对不同的解读者和不同的场合,我们需要选取不同的表达方式。
来源:张海平.可能会说谎的地图-重新审视全国疫情的地理格局
对于会“说谎”的数据,有些是作者没有主观“恶意”加工而成的,只是表述传达不当;还有一些是作者故意为之,以误导读者。无论哪种情况,情报业者都需要引起注意,在分析时要有火眼金睛,才能够识破各种“谎言”;同时,在传递情报(成果)时要避免发出错误情报,以免让人产生误解。
尤其是面对铺天盖地的疫情信息,我们要细心解读、仔细验证、追求完善,要做“谎言”的识别者,不做“谎言”的传递者和制造者。
相关推荐
除此之外,这些书也能帮助大家更好地掌握数据验证能力:
《谁说图表不会说谎》,(How to Lie with Charts),美国学者杰拉尔德·埃弗雷特·琼斯所著,指出制图人故意使用的常见方法,使人被图表所误导。
《统计数据会说谎》(How to Lie with Statistics),由美国著名的统计专家达莱尔·哈夫所著,该书引发的“编造虚假信息”话题受到美国社会持续普遍的关注和美国权威媒体的激烈争论。
---------
参考资料:
张海平.可能会说谎的地图-重新审视全国疫情的地理格局[EB/OL][2020-01-31] https://m.thepaper.cn/baijiahao_5703282sdkver=6dc7fa20&from=groupmessage&isappinstalled=0
丁香园.丁香医生疫情日报,2月3日[EB/OL][2020-02-03]
https://mama.dxy.com/outbreak/daily-of-nationwide-new?index=20200203&locationIds=0&share=true&from=singlemessage&isappinstalled=0
杨恩策.北大第三方独立分析:印度神文的数据分析和结论错误[EB/OL][2020-02-06] https://mp.weixin.qq.com/s/SperCt143XhSg1UQlFYiTw