大数据,还是大错误?
大数据是对于大规模现象的一种模糊的表达。这一术语如今已经被企业家、科学家、政府和媒体炒得过热。
五年前,谷歌的一个研究小组在全球顶级的科学杂志《自然》上宣布了一个令人瞩目的成果。该小组可以追踪美国境内流感的传播趋势,而这一结果不依赖于任何医疗检查。他们的追踪速度甚至比疾控中心(CDC)要快的多。谷歌的追踪结果只有一天的延时,而CDC则需要汇总大量医师的诊断结果才能得到一张传播趋势图,延时超过一周。谷歌能算的这么快,是因为他们发现当人们出现流感症状的时候,往往会跑到网络上搜索一些相关的内容。
”谷歌流感趋势“不仅快捷、准确、成本低廉,而且没有使用什么理论。谷歌的工程师们不用费劲的去假设哪些搜索关键字(比如”流感症状“或者”我身边的药店“)跟感冒传染有相关性。他们只需要拿出来自己网站上5000万个最热门的搜索字,然后让算法来做选择就行了。
谷歌流感趋势的成功,很快就成为了商业