本篇文章5080字,读完约13分钟

预测未知的能力一直是人类所期待的。中国人所熟知的《周易》八卦、唐代道士所写的《推毕图》、西方人所熟知的占星术、中世纪流行的塔罗牌等等,在玛雅预言“2012年世界末日”的影响下出现的民族狂热和商业狂欢,至今仍历历在目。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

现在,“不向人们询问鬼神”的时代已经过去了,我们已经熟悉了物理世界和社会经济的确定性、经验性甚至概率性的预测。但是,举例来说,正如“蝴蝶效应”所描述的那样,它是高度复杂的,超多元的,而且数据量巨大,难道人类仍然无能为力吗?

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

答案是否定的。

最近,中国武汉爆发的新型冠状病毒疫情引起了世界卫生组织和世界各地许多卫生机构的密切关注。其中,《连线》杂志报道称,“加拿大蓝点公司率先通过人工智能监测平台预测并发布武汉疫情”,受到国内媒体的广泛关注。这似乎是我们在“预测未来”这件事上最想看到的结果——借助大数据沉淀基础和人工智能推理,人类似乎能够思考“天意”,揭示原本隐藏在混沌中的因果规律,从而在自然灾害之前拯救世界。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

今天,我们将从传染病的预测开始,看看人工智能是如何一步一步走向"独创性"的。

Google gft经常喊“狼来了”:流感大数据狂想曲

用人工智能预测传染病显然不是蓝点的专利。事实上,早在2008年,今天人工智能的“强手”谷歌就做出了不成功的尝试。

2008年,谷歌推出了一个预测流感流行趋势的系统——谷歌流感趋势。Gft在第一次世界大战中出名,就在2009年美国爆发h1n1病毒的几周前。谷歌工程师在《自然》杂志上发表了一篇论文,通过谷歌积累的大量搜索数据,成功预测了h1n1在美国的传播。在分析流感趋势和地区时,谷歌使用了数十亿条搜索记录,处理了4.5亿个不同的数字模型,并构建了一个流感预测指数。结果和美国疾病控制和预防中心(cdc)官方数据的相关性高达97%,但是比cdc提前了两周。面对流行病,时间就是生命,速度就是财富。如果gft能够始终保持这种“预测”能力,显然就能为全社会赢得提前控制传染病疫情的机会。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

然而,神话的预言没有持续多久。2014年,gft再次受到媒体关注,但这一次是因为其糟糕的表现。2014年,研究人员在科学杂志上发表了一篇文章“谷歌流感的寓言:大数据分析的陷阱”,指出gft未能预测2009年非季节性甲型h1n1流感。在2011年8月至2013年8月的108周内,gft超过了cdc报告的100周流感发病率。高估了多少?在2011-2012年的季节里,gft预测的发病率是cdc报告的1.5倍以上。到2012年至2013年的季度,gft预测的流感发病率是cdc报告的两倍多。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

(谷歌流感寓言图表:大数据分析中的陷阱|科学,2014)

尽管gft在2013年调整了算法,并回应称偏离的主要原因是由于gft的媒体覆盖面大,人们的搜索行为发生了变化,但gft预测的2013-2014年流感发病率仍比疾控中心报告的高1.3倍。研究人员发现的系统性错误仍然存在,即“狼来了”的错误仍然存在。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

gft缺少了什么因素,使这个预测系统陷入了困境?

据研究人员分析,gft的大数据分析存在如此大的系统误差,其收集特点和评估方法可能存在以下问题:

首先,大数据傲慢

所谓的“大数据傲慢”是谷歌工程师给出的前提,即用户搜索关键词获得的大数据包含了流感疾病的全部数据收集,可以完全取代传统的数据收集(抽样统计),而不是补充。也就是说,gft认为“收集的用户搜索信息”的数据完全与流感疫情所涉及的人群有关。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

这种“傲慢”的前提忽略了海量的数据并不意味着数据的全面和准确,所以2009年成功预测的数据库样本无法覆盖未来几年的新数据特征。也正因为这种“自负”,gft似乎没有考虑引入专业的医疗保健数据和专家经验,同时也没有对用户搜索数据进行“清理”和“去噪”,导致了疫情发生率被高估但无法解决的问题。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

其次,搜索引擎的演变

同时,搜索引擎的模式不是静态的。2011年后,谷歌推出了“推荐相关搜索词”,这是如今人们熟悉的搜索相关词的模式。

例如,对于流感的搜索项,给出了流感相关治疗的列表,并且在2012年之后还提供了相关诊断项的建议。研究人员分析说,这些调整可能会人为地推高一些搜索,并导致谷歌高估疫情发生率。例如,当用户搜索“喉咙痛”时,谷歌会在推荐关键词中推荐“喉咙痛和发烧”以及“如何治疗喉咙痛”。此时,用户可能出于好奇等原因而点击,导致用户使用的关键词不符合用户意愿的现象,从而影响gft数据收集的准确性。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

反过来,用户的搜索行为也会影响gft的预测结果。例如,媒体对流感疫情的报道会增加流感相关词汇的搜索次数,进而影响gft的预测。这就像量子力学的海森堡指出量子力学中的“测不准原理”表明“测量就是干涉”。

于是,在充斥着媒体报道和用户主观信息的搜索引擎的嘈杂世界中,也出现了“预测就是干扰”的悖论。搜索引擎用户的行为并不是完全自发的。媒体报道、社交媒体热点、搜索引擎推荐甚至大数据推荐都在影响用户的思维,导致特定用户搜索数据的集中爆发。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

为什么gft总是偏高?根据这一理论,我们可以知道,一旦gft发布的疫情预测指数上升,它将立即引发媒体报道,这将导致更多的相关信息搜索,从而加强gft的疫情判断。无论算法如何调整,“不确定性”的结果都不能改变。

三。相关性,而不是因果关系

研究人员指出,gft的根本原因是谷歌工程师不知道搜索关键词和流感传播之间的因果关系,而只注意数据之间的统计相关性。过分尊重“相关性”而忽视“因果关系”会导致数据不准确。例如,以“流感”为例,如果单词的搜索量在一段时间内激增,可能是因为发布了一部“流感”的电影或歌曲,这并不一定意味着流感真的在爆发。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

长期以来,虽然外界一直希望谷歌披露gft算法,但谷歌并没有选择披露。这使得许多研究人员质疑这些数据是否可以重复复制,或者是否有更多的商业考虑。他们希望对大数据的搜索应该与传统的数据统计(小数据)相结合,从而对人类行为进行更深入、更准确的研究。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

显然,谷歌没有注意到这一观点。最后,gft在2015年正式下线。但是,它继续收集相关用户的搜索数据,并且只提供给疾控中心和一些研究机构。

为什么蓝点率先成功预测:人工智能算法和人工分析的协奏曲

众所周知,当时谷歌已经在部署人工智能,并于2014年收购了deepmind,但仍保持独立运营。与此同时,谷歌没有对gft给予更多的关注,所以没有考虑在gft的算法模型中加入人工智能,而是选择了对gft实施安乐死。

几乎与此同时,我们今天看到的蓝点诞生了。

Bluedot是由传染病专家kamran khan建立的一个自动流行病监测系统,它通过每天分析65种语言的大约100,000篇文章来跟踪100多种传染病的爆发。他们试图利用这些有针对性的数据收集来获得潜在流行病爆发和传播的线索。Bluedot一直在使用自然语言处理(nlp)和机器学习(ml)来训练“疾病自动监测平台”,它不仅能识别和消除数据中不相关的“噪音”,例如,系统识别出这是蒙古炭疽的爆发,而且也是1981年成立的重金属乐队“炭疽”的重聚。例如,gft只将“流感”相关搜索的用户理解为可能的流感患者,并且显然有太多不相关的用户,这导致对流行病学准确性的高估。这也是蓝点不同于gft在筛选关键数据方面的优势。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

就像在预测新型冠状病毒的流行一样,kamran说蓝点搜索外语新闻报道、动植物疾病网络和官方公告来寻找流行信息的来源。然而,平台算法并不使用社交媒体上发布的内容,因为数据太乱,容易产生更多的“噪音”。

关于病毒爆发后传播路径的预测,蓝点更倾向于使用全球机票数据,以便更好地发现受感染居民的移动和行动时间。1月初,蓝点还成功预测了新型冠状病毒从武汉爆发后几天内将从武汉传播到北京、曼谷、首尔和台北。

新型冠状病毒的爆发并不是蓝点的第一次成功。2016年,蓝点通过分析巴西寨卡病毒传播路径的人工智能模型,提前6个月成功预测了寨卡病毒在佛罗里达州的出现。这意味着蓝点的人工智能监控能力甚至可以预测流行病的地理传播。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

从失败到成功,蓝点和谷歌gft有什么不同?

I .预测技术差异

以往主流的预测分析方法采用了一系列的数据挖掘技术,其中数理统计中常用的“回归”方法,包括多元线性回归、多项式回归、多元逻辑回归等方法,本质上是一种曲线拟合,即不同模型的“条件均值”预测。这是gft采用的预测算法的技术原理。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

在机器学习之前,多元回归分析为处理各种情况提供了一种有效的方法,它可以试图找到一个最小化预测数据误差和最大化拟合优度的结果。然而,回归对历史数据无偏预测的渴求并不能保证未来预测数据的准确性,这将导致所谓的“过度拟合”。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

北京大学国家研究院教授沈燕在《大数据分析的荣耀与陷阱——从谷歌流感趋势谈起》一文中指出,谷歌gft确实存在“过度拟合”的问题。也就是说,在2009年,gft可以观察2007年到2008年的所有cdc数据,而训练数据和测试数据的参考标准是不惜一切代价找到最适合cdc数据的模型。因此,在2014年的科学论文中,有人指出,当gft预测2007-2008年流感流行时,它将丢弃一些看似奇怪的搜索词,并使用另外5000万个搜索词来拟合1152个数据点。2009年后,gft将面临更多未知变量的数据被预测,包括它自己的预测。无论如何调整gft,它仍然要面对过度拟合的问题,这使得整个系统的误差不可避免。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

蓝点采取了另一种策略,即把医学和健康专业知识与人工智能和大数据分析技术相结合,跟踪和预测传染病的全球分布和传播趋势,并给出最佳解决方案。

蓝点主要利用自然语言处理和机器学习来提高监控引擎的有效性。近年来,随着计算能力和机器学习的提高,统计预测的方法发生了根本性的变化。它主要是深度学习(神经网络)的应用,采用“反向传播”的方法,可以不断地训练、反馈和从数据中学习,获得“知识”。经过系统的自学习,预测模型将不断优化,预测精度将随着学习而提高。模型训练前历史数据的输入变得尤为关键。具有特征的充分数据是训练预测模型的基础。经过清洗的高质量数据和正确标记的特征的提取成为预测成功的首要任务。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

二。预测模型的差异

与gft将预测过程完全交给大数据算法结果的方式不同,蓝点没有将预测完全交给人工智能监控系统。数据筛选后,蓝点将提交给人工分析。这就是gft的大数据分析“相关性”思想和蓝点的“专家经验”预测模型之间的区别。人工智能分析的大数据是特定网站(医疗和健康新闻)和平台(航空空机票等)的信息。)。ai给出的预警信息也需要由相关的流行病学家重新分析,以确认其是否正常,从而评估疫情信息是否可以在第一时间向公众发布。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

当然,就这些病例而言,不能说蓝点在预测流行病方面完全成功。首先,人工智能训练模式是否也有一些偏见,比如夸大疫情的严重程度以避免漏报,从而再次出现“狼来了”的问题?其次,监测模型评估的数据是否有效?例如,蓝点谨慎地使用社交媒体数据来避免过度的“噪音”?

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

幸运的是,作为一个专业的健康服务平台,bluedot比gft更注重监测结果的准确性。毕竟,专业流行病学家是这些预测报告的最终发布者,他们的预测准确性将直接影响他们的平台声誉和商业价值。这也意味着蓝点需要在平衡商业利润和公众责任以及开放信息方面面临一些挑战。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

[/s2/...[/S2/]

"是人工智能发出了第一个武汉冠状病毒警告吗?"媒体上的这个标题确实让许多人感到惊讶。随着全球化的发展,流行病在任何地方的爆发都有可能在短时间内扩散到世界各地,发现的时间和预警通知的效率成为预防流行病的关键。如果人工智能能够成为一种更好的疫情预警机制,那么它可以被看作是世界卫生组织(who)和各国卫生部门开展防疫机制的一种方式。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

然后,这将涉及这些组织如何采用人工智能提供的流行病预测结果的问题。未来,传染病人工智能预测平台还必须对传染病的风险水平以及疾病传播可能带来的经济和政治风险进行评估,以帮助相关部门做出更加稳定的决策。所有这些都需要时间。这些组织在建立快速反应防疫机制时,也应该把这种人工智能监测系统列入议程。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

可以说,人工智能提前成功预测了疫情的爆发,这是人类应对全球疫情危机的一个亮点。我希望这场涉及人工智能的流行病防控之战只是这场持久战的前奏,未来应该会有更多的可能性。例如,人工智能应用于重大传染病病原体的鉴定;根据重大传染病疫区和传染病的季节性疫情数据,建立传染病人工智能预警机制;在传染病爆发后,Ai帮助优化医疗物资的配置。我们将拭目以待。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?


来源:零点娱乐时刊

标题:让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

地址:http://www.02b8.com/yjdyw/28263.html