本篇文章7127字,读完约18分钟

最近,一份来自大西洋彼岸的报告成为许多人关注的焦点。

美国著名投资机构红树林资本合作伙伴发布的《2019年语音技术报告》(以下简称报告)指出,2025年语音经济规模将达到1万亿美元,正式超过移动应用经济。

人们已经捕捉到了某种信号。

在过去的几年里,全球科技巨头如谷歌、微软、亚马逊、百度等。已经在语音轨道上下注,并且投射在人们面前的是以下明星语音产品——Echo智能扬声器、siri智能语音助手、谷歌语音助手、cortana(微软小娜)人工智能助手、alexa语音识别引擎和百度杜罗斯。

科技巨头的语音生意经

一个明显的感觉是,语音识别正在成为人类和互联网之间交流的一种新的主流方式。

然而,人们不禁想到柏拉图式的问题:什么是智慧的声音?它是从哪里来的?去哪里?

一个

科技巨头奔向智能语音

从历史中找到语音技术的“线索”并不难。

早在80年前,第一台能够合成语音的机器就诞生在美国新泽西州贾斯敏山的贝尔实验室。如果把语音技术的发展看作是一束光线,那么这个被认为是世界上最伟大的实验室就可以看作是它的起点。

两年后,在1954年,ibm,蓝色巨人,与乔治敦语言学家合作,成功开发了一台能够将60个俄语句子翻译成英语的机器。不久之后,第一个基于计算机的语音合成系统问世了,语音技术开始与越来越多的想象力相结合。

不缺少两种能力,一种是想象力,另一种是创造力。但是即使经过几十年的使用,也很难预测语音技术的发展轨迹。

当然,更难以想象的是,它将成为一个全球舞台。

对于智能语音技术,有一个生动的比喻——遥控中心。现在一切都趋向于形象化,声音自然成为下一个产品形式的“莫尔斯电码”。谁能制定密码规则,谁就能控制整个局面。

这是一场持久战。

纵观全球智能语音交互市场的几大玩家,百度在2010年就开始做语音技术,现在已经快十年了;亚马逊在美国呆了二十二年;即使是最新诞生的谷歌助手,也已经积累了近十年的数据。

骑马不是一天的工作。隐藏在今天的智能siri、谷歌助手、微软小娜和百度背后的是这个行业的高科技护城河。

今年年初,百度宣布了语音领域的四大技术突破。其中,在线语音领域全球首个流媒体多层关注模型smlta被业界评为技术领域的“登月计划”。

在最近的人工智能开发者大会上,百度展示了一种“全双工免唤醒”的能力,这再次刷新了人机语音交互智能化程度的上限。全双工免唤醒功能是小型助理的一项重要技术创新。全双工状态下的小助理除了实现免唤醒词的连续对话外,还有一个非常关键的技术突破,叫做“拒绝回应”,即小助理知道什么时候回答和执行任务,什么时候只需要听,不说话,不回应。简而言之,语音技术的突破使机器的性能更接近“真人”

科技巨头的语音生意经

在现场,观众只感觉到更流畅的对话和更明智的智慧,但在它的背后,许多学术问题被一一克服。

在去年发布的第20届中国专利评论结果中,百度获得了与语音、机器翻译和无人驾驶汽车相关的三项专利,成为国内专利领域人工智能领域迄今为止最高级别的政府奖项。其中,“语音专利”中涉及的新的语音识别模型,利用深度学习算法在24小时内实时分析数百亿的大规模数据,使得语音识别技术的准确率达到97%,解决了语音识别领域的关键和共性技术问题,被麻省理工学院评为“2016年世界十大突破技术”。

科技巨头的语音生意经

在人工智能开发者大会上,百度还推出了远场语音交互的天鹅芯片,可以实现远场阵列信号的实时处理、高精度超低虚警语音唤醒和离线语音识别。另一方面,今年第一季度,百度的明星产品——小型智能扬声器的出货量达到了330万台的超高水平,在中国市场排名第一。显然,百度正在构建一个全链接的语音交互技术,它集成了底层硬件芯片、上层智能硬件系统,然后是系统软件、语音客户端、语音服务器和后端交互。

科技巨头的语音生意经

可以肯定的是,在未来十年,语音技术将成为一个新的决定性主题。

“技术+场景”是王道

迄今为止,人工智能的发展经历了三次浪潮。

在第一波浪潮中,算法被用来构建推荐引擎,提供互联网接入服务,推动了谷歌、亚马逊和facebook的崛起。

第二次浪潮帮助企业使用结构化数据来优化决策,这导致了像palantir这样的大数据公司的出现,他们挖掘大量的结构化数据,发现人眼和人脑很难发现的信息相关性。

现在第三波人工智能正在到来。人工智能已经获得了眼睛、耳朵和无数其他感官,它们可以收集以前从未见过的新数据,然后利用这些数据来促进更复杂的过程自动化。

这种变化显然不同于过去。正如李彦宏最近在《人民日报》发表的一篇文章中所说,“作为引领这一变革的战略技术,人工智能对世界的影响将远远超过以往的工业革命。”

这是事实。在人工智能的浪潮下,许多领域中现有的模型已经被重塑,应用场景已经被颠覆,生产关系已经开始被重构。

其中,发音是极其重要的一部分。

语音技术摆脱了文字和屏幕的束缚,从根本上改变了人们与软件互动的方式,并且可以完全取代移动应用成为未来的主要交流方式。

如果人和移动应用程序之间的交互是二维的,那么语音交互就是三维的。这种升级竞争也带来了互联网的商机。

语音技术领域融资金额的上升就是最明显的例子。根据报告数据,今年语音技术初创企业的融资额高达10亿美元,远远超过2018年的10亿美元和2017年的10亿美元。与此同时,每次融资的规模也在大幅增加。

百度是当之无愧的领导者。

作为最早部署人工智能的科技公司之一,百度拥有基于超大规模神经网络、数万亿个参数和数千亿个样本的人工智能算法,依靠数十万台服务器和中国最大的gpu集群的计算能力;作为中国最大的搜索引擎公司,百度也收集了大量的中文(尤其是普通话)音频数据,为百度语音识别系统deep speech 2的技术成果提供了基础数据优势和支持。

科技巨头的语音生意经

百度美国人工智能实验室负责人亚当科茨(Adam coates)曾表示,截至2017年2月,深度语音2的短语识别错误率已经降低,其转录某些语音的能力基本上是“超人”,能够比母语为普通话的人更准确地转录较短的查询。

更受外界关注的是基于语音识别、图像识别、自然语言处理和用户肖像等技术能力的小型人工智能语音助手(dueros会话式人工智能系统),它是百度技术的大师。

从2015年发布的dueros到2017年发布的DuerOS,再到2018年发布的一系列小型智能硬件产品,小型人工智能语音助手保持稳定的迭代速度,不断整合新的功能,以开放的态度构建软硬结合的人工智能生态系统,更好地服务合作伙伴,成为名副其实的“智慧中心”。

科技巨头的语音生意经

从技术到产品,从产品到下游合作伙伴,我们可以看到百度的智能语音系统已经初具规模。结合技术和具体场景,百度在智能语音交互技术领域扮演着“标杆”的角色。

声音,激发未来商业的关键

通用电气前首席执行官、20世纪最杰出的首席执行官杰克·韦尔奇(Jack Welch)曾在自传中写道:“如果你想让汽车跑快10公里,你只需加一个油门,如果你把速度提高一倍,你就必须改变路线。”ゥ

事实是,商业轨道正在转变。

在《2019语音技术报告》中,有这样一种观点:“语音交互已经颠覆了过去已经存在的人机交互形式,基于语音交互的用户和设备之间的新关系已经开始建立。就像以前从互联网过渡到移动互联网一样,其底层对平台的新需求也在酝酿之中。”

科技巨头的语音生意经

从业务发展模式来看,有两种变化,一种是自上而下,另一种是自下而上。前者要求市场迅速调整头寸,迅速采用新的安排和组合来应对新的变化;后者强调经验,形式的改变更沉默,但更艰难,更持久。

语音技术对商业形式的影响与后者相同。

让我们对未来的商业原型做一个预测:在未来的某个时刻,我们不再需要打字,而是可以使用语音信箱手势,键盘将基本上消失。有了语音技术的祝福,产品形式将彻底改变,没有屏幕。智能手机、语音电子商务、语音广告、个性化品牌语音...

科技巨头的语音生意经

这个预测正在变成现实。

根据juniper的数据,未来几年,语音电子商务将在美国和英国迅猛发展,规模将从2018年的20亿美元增加到2022年的400亿美元。

同步登陆是亚马逊的语音广告业务。据消息称,亚马逊正计划开发alexa voice assistant的商业价值,然后建立大规模的数字广告业务,测试包括视频在内的各种广告产品,并为2018年广告收入的增长做准备。

在频繁的布局背后,是每个家庭对语音技术商业价值的决定。

虽然智能语音技术还存在很多问题,但此时此刻,我们应该提前做好规划,建立一个良好的技术基础,这样,当浪潮再次到来时,我们就可以利用这一形势。

可以预见,中国智能语音市场也将成为推动这一浪潮不可或缺的力量和重要参与者。就像英国大臣迈克在中国徒步旅行了三个月。正如贝茨所记录的:“这片土地从来不缺少奇迹。”

最近,一份来自大西洋彼岸的报告成为许多人关注的焦点。这是2019年由著名的美国投资机构红树林资本伙伴公司出版的语言,

最近,一份来自大西洋彼岸的报告成为许多人关注的焦点。

美国著名投资机构红树林资本合作伙伴发布的《2019年语音技术报告》(以下简称报告)指出,2025年语音经济规模将达到1万亿美元,正式超过移动应用经济。

人们已经捕捉到了某种信号。

在过去的几年里,全球科技巨头如谷歌、微软、亚马逊、百度等。已经在语音轨道上下注,并且投射在人们面前的是以下明星语音产品——Echo智能扬声器、siri智能语音助手、谷歌语音助手、cortana(微软小娜)人工智能助手、alexa语音识别引擎和百度杜罗斯。

科技巨头的语音生意经

一个明显的感觉是,语音识别正在成为人类和互联网之间交流的一种新的主流方式。

然而,人们不禁会想到在匆忙和打赌背后的柏拉图式的问题:什么是智慧的声音?它是从哪里来的?去哪里?

一个

科技巨头奔向智能语音

从历史中找到语音技术的“线索”并不难。

早在80年前,第一台能够合成语音的机器就诞生在美国新泽西州贾斯敏山的贝尔实验室。如果把语音技术的发展看作是一束光线,那么这个被认为是世界上最伟大的实验室就可以看作是它的起点。

两年后,在1954年,ibm,蓝色巨人,与乔治敦语言学家合作,成功开发了一台能够将60个俄语句子翻译成英语的机器。不久之后,第一个基于计算机的语音合成系统问世了,语音技术开始与越来越多的想象力相结合。

不缺少两种能力,一种是想象力,另一种是创造力。但是即使经过几十年的使用,也很难预测语音技术的发展轨迹。

当然,更难以想象的是,它将成为一个全球舞台。

对于智能语音技术,有一个生动的比喻——遥控中心。现在一切都趋向于形象化,声音自然成为下一个产品形式的“莫尔斯电码”。谁能制定密码规则,谁就能控制整个局面。

这是一场持久战。

纵观全球智能语音交互市场的几大玩家,百度在2010年就开始做语音技术,现在已经快十年了;亚马逊在美国呆了二十二年;即使是最新诞生的谷歌助手,也已经积累了近十年的数据。

骑马不是一天的工作。隐藏在今天的智能siri、谷歌助手、微软小娜和百度背后的是这个行业的高科技护城河。

今年年初,百度宣布了语音领域的四大技术突破。其中,在线语音领域全球首个流媒体多层关注模型smlta被业界评为技术领域的“登月计划”。

在最近的人工智能开发者大会上,百度展示了一种“全双工免唤醒”的能力,这再次刷新了人机语音交互智能化程度的上限。全双工免唤醒功能是小型助理的一项重要技术创新。全双工状态下的小助理除了实现免唤醒词的连续对话外,还有一个非常关键的技术突破,叫做“拒绝回应”,即小助理知道什么时候回答和执行任务,什么时候只需要听,不说话,不回应。简而言之,语音技术的突破使机器的性能更接近“真人”

科技巨头的语音生意经

在现场,观众只感觉到更流畅的对话和更明智的智慧,但在它的背后,许多学术问题被一一克服。

在去年发布的第20届中国专利评论结果中,百度获得了与语音、机器翻译和无人驾驶汽车相关的三项专利,成为国内专利领域人工智能领域迄今为止最高级别的政府奖项。其中,“语音专利”中涉及的新的语音识别模型,利用深度学习算法在24小时内实时分析数百亿的大规模数据,使得语音识别技术的准确率达到97%,解决了语音识别领域的关键和共性技术问题,被麻省理工学院评为“2016年世界十大突破技术”。

科技巨头的语音生意经

在人工智能开发者大会上,百度还推出了远场语音交互的天鹅芯片,可以实现远场阵列信号的实时处理、高精度超低虚警语音唤醒和离线语音识别。另一方面,今年第一季度,百度的明星产品——小型智能扬声器的出货量达到了330万台的超高水平,在中国市场排名第一。显然,百度正在构建一个全链接的语音交互技术,它集成了底层硬件芯片、上层智能硬件系统,然后是系统软件、语音客户端、语音服务器和后端交互。

科技巨头的语音生意经

可以肯定的是,在未来十年,语音技术将成为一个新的决定性主题。

“技术+场景”是王道

迄今为止,人工智能的发展经历了三次浪潮。

在第一波浪潮中,算法被用来构建推荐引擎,提供互联网接入服务,推动了谷歌、亚马逊和facebook的崛起。

第二次浪潮帮助企业使用结构化数据来优化决策,这导致了像palantir这样的大数据公司的出现,他们挖掘大量的结构化数据,发现人眼和人脑很难发现的信息相关性。

现在第三波人工智能正在到来。人工智能已经获得了眼睛、耳朵和无数其他感官,它们可以收集以前从未见过的新数据,然后利用这些数据来促进更复杂的过程自动化。

这种变化显然不同于过去。正如李彦宏最近在《人民日报》发表的一篇文章中所说,“作为引领这一变革的战略技术,人工智能对世界的影响将远远超过以往的工业革命。”

这是事实。在人工智能的浪潮下,许多领域中现有的模型已经被重塑,应用场景已经被颠覆,生产关系已经开始被重构。

其中,发音是极其重要的一部分。

语音技术摆脱了文字和屏幕的束缚,从根本上改变了人们与软件互动的方式,并且可以完全取代移动应用成为未来的主要交流方式。

如果人和移动应用程序之间的交互是二维的,那么语音交互就是三维的。这种升级竞争也带来了互联网的商机。

语音技术领域融资金额的上升就是最明显的例子。根据报告数据,今年语音技术初创企业的融资额高达10亿美元,远远超过2018年的10亿美元和2017年的10亿美元。与此同时,每次融资的规模也在大幅增加。

百度是当之无愧的领导者。

作为最早部署人工智能的科技公司之一,百度拥有基于超大规模神经网络、数万亿个参数和数千亿个样本的人工智能算法,依靠数十万台服务器和中国最大的gpu集群的计算能力;作为中国最大的搜索引擎公司,百度也收集了大量的中文(尤其是普通话)音频数据,为百度语音识别系统deep speech 2的技术成果提供了基础数据优势和支持。

科技巨头的语音生意经

百度美国人工智能实验室负责人亚当科茨(Adam coates)曾表示,截至2017年2月,深度语音2的短语识别错误率已经降低,其转录某些语音的能力基本上是“超人”,能够比母语为普通话的人更准确地转录较短的查询。

更受外界关注的是基于语音识别、图像识别、自然语言处理和用户肖像等技术能力的小型人工智能语音助手(dueros会话式人工智能系统),它是百度技术的大师。

从2015年发布的dueros到2017年发布的DuerOS,再到2018年发布的一系列小型智能硬件产品,小型人工智能语音助手保持稳定的迭代速度,不断整合新的功能,以开放的态度构建软硬结合的人工智能生态系统,更好地服务合作伙伴,成为名副其实的“智慧中心”。

科技巨头的语音生意经

从技术到产品,从产品到下游合作伙伴,我们可以看到百度的智能语音系统已经初具规模。结合技术和具体场景,百度在智能语音交互技术领域扮演着“标杆”的角色。

声音,激发未来商业的关键

通用电气公司前首席执行官、20世纪最杰出的首席执行官杰克·韦尔奇(Jack Welch)曾在自传中写道:“如果你想让你的汽车跑快10公里,你只需要加一个油门,如果你把速度提高一倍,你就必须改变路线。”ゥ

事实是,商业轨道正在转变。

在《2019语音技术报告》中,有这样一种观点:“语音交互已经颠覆了过去已经存在的人机交互形式,基于语音交互的用户和设备之间的新关系已经开始建立。就像以前从互联网过渡到移动互联网一样,其底层对平台的新需求也在酝酿之中。”

科技巨头的语音生意经

从业务发展模式来看,有两种变化,一种是自上而下,另一种是自下而上。前者要求市场迅速调整头寸,迅速采用新的安排和组合来应对新的变化;后者强调经验,形式的改变更沉默,但更艰难,更持久。

语音技术对商业形式的影响与后者相同。

让我们对未来的商业原型做一个预测:在未来的某个时刻,我们不再需要打字,而是可以使用语音信箱手势,键盘将基本上消失。有了语音技术的祝福,产品形式将彻底改变,没有屏幕。智能手机、语音电子商务、语音广告、个性化品牌语音...

科技巨头的语音生意经

这个预测正在变成现实。

根据juniper的数据,未来几年,语音电子商务将在美国和英国密集爆发,规模将从2018年的20亿美元增加到2022年的400亿美元。

同步登陆是亚马逊的语音广告业务。据消息称,亚马逊正计划开发alexa voice assistant的商业价值,然后建立大规模的数字广告业务,测试包括视频在内的各种广告产品,并为2018年广告收入的增长做准备。

在频繁的布局背后,是每个家庭对语音技术商业价值的决定。

虽然智能语音技术还存在很多问题,但此时此刻,我们应该提前做好规划,建立一个良好的技术基础,这样,当浪潮再次到来时,我们就可以利用这一形势。

可以预见,中国智能语音市场也将成为推动这一浪潮不可或缺的力量和重要参与者。就像英国大臣迈克在中国徒步旅行了三个月。正如贝茨所记录的:“这片土地从来不缺少奇迹。”

来源:零点娱乐时刊

标题:科技巨头的语音生意经

地址:http://www.02b8.com/yjdyw/14819.html