语音识别:人工智能关键技术,龙头强者恒强
作为人工智能重要的分支,当前以语音识别、自然语言处理、语音合成为主要技术构成模块的语音交互技术已发展较为成熟。
其中,语音是人与人间自然的交互方式,也是人机交互最重要的入口。基于语音的人机交互是当前人机交互技术中最主要的表现形式之一。
作为人类输出信息的主要渠道,语音识别是AI理解世界最重要的组成部分。它以语音为主要信息载体,使机器具有像人一样的“能听会说、自然交互、有问必答”能力,其主要优势在于使用门槛低、信息传递效率高,且能够解放双手双眼。#人工智能#
资料来源:亿欧
目前语音识别技术已进入工业、家电、通信、汽车电子、医疗、消费电子产品等各个领域。
据德勤数据显示,中国智能语音市场规模2021年规模为301亿元,预计2021-2030年CAGR达19.9%。
语音识别行业概览
行行查 | 行业研究数据库 资料显示,语音识别技术是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
语音识别主要是分析句子、句法(名词、动词、形容词、副词等)以及结构,即语法(主语动词、宾语),以便进行转录或翻译。
语音识别模型结构图:
从语音识别的发展历程来看,早在1952年,贝尔实验室就创造了一台名为Audrey的机器,能够以90%的准确度理解数字0-9。
耐人寻味的是,这个准确度仅在机器发明者发言时可以达到。仅仅是在近几年,语音识别技术才为公众所知。技术巨头纷纷举办声势浩大的发布活动,Siri、Cortana、Alexa的出现让社会的关注度和预期提升,但也因为其功能有限而无法达到用户的预期。
资料来源:《经济学人》
随着深度学习,机器学习芯片和算法取得突破,ASR、NLP和TTS在过去迅速进步。
语音识别的单词错误率大幅降低,这主要是由于使用了更高效的声学模型,运用深度神经网络(DNN)取代高斯混合模型(GMM,之前多年以来的首选方法)等统计技术。
Nuance的研究主管Nils Lenke展示数据显示,在将深度神经网络算法成功纳入语音识别系统后,单词错误率从2010年左右开始急剧下降,每年降低约18%。#4月财经新势力#
从使用场景来看,一种类型是直接语音(或文字)对话场景,如智能音箱、家电语音助手、车机助手等,实现的前提先要实现语音识别。
目前有本地识别和云端识别两种方案,虽然云端识别性能高但通常存在时延高、不稳定缺点。
未来将与本地识别有机结合,端侧AI算力提升,目前主流的一些智能蜂窝模组/WiFi模组等将AP和网络合二为一,性价比明显。
之后模组直接调用云平台SDK实现对话式AI内容输出,目前的智能模组都有能力实现,改动难度小。
语音识别技术原理:
资料来源:CSDN
另一种使用场景则是利用AI实现更高阶智能控制。
比如在智能家居和工业互联网领域,AI助手能更好的理解用户意图并做出智能决策实时调节设备行为。
这种场景需要语言大模型侧理解用户语音后直接输出设备控制代码,但考虑到安全性问题,也可能生成预定值的几种控制策略,导入本地AI后再做解析。
但无论哪种都需要模组和云端复杂调试适配,具有一定壁垒。
语音识别市场格局
近年来,布局语音识别市场的玩家众多,智能音箱、手机搭载语音交互、智能翻译工具、智能客服等语音类产品层出不穷。
国内语音AI市场上参与者不断涌入,中国市场主要参与者可分为以下四类:
第一类是在深度学习算法大规模应用之前,就已经从事这个领域的专业语音公司,比如科大讯飞或者小i机器人,专注于需要丰富行业知识的垂直领域。
第二类是AI初创公司,如思必驰、云知声、出门问问。这些公司主要关注多用途的云平台和一些特定的垂直领域,如智能汽车或智能家居。
第三类是百度、阿里、腾讯等互联网公司,主要推出移动端消费者语音产品。BAT的多用途云平台源自他们自己的核心产品,如腾讯的微信。
第四类是亚马逊、苹果、Nuance等海外互联网公司。
从全球市场格局来看,Nuance、谷歌、苹果、微软和科大讯飞前五大厂商市场份额合计占比80%。
当前国内智能语音市场呈现头部集中的竞争格局。
根据IDC数据显示,在我国语音语义市场中,科大讯飞位居第一。近年来,BAT、京东、小米及各类新兴独角兽纷纷入局语音行业。以阿里、百度为代表的互联网公司的算法和研发优势明显,合计占20%的市场份额;其他参与者还包括拓尔思、小i机器人、捷通华声、智臻智能、思必驰等。
中国对话式人工智能平台厂商评估:
声学模型:语音识别关键环节
当前人工智能模型复杂度和算力提升拉动了训练数据需求量的加速提升。
根据Congnilytica预测,到2027年全球AI训练数据市场需求将达到220亿美元,而观研天下数据中心预测到2029年,我国数据标注行业市场规模将达到204.3亿元。
据IDC,2021年海天瑞声在国内AI基础数据服务行业市占率高达12.9%,位居第一;相比之下,Appen在覆盖区域、语种/方言覆盖能力等方面更具优势;慧听科技与标贝科技则在音乐领域具备差异化业务覆盖能力。
近年来人工智能作为国家技术的战略重点,政策持续优化行业发展。
自国务院印发的《关于积极推进“互联网+”行动的指导意见》将“互联网+人工智能”列入十一项重点行动之一以来,我国出台了一系列重要政策,以把握人工智能发展新阶段国际竞争的战略主动权,促进人工智能行业发展壮大。
相关产业政策涉及产业目标、技术创新、行业应用、标准体系、人才培养等诸多方面,为人工智能行业技术研发、市场开拓、人才引进等经营发展的各个环节提供了重要政策支持。
而语音识别作为人工智能重要的一环,有望有益于新一轮人工智能革命的浪潮,迎来广阔的发展机遇。
关注乐晴智库,洞悉产业格局!