在过去的一年时间里,5G、AI、无人驾驶等话题颇为引人注目,于此同时,传统的语音技术也一反往常的平缓进程,开始出现了大爆发,智能语音成为社会新的宠儿。

谈到智能语音,就不得不涉及到一个话题:芯片。芯片作为智能语音产品前进的巨大推力,一直受到行业头部企业的重视,而在国内提供音频所需芯片的企业当中,君正较为突出。

君正是国内最早提供IoT和AI音视频整体解决方案的SoC芯片提供商之一。从2014年起,基于君正的SoC芯片解决方案,先后与小米、360、网易、京东智能、苏宁智能、Anker、Harman等国内外品牌厂商合作,被广泛应用在智能穿戴、生物识别、智能语音和智能视频等物联网领域。

此次,在2019(夏季)中国智能音频产业高峰论坛上,来自君正的罗小明先生发表了关于《基于Linux打造低成本、全功能的”智能语音+”解决方案》的演讲。

以下为演讲实录,内容经我爱音频网(www.52audio.com)整理和编辑。

智能语音市场迎来风口

语音技术的发展有几十年的历史,为什么一直以来没有得到很好的推广和应用呢?包括谷歌、苹果和微软都在早些年技术出现并没有得到很好的应用,为什么在近几年得到比较大的爆发?

以ECHO这样一个类别来分析,主要有以下几个方面的语音:

第一是技术上远场拾音。

第二是硬件载体,包括亚马逊和天猫智能音箱各种形态作为切入点,能够很好的去教育用户,因为做一个大众化产品用户认知去感知到容易切入这个市场。

第三是渠道,电商平台亚马逊和天猫都有巨大的流量优势和渠道优势,他们可以很好的宣传这类的产品,比如亚马逊在网站可以长达两年时间每天在首页呈现ECHO这样的产品。

第四价格门槛方面,当这个产品达到29美金或者国内价达到99人民币的时候,逻辑上就真正引爆了。

第五AIoT语音识别率和用户体验达到大幅度得提升,促进整个市场的爆发原因。

最后是规律,作为一项新兴技术,以虚拟助手为代表的智能语音技术也已经经历了一个完整的技术成熟的周期,2015年把语音的技术放在这个点,2016年放在这个点,到了2018年又有所回落,即使那个点即将或者已经在成熟道路上。

所以基于这六方面原因,我们认为这是市场爆发的因素。作为一个开发者,我们要做智能语音的产品,会考虑是不是有这些方面的条件帮助产品获得成功。

智能语音技术如何选型

除了智能音箱以外,有很多应用场景也有了智能语音应用,无论消费者领域,或者企业应用,甚至政府应用都有很多在落地,只是需要时间去成熟。如果说我们想做一款智能产品,那么是不是可以从这些点切入,找到自己的需求和场景。

一般可供选择的方案

第一,因为智能语音技术链条非常长,在前些年做一款智能音箱至少接触到以下的一些合作伙伴,比如硬件平台厂商,要从功能性能成本功耗,前端算法NS、AEC、BF、Trigger,语音技术ASR、NLP、TTS,云平台要从内容服务、智能物联网、开放生态。最多的合作有七八上十家,现在有些厂商把整个算法,找到一个好的厂商就可以完成。从硬件看,我们把硬件平台八的组成为部分,有三大向,有的通用CPU作为技术平台,跑一些应用处理。

第二在特定的场景需要高速运算低音成解决,比如专用DSP解决特定的需求。

第三对一些复杂的场景下可能又需要用到一些复杂的算术,CPU+NPU的形式解决交易的需求。

君正采用的方案

君正现在用的第一种,也已经有第三种方案。

操作系统方面以Android、Linux和RTOS为主,三种操作系统有其优势和劣势,最终看自己怎么规划和定义这个场景,并且我们自己有什么样的资源完成这个产品的实现,不管Android还是Linux开发难度其扩展性不一样,君正是以Linux为主。

除了Linux平台,我们有的有单独,比如要技术服务,足够量价格都比较好谈。除了前端技术和服务还有费用,包括有一些定制开发费等等。还要考虑云平台开放承受,是否能接受更多的服务满足你特定的一些市场场景需求等。

君正智能音频发展历程

最早2014年,君正跟当时盛大旗下的做了一款Wi-Fi音箱,这是智能音箱一种雏形,主要为了解决蓝牙音箱绑定手机的因素,你一次配好可以一直在线。

后来的很多产品都属于智能音频应用场景。

例如和京东唤醒语音交互的音箱,以及ALEXA和阿里思必驰用语音唤醒、车载场景的产品,包括去年退出里多麦贞烈的支持远场交互,更多带屏或者带摄像头的场景,还有收音机,猫王收音机有语音控制的收音机,还有带电池的,跟JBL合作,还有车载合作,进ALEXA合作导航。

关于君正解决方案,由于这个行业在初期整个产业链比较长,如果一个厂商对接很多厂商不太可行,只能自己去做这部分的工作,我们在前端算法有了很多合作伙伴,不管是硬件算法还是软件算法都有,在语音技术和云平台这块基本上一些大平台在做,百度、腾讯、亚马逊、思必驰等等都有合作。

现在我们主推地芯片平台X1830-Linux,主要方案比较经典,内置NADD Flash。如果你要做一些带摄像头的场景我们也支持MIPI,我们也支持接触屏的场景。

君正“智能语音+”解决方案

在软件方面智能音频场景或者产业链比较长,君正自己会把这些东西做了,包括整个硬件平台、基础系统、核心组建、软件算发都有做继承,客户如果做一款智能语音产品,只需要做业务逻辑或者云端私有云的开发。

功能特点,功能完整,性价比高,方案成熟,开放可拓展。君正是一个非常开放的公司,是真正提供的基于Linux打造低成本、全功能的”智能语音+”解决方案。

最后Roadmap,2015年做第一代智能语音操控的音箱,先后推出了四款芯片,现在助推的1630和1830,展台上基本以这个方案做,支持4麦克风,最终我们在今年第三季度推出高性低成本的,双核主屏300兆,我们有比较好的资源,根据客户资源提供(英文)我们的内置资源,支持多麦,支持摄像头语音+人脸,在Q3推出,到时候可以跟我们具体了解一下这平台。