会员登录 | 注册

来去留技术信息资源

来去留技术信息资源
来去留网 > 流行服务 > 网络应用 > 语音云及在iOS上的应用开发介绍

语音云及在iOS上的应用开发介绍

2012-03-19 05:28来源:来去留网发布者:laiquliu 查看:

CMDN Club第十五期活动已于3月15日顺利举行,本次活动以“移动平台语音技术的应用与实践”主题,以语音技术开发为焦点,从语音基础服务、语音产品开发、语音技术实现等多个维度,探索语音产品创新和技术实践的热点话题。我们邀请了讯飞资深研发工程师李洪亮,与大家分享语音云平台和iOS平台下集成讯飞语音云控件经验。

图:讯飞资深研发工程师李洪亮在做演讲 

以下是文字实录:

李洪亮:非常荣幸今天能就讯飞语音云的相关技术在这里与大家分享,演讲的主要内容分三个部分:第一个就是先从整体上介绍一下讯飞的语音云;第二个就是介绍讯飞语音云客户端组件设计上一些思路,以及工作上一些特点;第三个就是使用讯飞语音云开发这些开发者最关心一个问题如何使用它的问题。

讯飞为什么推出语音云?

首先看讯飞为什么推出语音云,这里面既是有技术发展的需求,又有用户方面的需求,因为用户他在获得高质量的语音服务的时候,这个代价一般是比较大的。刚才在座有人提出凯立德导航,早期的凯立德导航是基于讯飞的引擎,组件用户自己搭建一个引擎能够运行的环境代价也是比较大的,因为算法比较复杂,所需要的硬件也比较高。第三是我们公司自身发展的需要,我们要从行业领域应用走向大众化应用,这三个方面对于我们推出语音云提出了必要,而公司自身的技术壁垒又提供了保障。

语音云发布以来用户数量从不组10万增长到超过3000万,讯飞自有应用用户量超过了600万。可用性就是我进行一次语音请求,能够成功获取多这种服务的这种可能性,在刚开始不足80%,上升到现在的95%以上,这个响应时间从开始4秒到现在不到1.5秒。

在应用层面上也是百花齐放,截止到现在我们累计收到了3000多个应用申请,因为每一个应用申请都是有一个APBID的,再一个活跃的应用超过100个,这些活跃应用中不仅有右上角讯飞应用,还有即将发布的语音助理,还有第三分应用,这些第三分应用也非常精彩,比起官方的语音产品毫不逊色,比如说语音360现在访问的比率基本上是仅次于讯飞语音输入法。

从技术上看一下语音云:这个是网络架构,在图片的左边是用户设备,看到我们支持的用户设备是多种多样的,有PC、有手机,有智能电视,还也其他导航设备,更有一些甚至连我叫不上名字的智能工作终端,右边是我们的服务器平台。这是我们云计算的从逻辑上看的一个逻辑架构。首先最上面这一层是工作在用户端的,这一层可以分为两个子层,最上面就是用户的应用软件,第二层就是我们讯飞语音云的客户端组件,就是用户使用我们讯飞语音云的代理,从上面往下数第三层是实际提供服务的这个最核心的部分,主要用完成语音的合成,完成语音的识别,还有就是声文和手写,最下面是基础架构层,进行存储,还有就是实施监控,当前网络状态是不是健康和可使用的,还有一些自动报警系统。

如何去使用语音云?

介绍完了架构,然后估计开发者最关心的就是如何去使用语音云,所以现在我们的焦点转到使用讯飞语音云的代理这样一个SDK,它的名字叫MSC。简单来说它有四大功能,分别用来完成数据的收集和加工,另外就是处理消息的,用来打包构建、解析消息还有发送,就是用来完成与服务之间的消息交互。通过刚才的网络架构图,我们大家也能看到,这个客户端组件工作的环境是比较复杂的,形形色色,然后这决定了客户端组件它有这么几个特性,其中一个最重要的就是说用户设备所处的网络环境比较差,很多都是通过无线网络连接到服务器的,而无线网络是不稳定的。第一个要解决这个问题。就是交互效率要高,而且交互的数据量要尽可能少,因为交互的数据量少了成功率就高了,对于断网这些异常进行正常的处理。

第二个就是这些设备都是嵌入式设备,资源比较金贵,决定了第一就是客户端工作组件不可能做的太复杂,个头要小,效率要高。这个环境复杂多样,这个复杂多样不仅是指设备的形形色色,更重要的是它工作的平台也是多种多样的,Andriod平台,还有iPhone平台,就是这个组件要在不同的平台之间方便进行移植。为了解决这些问题我们首先来看,如何对付它的网络环境比较差,首先第一个建立一个回话连接服务器的时候,我们在短时间之内每隔一秒发一个链接请求,提高了链接效率。第二个我们有内部服务器切换功能,可以切换另外一个服务器上。第三是链接异常中断,只支持短连接网络等问题,关于这一路回话的信息它还是在,所以只要链接恢复业务还是可以正常进行的,把连接进行正常恢复,让用户感觉不到中间曾经出过问题。

还有CMWAP网络,经过服务器中转消息会断续,所以在应用层加入了对消息的排序机制。为了减少数据量我们从两方面着手,第一个就是使用了超精简的协议,比标准的CDP协议精简不少,第二个就是音频启用压缩,码率可以动态切换。

音频处理的原理:下面我们就是看一下关于音频处理的原理东西,首先就是端点检测,第一个必要性是减少数据量,就是前端点之前和后端点之后的静音数据可以不发送的。再就是用户也少了一个按键这样一个动作。他的原理主要是类似于一个求绝对积分的过程,主要是原理是这样的,根据能量值的变化判断当前是否有有效的云。

第二个就是降噪,噪声处理,必要性是显然的,为了提高识别率,它的原理主要是从频率上进行处理的,先取一段背景噪音,然后做一下变换,在频补上进行一个音频的补偿,可以达到消减噪声的目的。

安全问题:下面一个就是任何一个云计算应用永远无法回避的问题就是安全问题,在安全机制上我们使用了两种,第一种对于部分敏感信息进行加密,第一个回话信息,第二个用户的敏感数据,这西面包括ID用户自己的合成文本、上传和下载的数据用户不希望其他人看到的,对这一部分数据进行加密也是非常必要的。

第二种就是可以走一个安全的HTTPS,就是在传输之前用RC4加密算法对要传输的报文进行加密。

客户端组件提供了哪些接口以及开发的时候注意哪些要点?

我们看这个接口比较相似,前两个接口用来完成初始化和异初始化,这是最核心几个接口,除了这一组接口之外,还提供了一些辅助的接口完成辅助的功能。比如说在合成的过程中有时间需要实时跟踪的音频这个位置信息也是可以获取到的。有时间为了现实当前输入的语音是不是被系统检测到了有有效的语音了,可以获取音量信息。

(责任编辑:laiquliu)

关注技术,信息,资源,扫描来去留网微信二维码交流。

来去留我李俊

搜索

------分隔线----------------------------
相关栏目

热点推荐
来去留技术信息资源
来去留网为您提供平台咨询交流学习方法及各类热门技术;电器,服装,保健,行业快讯等二十几个类别的资讯