欢迎光临
我们一直在努力

从搜狗输入法到搜狗听写 自然交互领跑AI应用落地

语音识别,虽早已不是新鲜技术,但实现语音实时转换成文字的听写转录,却成了人工智能领域垂直场景落地的新突破点。近日,搜狗推出转录、速记“神器”——搜狗听写,从搜狗输入法的语音识别“进化”到搜狗听写,AI应用逐渐“飞入寻常百姓家”,自然交互也领跑着AI场景化落地。

从搜狗输入法到搜狗听写 自然交互领跑AI应用落地

当2006年搜狗输入法正式上线时,用户正处于键盘输入的黄金时代;2011年,搜狗开始前瞻布局自己的语音技术,并在一年之内快速产品化。从键盘到触屏,再到语音输入,搜狗输入法在“人机交互”方式上不断积累着经验,用嘴打字也逐渐从时尚变成用户习惯。

语音是人类交流、人机交互最自然的方式,它同样也被认为是开启人工智能时代的起点。搜狗公司作为国内AI能力最强的互联网公司之一,早已建立了强大的语音自研团队,拥有目前互联网规模最大的语音数据。统计显示,搜狗输入法单语音输入日频次已达2.6亿次,比一年前增长80%以上。通过大规模的优质语音训练数据和深度学习的技术能力积累,搜狗也将这种语音识别的技术优势转化到了更多的适用场景中。

从搜狗输入法到搜狗听写 自然交互领跑AI应用落地

从技术上来看,搜狗听写产品的关键在于语音识别准确率,据了解,搜狗听写使用了搜狗输入法的长时语音转写技术,从立项到现在,错误率已经下降了30%。在声学模型方面,采用了端到端深度神经网络技术Deep LC-CLDNN+CTC技术,转写模式则使用了Deep CNN+CTC的方式,语言模型基于T级海量输入法文本数据使用神经网络进行建模。

搜狗听写的识别准确率已达到国际领先水平,语音输入比键盘打字更快、更方便、更准确。但AI的应用过程并不完全是技术导向,而是场景驱动的产品导向,重点在于如何深入用户需求、怎样更多地结合使用场景,只有把需求和场景结合起来才能成为好的AI产品。在语音领域,搜狗最先意识到,产品落地需要场景驱动,在垂直化场景中,AI才能真正为用户所用。

在具体的应用场景上,搜狗听写针对用户使用的不同环境,如开会,写小说等场景进行优化,识别效果较通用效果提升15%以上;针对图书馆、咖啡厅等不便于大声说话而又有使用语音的场景,提供耳语识别技术,在人的说话音量低至30分贝时,依然可以准确识别。搜狗听写作为一款多场景的语音听写工具,大大提高了用户生产力。

从搜狗输入法的语音识别能力延伸到搜狗听写,自然交互改变生活的大幕逐渐拉开。未来,语音技术在各种应用场景中还有大量机会,比如在智能家居的场景,我们希望回家以后可以使用语音和电视、遥控器、音箱、窗帘等讲话。不仅是智能家居应用场景,而且在更多的垂直化应用场景中,如车载、医疗、教育等环境,语音带来的人机交互变化将深刻改变我们的生活方式和习惯。

人类对于人工智能的终极描绘,始终是同人一样进行自然的语言交流,这也是搜狗人工智能的发展目标。对于搜狗输入法,AI也赋予了它更多的未来,在搜狗的概念中,使用输入法时机器能更好地理解人的意图,从而推送相关联的信息、衍生内容,未来,搜狗输入法的辅助对话将帮助人类在机器时代更好地进行交流。

从输入法到搜狗听写再到辅助对话,搜狗通过AI技术对人的自然交互进行了延展,提高了设备的便利性、及时性,拓宽了实用场景并增加了交互纬度,搜狗一直在做的就是帮助用户“表达和获取信息更简单”,将人工智能技术发展聚焦在语言领域,自然交互领跑着AI应用落地。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。