科大讯飞美国分公司总裁李春燕博士表示,随着对深度学习和人工智能技术要求日益提高,GPU在扮演越来越重要的角色。在NVIDIA推出Pascal架构的GPU平台后,科大讯飞第一时间应用NVIDIA Tesla P4深度学习进行训练,并取得了相对于CPU训练的50倍以上速度提升。
“原先需要两个月时间来完成的训练,现在只需要一天就能完成。”李春燕告诉记者。
李春燕介绍,科大讯飞从2013年便开始使用NVIDIA的K10 GPU平台进行相关人工智能产品的开发,目前科大讯飞在线日业务量过35亿人次,总用户数超过10亿,拥有30万家合作伙伴、是中文语音技术市场的领先者。目前,科大讯飞的全行业语音产品和人工智能产品在教育、客服、车载、智能家居、智能硬件、医疗等方面均有着广泛的应用。
“目前深圳有超过60%做机器人的公司,他们用的都是讯飞的方案。”得知记者来自深圳,李春燕如是说。
科大讯飞此次投入应用的Tesla P4具备超高的运算能力,主要将其应用于讯飞开放平台的深度学习推理,在语音识别的线上解码引擎上。相比起之前科大讯飞使用的M40,Tesla P4的并发路数提升了3-4倍,而功耗峰值降低至75W,仅相当于M40的1/2-1/3。
在性能优化上,科大讯飞也下了一番功夫。Tesla P4理论上能提供每秒22T INT8运算的计算峰值,在实际应用中,科大讯飞跑出了超过20T INT8运算的接近理论峰值的计算能力,这一结果让NVIDIA刮目相看。
“这是所有合作伙伴达到的最高数值。”NVIDIA全球副总裁、亚太区总裁Raymond Teh告诉记者。
Tesla P4运算能力的提升和计算并发路数的提升对于科大讯飞来说至关重要。前者有助于帮助科大讯飞提升训练时间,加快迭代的速度,后者可以大大提高云端服务响应速度。通过在训练和推理两端同时用GPU加速,不仅能够降低在线识别的成本,更能有效提升客户的体验。
据NVIDIA业务发展总监何涛介绍,Tesla P4是为了适应未来数据中心低功耗计算能力而设计的。GPU对于所有计算中心的计算能力管理至关重要,P4迎合了数据中心的需求,不仅在性能上有显著提升,体积更小,可以在同样空间中配置更多的GPU;功率降低,更重要的是可以用PCIE供电,无需额外电源,能够便于客户更灵活地管理计算能力。
“中国的传统机房一般是给一个恒定的能耗,如果用大(功率的)GPU不可能放很多。”何涛说。“这样的设计,特别适合中国。”他接着补充道。