日前,今日头条人工智能实验室凭借“互联网信息摘要与机器写稿关键技术及应用”项目荣获吴文俊人工智能技术发明奖。“吴文俊人工智能科学技术奖”被外界誉为“中国智能科学科技最高奖”,代表中国人工智能学界的重大突破与最高荣誉。
评委方认为,今日头条该项目在以下方面取得了较大突破:一是发明了多文档摘要自动提取方法;二是设计了一种全新的图注意力神经网络生成模型,实现文本新闻概括和摘要生成;三是发明了跨语言摘要方法,实现了英文文本新闻的中文摘要生成;四是通过融合体育领域知识进行智能语句筛选,可实现高质量长篇新闻报道的实时生成。
基于相关成果,该项目发表国际顶级的ACM/IEEE Trans.期刊和CCF A类长文40篇,获得ACL2017杰出论文奖,申请发明专利22项。
据悉,该项成果已于去年以头条号xiaomingbot的形式在今日头条上线,至今已创作超过两万篇文章。在里约奥运会期间,今日头条自动写新闻机器人xiaomingbot创作200余篇赛事报道,累计获得200W用户阅读。其撰写速度与电视直播同步,文章内容涵盖比赛时间、实时比分、运动员信息等主要新闻要素,并且可以自动完成插图。
奥运会后xiaomingbot还在持续撰写NBA、CBA、中超、意甲等体育赛事的文章,包括很多场冷门比赛,xiaomingbot也均有报道。根据今日头条统计,xiaomingbot文章的阅读率与人类创作者基本持平。
近期,xiaomingbot已完成最新一轮升级,除体育新闻,xiaomingbot撰写的文章现已涵盖科技、财经、房产等十几个分类,并可实现多领域每日热点新闻的自动创作。据记者了解,xiaomingbot已与光明网、《财经》杂志、大河报等主流媒体达成战略合作,向其进行优质内容输出。
据了解,机器写稿与信息摘要背后的核心技术是自然语言处理,同时会涉及机器学习、数据挖掘、深度学习、知识图谱等多项技术。自然语言处理是人工智能领域难度最大的课题之一。相对于语音和视觉来说,语言是高度抽象化的表现。一方面,人类语言具有复杂性,同一句话可能代表不同含义。另一方面,正确理解人类语言还要有足够的背景知识,比如对成语和歇后语的理解。这些都是自然语言理解进一步发展需要克服的难题。
今日头条人工智能实验室总监李磊博士表示,xiaomingbot的意义在于,一方面能够更大程度的满足长尾的资讯获取需求,另一方面,一些消息类报道使用机器人写作,能使记者从疲于奔命式的抢新闻中解脱出来,对事件背后的新闻线索进行深入挖掘和批判性地思考。