如今,机器学习已经真正成为商业词汇中的重要组成部分,并为众多企业带来了广泛且可观的潜在发展空间。2017年,在经历了此前的一系列本可避免的挫折之后,我们预计机器学习生态系统将最终开始向正确的方向推进。
“分析时代”目前仍处于起步阶段,它为我们带来众多值得期待且为之兴奋的构想与承诺。在今天的文章中,BigML公司副总裁AtakanCetinsoy将披露2017年中他眼中的机器学习技术及相关生态系统发展趋势。
每一年结束时,技术专家们总会着眼于新的十二个月,思考其熟知的技术方案将在下一阶段迎来怎样的变化趋势。在BigML公司,我们结合2016年中机器学习技术的发展与演变,尝试解析其在新一年内的未来前景。
首先需要强调的是,企业需要吹散围绕在机器学习概念周遭的炒作迷雾,探索将其切实引入自身业务体系的有效途径。更具体地讲,企业需要通过严谨决策立足内部环境选定平台,并逐步建立规模较小且易于实现的机器学习项目,从而尝试利用自有数据集。随着时间推移,此类增量型项目将带来积极的反馈,并最终实现决策自动化,甚至帮助敏捷性机器学习团队彻底改变其所在行业的运营常态。
按照惯例,我们首先回顾机器学习技术在实际应用层面的发展历程:
机器学习已经形成一种不可逆转的历史性趋势,我们需要立足于此考量如何进行跨部门日常事务处理并将自身业务与市场整体经济状况加以结合。
在36年的发展历程中,众多企业一直在努力消化、采用并从机器学习技术的发展进步与相关最佳实践中获益。然而,鲜有企业能够真正将其转化为自身业务优势。
出现了一大批所谓“新晋专家”,他们只读过几本相关书籍或者参加了几堂网络课程,就开始堂而皇之地借助廉价资本“改变”世界。与此同时,众多顶级科技企业则在尽可能“招募”真正了解机器学习技能的人才,希望借此为蓬勃发展的AI经济储备能量。
另外,相当一部分立足机器学习领域诞生的初创企业则胸怀“独角兽”雄心踏上征程,然而必须承认,他们自认为能够利用神奇的新型机器学习算法实现的通用型、低成本、可扩展解决方案往往只是种一厢情愿。
2017年,在经历了此前的一系列本可避免的挫折之后,我们预计机器学习生态系统将最终开始向正确的方向推进。
在开始讨论具体预测之前,还需要强调点:2016年是极为重要的一年,因为在这一年中全球最具价值的五家企业史无前例地全部由科技企业充当。这五家公司皆拥有几项共通性特征,其中包括大规模网络效应、以数据为中心的企业文化以及建立在尖端分析模式之上的新型增值服务经济思路。
更重要的是,这些企业一直在宣传其理念与意图,并将机器学习视为其未来进化的重要支点。随着优步及Airbnb等独角兽企业的加入,科技行业在世界经济中的主导地位很可能在未来几年中继续保持,而这也将受到世界经济大规模数字化转型浪潮的强势推动。
不过,这又提出了一个可能决定数万亿美元走向的新问题:传统企业(例如掌握着大量数据的非技术企业以及由大型企业部分解散并转化而成的小型技术厂商)该如何适应并成为这一新兴价值链中的组成部分?它们又该如何在生存之余,在新的时代下茁壮成长?
就目前来看,相当一部分企业都坚持以僵化且经验指导性思路理解商业智能系统、继续采用陈旧的工作站类传统基础、利用简单的回归模式统计系统运行状态,这意味着其无法捕捉到现实生活中反映出的具体趋势,更遑论准确预测用例的复杂性。
与此同时,这些企业面对着大量专有数据得不到充分利用的困境。根据麦肯锡全球研究院发布的《分析时代:数据驱动型世界下的竞争》报告所言,其曾在2011年报告中提到的现代分析技术至今仅实现了不足30%,这还不算过去五年来涌现的各种新型技术方案。
更糟糕的是,各行业间的数据技术发展态势呈现出严重的失衡现象(着眼于美国,医疗卫生行业的数字化技术采纳度低至10%,而智能手机领域则高达60%),这意味着已经出现了前所未有的分析能力与竞争水平分化态势。
尽管实际情况还达不到各大供应商及研究企业的宣传水平(例如‘认知计算’、‘机器智能’甚至是‘智能机器’等炒作性概念),但机器学习已经真正成为商业词汇中的重要组成部分,并为众多企业带来了广泛且可观的潜在发展空间。这种巨大的机遇意味着将有更多传统及初创企业在2017年开始自己的机器学习探索之旅。睿智的企业会努力从失败案例中汲取经验教训,并利用新型技术成果扩大自身竞争优势。然而考虑到人类在面对新兴事物时表现出的一贯愚蠢与保守态度,我们将以较为悲观的态度探讨以下十项发展趋势:
预测一:机器学习将成为实现“大数据”的重要途径
大数据运动中的种种教训还将反复重演,而技术专家们也将从中意识到只有将多种具备实用性的“大数据”解决方案加以结合方能实际其既定目标。
总体而言,“大数据”代表的是能够昭示未来的数据,就这么简单。Gartner公司最近已经在其炒作周期报告中将“大数据”条目剔除,这意味着其已经正式步入实施阶段。这一切都将高度强调分析能力的重要意义,特别是机器学习在引导客户利用智能化应用涉及数据技术相关项目中扮演的重要角色。另外,以往饱受诟病的样本分析方案将成为一类重要工具,帮助企业探索出此类应用场景下的新型预测性用例。
预测二:风险投资公司仍将积极为基于算法的初创企业提供资助
风险投资公司仍将继续处于摸索与学习状态,且整个学习过程相缓慢而艰难。风投将继续为具备亮相学术沉淀的算法类初创企业提供资助,而无视由其带来的种种误导性甚至幻想性言论。例如将机器学习作为深度学习的代名词,而完全无视机器学习算法与机器学习模型乃至模型训练与已训练模型预测结果之间的巨大差别。对于相关学科的深入理解将作为一项历史性难题存在,且整体投资行业对此的重视程度依然不够。不过值得肯定的是,已经有一小部分风投类企业开始意识到机器学习发展所将带来的巨大发展平台。
预测三:机器学习人才仍将成为炙手可热的稀缺资源
媒体对于AI及机器学习技术的鼓吹与渲染,将使得相关技术人才继续成为市场的宠儿,而相关投资将被大量集中在年轻学者手中。不过残酷的现实告诉我们,绝大多数算法并不具备广泛适用性,而且其中相当一部分仅仅是在原有基础上做出了少许改进。作为直接结果,大多数机器学习算法都将仅被视为噱头以及疯狂招募相关技术人才的理由。在部分最糟糕的场景下,买方甚至不具备明确的分析技术发展思路,而仅仅是像追随任何一种时代潮流那样关注AI/机器学习技术。
预测四:大多数机器学习相关项目仅停留在PPT演示阶段,而无法带来理想结果
传统企业的高管层将积极雇用咨询公司以帮助自身建立起自上而下的分析战略以及/或者制定复杂的“大数据”技术组件构成方案,然而他们对于洞察结论的可行性以及确切的投资回报水平并没有正确的认识。其中部分原因在于实施数据分析技术的正确数据结构及灵活的计算基础设施当下并不难获取,而且经过36年的持续积累,如今机器学习在廉价计算资源的支持下已经不再是高不可攀的实验室产物。
预测五:深度学习在商业领域的成功范例将寥寥可数
深度学习的各类知名研究成果,例如AlphaGo将继续吸引媒体关注。然而,以语音识别与图像认知为代表的实际应用方案才是真正的发展驱动力,其将帮助这一技术在企业环境下机器学习场景中发挥切实作用。难于解释、高水平技术专家稀缺、高度依赖大规模训练数据集以及极高的计算资源配置需求都将制约深度学习在2017年年内的发展态势。
就目前的情况看,机器学习技术与马球运动颇有几分相似,其能够为您带来与富豪及名人交流的机会,亦能够让您的企业瞬间逼格爆棚,但随之而来的还有昂贵的马术训练服务、保养成本、设备购置开销以及昂贵的俱乐部会费。因此相较于缺少显著研究突破上与独特优势的深度学习,企业通常能够通过关注增强学习及机器学习技术获得更快且更具现实意义的结果。
预测六:基于不确定性的原因与规划性探索将推动机器学习走向新高度
机器学习本身只是AI的一小部分。相当一部分初创企业开始立足不确定性为相关原因与规划性探索工作提供研究应用,而这将切实帮助我们在模式认知之外找到新的技术拓展空间。Facebook公司的MarkZuckerberg就在损害一年的AI/机器学习研究工作之后,拿出了他自己的个人智能化助手“Jarvis”——其基本特性与《钢铁侠》电影中的虚构智能管家大体类似。
预测七:尽管机器学习的部署范围持续扩大,但人类仍将在决策工作中扮演核心角色
部分企业将初步部署速度更快且采取循证性决策方式的机器学习方案,但人类仍将在决策工作中扮演核心角色。智能化应用的早期落伍将集中在特定行业内,但差异化监管框架的存在以及严格失衡的分析能力状况将在经济层面给创新性管理方法、竞争压力、复杂性客户需求、高质量体验及其它一些价值链因素带来相互矛盾的指引意见。
尽管如今机器学习乃至人工智能改变未来的言论甚嚣尘上,但冷静的技术领导者非常清楚,真正的智能系统还需要很长时间才会真正出现。与此同时,企业将慢慢学会信任自己的模型及其预测结论,并意识到此类方案确实能够在多种任务领域带来超越人类的表现。
预测八:敏捷性机器学习将悄然成为AI营销中的主力军
更具现实意义且更为敏捷的机器学习采用方式将悄然在新的一年中占据主导地位。实施团队乐于亲自动手并充分利用丰富的企业数据储备,同时亦能够完全绕过“大数据”相关炒作宣传。他们更为务实,希望利用最具针对性与适用性的预测性手段通过成熟的算法配合小规模采样数据解决问题。
在这一过程中,他们将逐步建立对自身分析能力的信心,在实际产品中部署相关方案,同时添加更多可行用例。由于不再受到数据访问问题与部署工具复杂性的制约,他们能够真正利用数据技术提升核心业务,同时积极尝试风险与回报更高的实验性手段,考虑以预测性用例作为全新品牌营收来源的实现途径。
预测九:MLaaS平台将成为传统企业中机器学习采用工作的“AI主干”
MLaaS平台将在加速敏捷性机器学习实践领域成为“AI主干”。以此为基础,以MLaaS基础设施为根基的新一波应用浪潮将令商业性机器学习方案的实现成本进一步降低,特别是通过以下几种方式实现机器学习“民主化”:
通过消除供应商合约复杂性或者前期投入额度显著降低成本。
提供囊括大量高效算法的预配置框架。
以抽象化方式帮助最终用户摆脱由基础设施设置及管理带来的复杂性因素。
通过RESTAPI及捆绑包提供轻松易行的集成、工作流自动化与部署选项。
预测十:无论是否拥有充足的数据科学家,开发者都将不断向所在企业引入更多机器学习因素
在新的一年中,开发者们将积极投向至机器学习阵营当中——无论企业是否已经具备充足的数据科学家及其他相关人才储备。开发者们将立足于MLaaS平台快速构建并扩展此类应用,并借此对高难度细节问题进行抽象及剥离(例如集群配置与管理、任务队列以及监控与分发等)。“即服务”类方案的普及将允许开发者仅通过精心设计与良好记录的API即可实现机器学习技术应用,而不再需要了解LR(1)解析器以编译并执行其Java代码,或者掌握信息增益或威尔逊评级机制以实现基于决策树的预测性用例。
目前,我们仍处于“分析时代”的早期发展阶段,因此大家应当对光明的未来保持振奋的心态,而非被过去的一些小挫折所打倒。虽然我们在本篇文章中提出了不少相当悲观的预测观点,但这纯粹是为了帮助被兴奋冲昏头脑的朋友们冷静下来,意识到业务成功、数学奥秘、软件与管理最佳实践以及数据科学实现能力之间尚待跨越的鸿沟。