AI Now 在其举办的 AI 专家年度研讨会邀请了一百多位相关领域的研究人员,会议讨论了 AI 对社会经济的影响,在会上,AI Now 发布了第二份 AI 年度研究报告。
虽然公众对 AI 抱有很高的期望,但我们也要注意到,快速推进将 AI 系统整合到高风险领域正面临着巨大的挑战。就拿刑事司法领域来讲,Propublica 团队及多名学者发现,法庭和执法部门用于预测刑事罪犯再次犯罪的算法,可能对非裔美国人存有相当显著的偏见。而在医疗保健领域中,匹茨堡大学医学中心的研究发现,一种用于治疗肺炎的 AI 系统缺少了一项对严重并发症的风险评估。教育领域中,德克萨斯州的教师评估算法存在重大缺陷,教师们因此起诉了他们所在的学区并获得成功。
上述这些例子只是冰山一角,没有提到的、尚未为人所知的例子还有很多。带来的一个挑战是,AI 行业目前缺少标准化的测试模式和审核方法,无法完全避免算法偏差来保障它们的安全性。然而,早期的 AI 系统正被引入多个领域,如医疗、金融、法律、教育以及工作场所。这些系统越来越渗入人们的日常生活中,用于预测人们的音乐爱好、生病概率、适合的工作以及借贷金额等等。
列举的这些问题并非蓄意滥用 AI 技术所致,而是因为在 AI 技术的使用过程中,没有用于确保安全性或者公平性的相关流程及标准,更没有深入思考它们带来的社会效应。众所周知,当新药上市前,必定经过严格的测试,并持续检测中长期的效果。在这类领域要慎之又慎,因为一旦出错,将会给人们造成重大伤害。对于高风险领域的 AI 系统亦如此。
AI Now 在这份报告中,为 AI 行业的研究人员和决策者提供了十项建议。需要注意的是,这十项建议并非解决办法,而是进一步工作的起点。尽管 AI 产品正在迅速发展,但对算法偏见和公正的研究尚处于早期阶段,如果想要确保 AI 系统能够被负责任地部署与管理,还有很多的事情需要去做。AI Now 表示,他们将致力于进一步研究,并进行广泛的社区分享。
十项建议
建议一
刑事司法、医疗保健、福利和教育等高风险领域内的核心公共机构不应再使用“黑盒子”的 AI 技术和算法系统,包括未经审查和验证的情况下使用预训练模型,采用第三方供应商授权的 AI 系统及内部创建的算法。
公共机构使用这类系统会引起公众对这类法定诉讼程序的严重担忧。这些系统至少要经过公共审计、测试和审查的流程,并遵守相应的问责制。
这带来了一个重大转变:这条建议反映了 AI 及相关系统已经对一些重大决策产生了影响。在过去一年,亦有不少可这一点作证的研究报告。人们也在朝向这个目标前进:从特克萨斯州教师评估诉讼案到 10 月份纽约市议会一项关于保障算法决策系统的透明度和测试的法案。
James Vacca,来自纽约市布隆克斯区的市议员,2015 年提出公开市政决策算法的提案。
建议二
在发布 AI 系统之前,企业应该进行严格的预发布测试,以确保不会由于训练数据、算法或其他系统设计的原因,导致系统出现任何错误及偏差的发生。
由于 AI 领域的发展日新月异,因此进行测试的方法、假设以及测试结果,都应该公开透明、有明确版本,有助于适应更新升级及新的发现。
AI Now 认为,开发系统并从中获利的公司应承担相应的测试及保障环节的责任,包括预发布版的测试。AI 领域离标准化方法还有很长的路要走,这也是为什么 AI Now 建议这些方法和假设需要公开审查和讨论的原因。如果假以时日,AI 领域制定出了健壮性测试标准,那么这种开放性至关重要。即使采用了标准化方法,实验室测试也未必能遇到所有的错误和盲点,因此也就有了第三项建议。
建议三
在发布 AI 系统后,公司应继续监控其在不同环境和社区中的使用情况。
监督的方法和结果应通过公开透明、学术严谨的过程来界定,并向公众负责。特别是在高风险决策环境中,应优先考虑传统边缘化社区的观点和经验。
确保 AI 和算法系统的安全性是非常复杂的问题,在给定系统的生命周期中需要保持持续的过程,而非做完就忘的短期检验。为了确保 AI 系统不会因为文化假设和领域发生改变时引入错误和偏差,因此需要对动态用例和环境进行监控。同样值得注意的是,许多 AI 模型和系统有通用性,其产品可能会采用即插即用的附加功能,如情感检测或者面部识别等。这意味着提供通用 AI 模型的公司也可考虑选择已经批准使用的功能,这些功能已经考虑过潜在的缺陷和风险等因素。
建议四
让 AI 系统应用于工作场所管理和监测方面(包括招聘和人力资源环节),还需要进行更多的研究并制定相应的政策。
这项研究将重点补充现有自动化替代工人的研究,要特别注意对劳动者权利和做法的潜在影响,尤其是要注意操纵的潜在行为以及在招聘和晋升过程中无意强化的偏见。
HireVue 成立于 2004 年,总部位于美国犹他州,是网络招聘的先驱之一,并一直致力于网上视频面试。但它不仅仅是利用网络摄像头帮助企业面试应聘者,HireVue 还可以提供招聘管理解决方案,帮助企业处理求职申请,并制定决策,而应聘者只需通过手机或电脑录制视频。
关于 AI 和劳动力的争论通常会集中在被迫流离失所的工人身上,这是一个非常严重的问题。但是,AI Now 也认为了解 AI 和算法系统在整个工作场所中使用的情况,也同等重要,包括行为助推(AI 前线注:行为经济学中的助推理论,通过解析人的认知行为,设计更人性化、有效的选择环境,影响人们的行为,帮助人们更好的做决策。该理论由 Thaler 提出,因此获得 2017 年诺贝尔经济学奖。)、到检测环节,再到绩效评估的所有过程。例如,一家名为 HireVue 的公司最近部署了一个基于 AI 的视频面试服务,用于分析应聘者的讲话、肢体语言和语调,确定应聘者是否符合一家给定公司的“最佳员工”的标准,由于这些系统可能会减少多样性并巩固现有的偏见,因此人们需要下更多的功夫去充分了解 AI 如何融入管理、招聘、调度以及日常工作场所的实践中。
行为经济学家 Richard Thaler 提出了助推理论,因此获得了 2017 年诺贝尔经济学奖。
建议五
制定标准,跟踪系统整个生命周期的起源、开发过程及训练数据集的使用情况。
为了更好地了解和监督偏差以及代表性偏差(representational skews)的问题,这条建议是非常有必要的。除却更好地记录训练数据集的创建和维护过程外,AI 偏差领域的社会科学家和测量研究人员还应该继续检验现有的训练数据集,并努力理解可能已存在实际工作中的潜在盲区和偏差。
AI 依赖大规模数据来发现模式并作出预测。这些数据反映了人类历史,但也不可避免地反映了训练数据集的偏见和成见。机器学习技术对于提取统计模式很拿手,但往往在概括常见案例的过程中忽略了不同的异常值,这就是为什么不根据数据表面价值进行偏差研究的重要原因。这种研究要从理解 AI 系统的数据从哪里开始,并寻踪这些数据在系统中如何使用,还要随着时间推移来验证给定的数据集。理解这一点,人们方能更好了解数据中反应的错误与偏差,从而开发出能在数据的开发和采集中识别这种情况并减轻其错误的方法。
建议六
超越狭隘的技术边界,跨学科发展 AI 偏差研究和缓解策略的研究。
偏差问题由来已久,是一个结构性的问题,解决这个问题的必要途径之一就是深度的跨学科研究。研究人员试图找出能够一了百了的彻底解决的方法,殊不知这严重低估了这个问题在社会层面中的复杂性。须知在教育、医疗保健、刑事司法等领域中,偏差问题和平等运动的遗产都有自己的历史和实践。不结合相应的领域专业知识,就不能彻底解决偏差问题。要解决偏差问题就需要跨学科的合作,并尊重不同学科的规律。
最近,AI 和算法偏差领域的工作有喜人的迹象,但 AI Now 提醒人们不要向壁虚构,否则,很可能会出现系统在不知道如何优化下却被“优化”的风险。计算机科学家可以通过与法律、医学、社会学、人类学和传播学等领域的专家合作,在 AI 数据形成及上下文集成之前,更好地理解数据地城的结构性不平等的问题。
建议七
亟需 AI 系统落地应用的审查标准与规范。
制定这些标准与规范需要结合各种学科及联盟的观点,制定过程要以公开、严谨的学术态度进行,并定期审查和修订。
目前尚无确定的方法能够衡量评估 AI 系统在其应用的社会领域中所产生的影响。鉴于目前尚处早期的 AI 系统已经给一些高风险的社会领域造成了影响,这是一个必须重视的问题,当务之急是制定 AI 领域的标准和方法。
建议八
AI 领域的公司、大学、会议及其他利益相关者应公布参与其工作的女性、少数族裔以及其他边缘群体的人数。
现在很多人认识到这一问题:目前 AI 领域研究人员缺乏多样性,但该问题的严重性缺乏细粒度数据的论证。为了建立真正包容的工作场所,需要对科技行业的工作文化进行更深层次的评估,这就需要数据的支撑,而不是仅仅多雇佣女性和少数族裔就完事。
创造 AI 系统的人本身持有的假设和观点势必会影响到 AI 系统。AI 的开发人员多为男性白人,有着相似的教育背景。目前已有证据表明这种情况会造成问题,如语音助手“听不懂”女性声音、AI 助手无法提供有关妇女健康的信息等。文化的多样性研究在一般科技领域有一定的进展,但在 AI 领域的成果却寥寥无几。如果 AI 要向安全、公平、能够广泛应用的方向发展,人们就不能只关注多样性和包容性,还要确保 AI 公司的文化是欢迎文化女性、少数族裔以及其他边缘群体的。
建议九
AI 行业应聘请计算机科学与工程以外的学科专家,并确保他们拥有决策权。
随着 AI 在不同的社会和机构领域的应用日增月益,影响越来越多的高风险决策,人们必须努力将社会科学家、法律学者和其他领域的专家结合起来,共同指导 AI 的创建与整合,形成长期的实践规范。
正如人们不希望让律师去优化深度神经网络一样,人们也不应该让 AI 研究人员能够成为刑事司法专家。同理,对于所有需要整合信息技术的其他社会领域亦如此。因此,人们需要法律、健康、教育等领域的专家参与进来,帮助领导决策,确保 AI 不会幼稚地低估该领域的复杂流程、历史和环境。
建议十
AI 领域需要严格监督和问责机制,确保 AI 领域弃旧图新。
旨在引导人力资源领域的道德守则应附有强有力的监督和问责机制。需要进一步开展工作,就如何将高层次的伦理原则和最佳做法准则与日常开发过程,促销和产品发布周期进行实质性联系。
一些计算机行业团体机构正在制定道德守则,以确保 AI 开发的安全与平等。然而,这些做法都是出于团队自愿,一般只有相对高端的组织才会将要求 AI 开发人员将公众利益放在较高的优先级。但是,共同利益如何决定?将由谁决定?除去由谁代表公众利益这一问题外,AI 代码在道德方面还要结合明确的问责机制,还须意识到 AI 行业在激励模式和权力分配方面存在不对称的情况。
译者感言:
AI 最大的问题是人们无法精确地解释 AI 系统为何做出那样的决定,没有办法解开它的盖子,窥视内部的工作场景,我们只能选择相信它。这就为我们带来了巨大的挑战。我们该如何相信 AI 呢?这也是全世界公众普遍担忧的问题之一。哈佛法学院互联网法律教授 Jonathan Zittrain 曾经说:“在技术帮助下,我们的系统变得越来越复杂,我很担心人类的自主性被减少。如果我们设置了系统,然后将其忘诸脑后,系统的自我演变带来的后果可能让我们后悔莫及。对此,目前还没有明确的道德层面上的考虑。”
如果我们能够制定行业标准和道德标准,并全面了解 AI 存在的风险,然后建立以伦理学家、技术专家以及企业领导人为核心的监管机制非常重要。这是利用 AI 为全人类谋福利的最佳方式。人工智能的潜力与威胁,其实一直都取决于人类自己。