数据集拥有自己的世界观吗？

inkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif; letter-spacing: 0.544px; text-align: justify;">伴随深度学习的不断日常化，数据集中的偏见（bias）和公正性（fairness）已经成为一个热门研究方向。

portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />

portant; overflow-wrap: break-word !important; font-size: 15px;">偏见在AI领域是一个很棘手的话题：有些偏见是有益的，例如噪声数据可以增加模型的鲁棒性，有些偏见是有害的，例如倾向对有色人种识别错误。

portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />

portant; overflow-wrap: break-word !important; font-size: 15px;">而且，当我们得到一个不完美的模型的时候，其中的数据集到底存在什么偏见？这些偏见是如何产生的？

portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />

portant; overflow-wrap: break-word !important; font-size: 15px;">谷歌的PAIR （People + AI Research）团队最近发表了一篇博文，用一个很简单有趣的例子讨论了这些问题。

portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />

portant; overflow-wrap: break-word !important; font-size: 15px;">1、portant; overflow-wrap: break-word !important; font-size: 15px;">有偏见的分类
portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />
portant; overflow-wrap: break-word !important; font-size: 15px;">假设我们拥有如下所示的不同形状的数据集，它们对应的标签是有无阴影，如下图。
portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />
portant; overflow-wrap: break-word !important; font-size: 15px;">利用页面上的交互式分类器，可以分类出如下的结果，并得出相应的准确性。
portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />
portant; overflow-wrap: break-word !important; font-size: 15px;">模型并不完美，为了对结果进行纠正，你可能想知道模型正在犯什么错误，或者，数据存在哪种类型的偏见？
portant; overflow-wrap: break-word !important; font-size: 15px;">2、portant; overflow-wrap: break-word !important; font-size: 15px;">公正性分析
portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />
portant; overflow-wrap: break-word !important; font-size: 15px;">由于各个图形的主要区别在于形状，一个可能的偏见存在于形状的差别。通过观察你可能认为三个最主要的形状主要是圆、三角形和矩形。为了证实这个假设，你要确信你的模型在面对圆、三角形和矩形的时候模型的表现能力的一样的。接下来我们来做公正性分析（fairness analysis）。
portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />
portant; overflow-wrap: break-word !important; font-size: 15px;">首先我们需要对每个的形状进行标注，但是一个问题是，有些形状并不能很肯定地确定是什么形状，这时候有两种策略，一是把这种形状判断为最有可能是圆、三角形和矩形（with their best guess)；一种是给出一个选项：上述三种形状都不是(as "other")。之后我们分析模型对于每一类形状的分类准确率。该交互式页面给了两种策略的结果：
portant; overflow-wrap: break-word !important; font-size: 15px;">策略一：寻找最有可能的形状：
portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />
portant; overflow-wrap: break-word !important; font-size: 15px;">第一种策略表明分类器对于矩形分类的结果最好，圆次之，三角形最差。不过这可以表明模型对三角形存在偏见吗？我们在页面上切换第二种策略。
portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />
portant; overflow-wrap: break-word !important; font-size: 15px;">策略二：上述都不是：
portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />
portant; overflow-wrap: break-word !important; font-size: 15px;">结果发生了变化！第二种策略则表明分类器对于三角形和矩形分类结果都最好，圆却最差。我们对于偏见的理解因为我们制定分类的策略不同而不同，换言之，每一种分类方式代表着采取不同的角度看待哪些是重要的分类特征。而决定数据集和最终模型决策的是你——制定策略的人。也就是每个数据集都代表一种“世界观”，其收集背后莫不代表着人的意志。
portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />
portant; overflow-wrap: break-word !important; font-size: 15px;">所以，再回过头来想想，还有哪些策略或者规则的指定可能会影响我们的对于公正性的判断？
portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />
portant; overflow-wrap: break-word !important; font-size: 15px;">对，我们当初对于分类的标准是依照形状，比如圆、三角形或者矩形，这也是我们人为定的标准，如果换成尖的“或者”圆的“呢？或者“小的”或者“大的”呢？下图给出了不同评价标准下，正确和错误分类的个体：
portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" />
portant; overflow-wrap: break-word !important; font-size: 12px; color: rgb(178, 178, 178);">图注：当类别标准是“尖的”或者“圆的”，以及其它模糊类别是“寻找最有可能的形状”的时候的分类结果
portant; overflow-wrap: break-word !important;" />

数据集拥有自己的世界观吗？

相关推荐

今日推荐

最新文章

热门文章