深度学习核心技术精讲100篇（八十）-脏数据如何处理？置信学习解决方案

前言

在实际工作中，你是否遇到过这样一个问题或痛点：无论是通过哪种方式获取的标注数据，数据标注质量可能不过关，存在一些错误？亦或者是数据标注的标准不统一、存在一些歧义？特别是badcase反馈回来，发现训练集标注的居然和badcase一样？如下图所示，QuickDraw、MNIST和Amazon Reviews数据集中就存在错误标注。

为了快速迭代，大家是不是常常直接人工去清洗这些“脏数据”？但数据规模上来了咋整？有没有一种方法能够自动找出哪些错误标注的样本呢？基于此，本文尝试提供一种可能的解决方案——置信学习。

本文的组织架构是：