文
李雨晨
来自雷锋网(leiphone-sz)的报道
医学影像是人工智能重要的发展方向之一,业界争相入局的同时也吸引了很多知名学者参与其中,并已出现了很多引人注目的成果。一年以来,国内外很多团队都声称自己利用AI技术在疾病诊断的正确率超越人类,斯坦福大学吴恩达等人提出的CheXNet算法便是其中之一。此前,雷锋网对该团队研究成果进行过相关报道:《吴恩达团队发布最新医学影像成果,用CNN算法识别肺炎》。团队曾表示,该算法在识别胸透照片中肺炎等疾病上的准确率上超越了人类专业医师。
然而,另一群学者对目前的一些研究成果产生了怀疑。
本文作者LukeOakden-Rayner就是其中之一,他是阿德莱德大学的放射科在读博士。他认为,目前的ChestXray14数据集不适用于训练医学人工智能系统进行诊断工作。(ChestX-ray14是目前最大的开放式胸透照片数据集,包含14种疾病的10万张前视图X-ray图像)
为了证明自己的观点,LukeOakden-Rayner博士将在本文中讨论了以下几个问题:标签的准确度;标签的医学意义;标签对于图像分析的重要性。
本文对LukeOakden-Rayner博士的文章进行了不改变原意的编译
ChestXray14数据集来自于论文《ChestX-ray8:Hospital-scaleChestX-rayDatabaseandBenchmarksonWeakly-SupervisedClassificationandLocalizationofCommonThoraxDiseases》,自首次发布以来,该数据集的论文和支持文档已经更新过多次。
在我看来,该论文需要花更多的时间解释数据集本身,因为该数据集的大量使用者是计算机科学研究人员,在缺乏临床知识的情况下,这种需求就显得尤为重要了。然而,这篇论文主要介绍的是文本挖掘和计算机视觉任务,其中有一个图表展示了数据集中标签的准确性。
其中展示的原始结果(上半部分)是在公开的OpenI数据集上进行测试的,不仅包括报告,也有人工打上的完整标签。而列表中下面的部分是ChestX-ray14自己的数据。研究人员随机选择了份报告,并由两位注释者进行标注,他们共同分类了其中的14种疾病。据我所知,这些注释者并没有直接检查图像。
数据体量的限制会让误差变大(如果一个类别中的样例数量为10-30,只有一个错误,那么95%置信区间的阳性预测值会在75%-88%)。但如果允许一些偏差值,每个标签看起来准确度都在85-99%,至少准确反映了报告结果。
但不幸的是,似乎标签无法准确地反映病况。NIH团队没有表明他们看过这些图像,他们通过测试标签是否匹配报告文本来判断图像标注过程的优劣。我认为这种分离导致了我所提出的标签质量问题。
有很多方式可以在不需要图像的情况下构建图像标签。如ICD编码,或者从报告或其他免费文本中提取标签;还可以使用增补数据(follow-updata)。在深度学习中,我们查看训练曲线、检验梯度、尝试在没有正则化的情况下训练来测试是否产生过拟合。查看这些图像是放射学的完整性检查——查看图像,确保它们和期望的一样。
我通常10分钟看完张图像以完成“完整性检查”的初级阶段。
第一部分:ChestXray14数据集中的图像标签准确率
接下来要说的是一堆基于数据集标签的图像。它们是随机选取包含18张图像的序列集。
我的标签并不完美,其他放射科医生可能对其中的一些标签有疑惑。但是必须明确一点,我的标签和论文/附录中的结果有极大的不同。
我通常喜欢硬数据,因此我尽力量化标签准确率。事实上我发现其中的很多标签都很难定义,因此下表中未列出。我查看了每个类别中的多张图像,根据我的视觉判断计算原始标签的准确率。这个数据量比较适合使用,因为95%的置信区间可能再扩大/缩小5%,所以我的误差率可能达到20%左右。
我的视觉分析vs.论文中的文本挖掘结果
我再次怀疑我的标签到底对不对,尤其是和胸部放射科医生的判断结果相比,但是如上表所示,差别也太大了。我认为上表中的数据证明这些标签无法匹配图像中显示的疾病。
也有办法解释这种现象。比如最初帮助解释图像的放射科医生具备图像以外的信息。他们具备临床经验、之前的诊疗结果等。这些信息非常有用,尤其是在区分类似疾病的时候。
如果人类专家无法仅从图像中做出诊断,那么AI系统很可能也无法诊断。AI可能能够找出一些人类忽略的细微证据,但是凭借这些就可以产生性能上的巨大差异并不合理。总体来看,我们需要标签和图像包含同样的信息。
第二部分:标注在医学上意味着什么?
标注实际上代表什么?它们能够反映临床实践吗?我认为答案是否定的。
我认为最难解析的标签是固结/渗透/肺不张/肺炎集聚等。这些医学影像还存在其它问题,与任务的临床价值有关,例如渗出(Effusion)、气胸(Pneumothorax)、纤维化。例如,气胸在X光影像上非常微小,经常会被人忽略掉,或者纤维化的标注准确率非常低。实际上还有多种其它非图像临床问题,例如:
肺炎、肺气肿和大多数纤维化都是临床诊断问题而不是医疗影像问题。
X射线会漏掉多达50%的囊肿,因此我们可能会怀疑报告所采用的囊肿标注。
没有人关心间断性疝气,所以它们只是有时候进行诊断。
找到那些优秀的数据集或正确的标签来学习高效的医疗任务是十分困难的。同样,我们还是需要专家查看这些影像来进行医疗诊断。
第三部分:医学图像对图像分析有什么好处?
放射学的深度学习应用有一个大问题,如果不查看图像,后果将非常严重。如果这些标签很不准确,并且标签的意义也不可靠,那么建立在这个数据集上的模型是如何达到不错结果的呢?模型学习的到底是什么?
实际上,我们在寻找可以学习正确地在测试集上输出真实结果的模型,即使所谓的真实结果在视觉上毫无意义。
来自CheXNet的结果:使用深度学习模型(RajpurkarandIrvinetal.)在胸透图上进行放射专家级的肺炎检测,在测试集上获得了不错的性能。
随机噪声可以作为不错的正则化项,甚至还可以在某些设置中提升性能(这种技术被称为标签平滑或软标签)。结构化噪声不一样,它添加了完全不同的信号,而模型将尝试学习这些信号。
在一个包含坏标签的训练集中,神经网络将把这些标签看成同等有效的肺炎样本。如果模型学习了这些标签,例如,「毛茸茸」是肺炎的一个信号,然后模型将应用这个信号到胸透图中,输出无法预测的结果。
模型将使用部分从狗类图像中学习的特征,并应用到胸透图中,尽管这和问题本身无关。
如果你的目标是性能最优化,那么结构化噪声总会带来负面影响。噪声甚至不需要很明显(其中的关系是非线性的),而偏差标签将降低模型的准确率。
Rolnich等人《Deeplearningisrobusttomassivelabelnoise》的结果表明,结构化噪声破坏了标签,并使得性能下降。当噪声与实际数据来源相同时,这个问题可能更麻烦,因为模型会混淆噪声与类别。这可以类推到ChestXray14数据集中,它们的标签同样遭到了破坏。
所以,这些标签会损害模型的性能。那么为什么在ChestXray14上训练的模型有非常好的性能?难道是这些模型可以补偿数据噪声而变得鲁棒性吗?
我并不这样认为,我们需要