迎接医疗保健人工智能偏见的挑战

　　基于人工智能的模型可能会放大数据集中预先存在的人类偏见；解决这个问题需要从根本上重新调整软件开发文化。

　　在基于人工智能 (AI) 的预测模型中，偏差（定义为不公平的系统错误）越来越受到关注，尤其是在医疗保健应用中。尤其成问题的是，由于错误在易受伤害、历来受到歧视或社会边缘化的群体之间分布不均而造成的不公平。

　　在本期Nature Medicine 中，Seyyed-Kalantari 及其同事1检查了三个大型公开可用的放射学数据集，以证明基于 AI 的胸部 X 射线预测模型中存在特定类型的偏差。他们发现，即使使用基于最先进计算机视觉技术的分类器，这些模型也更有可能错误地预测患者是否健康，如果他们属于服务不足的人群。换句话说，他们发现了诊断不足的偏见，这在伦理上尤其成问题，因为它会将已经服务不足的患者错误地归类为不需要治疗——从而加剧现有的健康差距。

　　作者发现女性患者、20 岁以下患者、黑人患者、西班牙裔患者和有医疗补助保险的患者（通常社会经济地位较低）以及交叉亚组的诊断率一直存在不足。他们指出，虽然在临床护理的几个领域已经发现了服务不足患者诊断不足的例子，但预测模型可能会放大这种偏见。此外，转向基于自动自然语言处理 (NLP) 的标签，众所周知，这种标签对代表性不足的人群存在偏见，可能会导致服务不足群体之间诊断不足的差异。因此，这项研究揭示了医疗保健中一种重要但研究相对较少的偏见类型，

　　作者提出了几项建议，通过在 AI 开发过程中的考虑来减少诊断不足。例如，他们建议应审核使用 NLP 的放射学报告的自动标记。他们还注意到公平（通过实现相等的假阴性率 (FNR) 和假阳性率 (FPR)）和模型性能之间的权衡。然而，在询问“为了实现平等而恶化一个子组的整体模型性能是否在道德上是可取的”的问题时，作者还明确地将这种权衡作为价值观和技术考虑之一。

　　临床医生的价值观反映在二值化指标 FPR 和 FNR 的选择上，而不是曲线下面积 (AUC)，后者优先考虑对临床决策最有用的预测类型。对于诊断测试，AUC 是一个单一的度量标准，例如，在所有诊断阈值（例如“良性”或“确定为癌症”）中，测试将正确排列有病变患者和无病变患者的可能性。然而，它平均跨阈值，即使是那些与临床无关的阈值，并且没有关于相对敏感性和特异性的信息，将它们视为同等重要。由于未能识别或考虑患者价值观而为错误任务优化 AI 模型的危险在医疗保健环境中非常线.人类诊断学家认识到错误分类成本的差异，并“谨慎行事”3。然而，不考虑现实世界影响以及对患者和临床医生重要的性能指标将具有误导性。此外，必须承认临床医生需要有关因果推断的信息才能采取行动，并且必须承认数据驱动模型提供此类信息的局限性4。

　　Epic Sepsis 模型 (ESM) 的示例突出了在不同开发阶段做出的决策的一些影响。该模型是 Epic Systems 的电子健康记录平台中包含的一个工具，用于预测败血症的概率。ESM 因其在某些卫生系统中的表现不佳而受到批评，其特征是“比开发商（Epic Systems）所报告的要差得多”5。然而，在发布6之前，开发人员既没有评估产品的实际性能，也没有跨人口群体进行测试. 此外，该模型的专有状态使用户难以独立评估。另一项批评是 ESM 使用了诸如种族和婚姻状况等代理变量，这是一种已知风险7的策略，需要对偏见或混杂进行明确评估。

　　什么影响驱动 AI 设计选择的价值观？Seyyed-Kalantari 等人的工作。图 1揭示了医疗环境在理解 AI 驱动决策的影响方面的重要性。上下文理解的关键是意识到医疗保健实践和交付中的已知偏见。然而，这种理解的潜力可能有限，因为医疗保健人工智能发展的主要参与者越来越多地来自在关键职位上缺乏医疗保健专业知识的科技公司8。具有医学、数据科学和工程背景的人之间的合作对于医疗保健人工智能的发展至关重要，可以将具有不同专业责任和价值体系的人们聚集在一起。

　　医疗保健和研究、计算机科学和软件工程的专业规范的影响因此在不断变化。鉴于缺乏围绕标准的共识或明确的监管框架来指导或强制评估安全性和有效性，在医疗保健 AI 中发展的开发人员文化，包括其价值观、规范和实践，将尤为重要。AI 开发人员能否应对确保 AI 开发的公平性和公平性以及实施 Seyyed-Kalantari 等人的建议的挑战？1，例如对已部署算法的稳健审计？医疗保健和研究的专业规范将如何与计算机科学和软件工程的规范相互作用？AI 开发团队是否包括对相关临床领域具有深入和特定知识的人员？AI 开发人员有什么动机可以超越报告 AUC，在选择性能指标或进行公平性检查时考虑临床因素？

　　致力于通过基于人工智能的模型解决服务不足人群的诊断不足问题，并采纳 Seyyed-Kalantari 等人的建议。和其他人需要的不仅仅是技术解决方案以及对开发和评估过程的修改。首先，我们必须承认，偏见不仅仅是可以消除的数据特征；它是由更深层次的社会和组织力量定义和塑造的9,10。例如，众所周知，使用社会建构和政府规定的类别（例如“西班牙裔”和“亚洲人”）进行数据分类会掩盖许多重要的健康差异11、12，然后由使用这些类别的 AI 模型延续。有必要对医疗保健应用软件开发的专业规范进行根本性的调整，承认开发人员对患者健康和福利的责任。速度、效率和成本控制的价值不能优先于透明、公平和慈善的价值。然而，对于解决偏见同样重要的是确定导致数据和人工智能建模过程中的不公平和不公正的社会和组织因素，以及广泛采用纠正它们的规范和实践。