近日,计算学部刘贤明教授团队在人工智能与医疗健康交叉领域取得重要研究进展,研究成果《Towards fairness-aware and privacy-preserving enhanced collaborative learning for healthcare》发表于《Nature Communications》。该成果针对医疗AI协作学习中的公平性失衡与隐私泄露难题,提出创新性解决方案,为构建可信、高效、普惠的智慧医疗生态系统提供了理论支撑与技术路径。

研究背景
在现代医疗环境中,AI技术被广泛应用于疾病预测、医疗影像分析、个性化治疗等方面。AI模型通常需要大量的患者数据来进行训练,这就涉及到数据共享和隐私保护的挑战。传统的集中式数据训练需要将所有数据上传至中央服务器,这在隐私保护方面存在巨大风险。为了应对这一挑战,联邦学习(Federated Learning, FL)应运而生,通过在各个数据持有方本地训练模型,只共享模型参数而非数据,从而有效保障了数据隐私。
然而,联邦学习的实际应用仍面临诸多挑战,尤其是计算资源差异带来的问题。不同医疗机构在硬件资源、网络带宽、计算能力等方面存在较大差异,导致其参与联邦学习的能力也大不相同。一些资源匮乏的医院,尤其是发展中国家的医疗机构,往往难以参与到大规模的联邦学习中,从而导致其无法从全球模型的训练中获益,甚至可能导致模型性能的下降。这种计算资源的不均衡,带来了隐性的算法歧视,进而可能加剧医疗AI在全球范围内的“数字鸿沟”,使得低资源地区的患者群体无法享受AI带来的医疗红利。
此外,尽管联邦学习提供了隐私保护的优势,但在传统的联邦学习框架中,仍然存在一些潜在的隐私风险。例如,攻击者可能通过对模型梯度的分析,进行所谓的“梯度反演攻击”,进而窃取参与方的敏感数据。如何在增强隐私的同时,确保参与方能够在计算资源不均的环境下公平地贡献自己的数据并获得收益,是联邦学习在医疗领域应用中的核心难题。

a. 发展中国家和发达国家的医疗机构在获取关键计算资源方面存在显著差异,资源预算通常与人口和社会经济因素相关,这加剧了医学和医疗协同学习中参与的不公平性。b. 提出的DynamicFL方案的工作流程。c. 保证公平的协作:比较在不同FL算法下,具有不同计算能力的客户端的测试准确率。DynamicFL确保各客户端测试准确率的一致性,从而促进训练结果分配的公平性。d. 隐私保护的协作:DynamicFL能够有效抵御梯度反演攻击,在涉及梯度泄漏的场景下,仍能实现增强的隐私保护能力。
方案概述:DynamicFL框架
针对上述问题,刘贤明教授团队提出DynamicFL框架,核心理念是动态调整参与方的计算任务,根据每个参与方的计算资源来灵活调整模型的结构,使其能够在资源有限的情况下充分利用计算能力,并确保所有参与方能够平等地贡献到模型训练中。通过以下几个创新点,推动了医疗领域AI的公平性和隐私保护进展:
-
资源自适应动态调整:DynamicFL框架根据各医疗机构的计算资源动态调整模型的结构。对于计算资源强大的医院,框架允许其训练更大、更复杂的模型;而对于计算资源有限的医疗机构,则采用适配性较强的小模型,确保每个参与方都能在自己的计算能力范围内充分发挥作用。这种方法有效避免了传统联邦学习方法中由于计算资源差异而导致的性能不均衡问题。
-
确保公正性:通过在每轮训练过程中动态调整各个参与方的模型结构,DynamicFL能够确保不同资源条件下的医疗机构在模型训练中的参与机会平等。无论是资源强大的医院还是资源匮乏的医疗机构,都会对最终全局模型产生平等影响,确保所有参与者的贡献能够在全局模型中得到充分体现。
-
增强隐私保护:传统的联邦学习方法虽然能够避免将数据集中到服务器,但仍然面临梯度反演攻击的风险。而DynamicFL通过引入更为复杂的梯度隐私保护机制,有效避免了梯度反演攻击,进一步强化了隐私保护。我们的框架通过将不同参与方的本地模型与全局模型的梯度信息进行分离,确保服务器无法通过梯度推断出本地数据,从而极大提高了系统的安全性。
实验与评估
为了验证DynamicFL的有效性,研究团队在多个医疗数据集上进行了广泛的实验,包括癌症生存预测数据集、X射线图像数据集以及血细胞分类数据集。实验结果显示,DynamicFL在这些数据集上的表现远超传统方法,尤其是在面对数据分布不均、计算资源差异大的非独立同分布(Non-IID)环境下,DynamicFL不仅提高了低资源节点的性能,还保持了模型的高准确率和公平性。
-
在癌症生存预测任务中,DynamicFL的准确率达到了87.37%,相比传统方法提高了5%以上。
-
在X射线图像分类任务中,DynamicFL的准确率为87.92%,显著高于其他方法。
-
在血细胞分类任务中,DynamicFL取得了88.64%的准确率,证明其在资源受限的情况下也能提供高效的训练结果。
总结与展望
通过引入动态模型结构调整和资源自适应训练,DynamicFL框架在保障数据隐私的前提下,实现了公平性和高效性的双重目标。该研究为医疗AI提供了一条更加公正、安全和高效的路径,特别适用于计算资源差异大的分布式协同学习场景。未来,研究团队希望通过进一步的优化,推动该框架在全球范围内的应用,尤其是在发展中国家的医疗机构中,帮助更多地区的患者获得公平、高质量的医疗AI服务。
---------------------------------------------------------------------
哈工大计算学部为论文第一作者和第一通讯作者单位。计算学部刘贤明教授与清华大学季向阳教授为论文共同通讯作者。刘贤明教授团队近年来致力于发展可解释、可通用、可信赖的新一代人工智能理论与方法,相关工作发表于Nature Communications、TPAMI、JMLR和机器学习三大顶会ICML、ICLR、NeurIPS等国际顶级期刊和会议。
该研究工作得到了国家重点研发计划、国家自然科学基金重大研究计划等项目支持。
论文链接:https://www.nature.com/articles/s41467-025-58055-3