医疗领域:合成数据、生成对抗网络、数字孪生的应用

PrimiHub一款由密码学专家团队打造的开源隐私计算平台,专注于分享数据安全、密码学、联邦学习、同态加密等隐私计算领域的技术和内容。

在医疗保健领域,每当研究人员想要用患者的数据进行大数据分析时,就不得不考虑患者数据的访问与保证数据安全之间的平衡。

以前我们没办法,现在我们有了隐私计算技术。

那么如何利用隐私计算技术呢?如何使用算法、架构和隐私计算技术结合,来确保数据的安全呢?

以前我们都是泛泛的讨论各类隐私计算技术是使用场景,比如联邦学习、差分隐私、数据清洁室等等,这次我们从算法和架构入手,详细介绍下合成数据、生成对抗网络和数字孪生技术在医疗保健领域的应用

综合数据的处理

隐私计算技术可以利用历史数据分布生成真实的数据集,从而帮助保护患者隐私。这些可用于增强现有数据源有增强小型数据集,或创建完全合成的数据集。这样做可以提高分析项目中使用的数据集的实用性和可用性。

根据麻省理工学院 (MIT) 的说法,合成数据被设计为具有与它们所基于的现实世界数据相同的数学属性,但不包含任何相同的信息。通过使用关系数据库创建生成机器学习模型,利益相关者可以生成第二个综合数据集。

合成数据的一些广泛用例涉及使用它们来减少偏见和改进人工智能 (AI) 模型,但它们也可用于保护敏感数据,这是医疗保健分析中最关心的问题。

根据今年早些时候在PLOS Digital Health上发表的一项研究,虽然研究人员仍然更喜欢真实世界的数据,但合成数据为弥合政策制定和研究中的数据访问差距创造了机会。

在其中,研究人员强调了合成数据在医疗保健中的七种潜在应用:模拟和预测研究;假设、方法和算法测试;流行病学和公共卫生研究;卫生信息技术(IT)开发;教育和培训; 公开发布数据集;和链接数据。

合成数据也被用来加速 COVID-19 研究。

医疗保健领域合成数据的潜力也引起了国家利益相关者的关注。

美国国家卫生信息技术协调员办公室 (ONC)于 2021 年发起了合成健康数据挑战赛,旨在鼓励卫生 IT 领域的创新者增强开源合成患者生成器 Synthea,或展示该工具的新用途数据。

为了增强 Synthea 为儿科人群、具有复杂护理需求的患者以及因阿片类药物使用而苦苦挣扎的个人生成高质量综合数据集的能力,ONC 率先发起了“生成综合健康数据以加速以患者为中心的结果研究”计划。

专家认为,合成数据是解决机器学习 (ML) 模型可以从匿名数据中识别患者特征(例如性别、年龄、血压、吸烟、糖尿病和 COVID-19 状态)这一事实的最有前途的解决方案之一。

合成数据还可以帮助实现数据集多样化并支持临床研究,同时确保患者隐私。

尽管有这些好处,但研究与医疗保健合成数据相关的漏洞的研究人员指出,恶意行为者可以利用这些数据传播错误信息,并通过虚假冒充视频(也称为深度伪造)欺骗面部识别软件。

此外,虽然合成数据可以帮助开发和改进基于人工智能的医疗设备,但其在当前修改医疗保健人工智能算法的监管框架中的作用尚未确定。这样做对于确保合成数据可用于保护患者隐私和改善临床决策至关重要。

研究人员指出,目前,医疗保健行业还缺乏客观、稳健的方法来确定合成数据与其所基于的现实世界数据是否有足够的差异,从而引发了这些数据集是否可以被归类为真正匿名的问题。传播这些敏感医疗数据的综合表示也没有具体限制。

未来,合成数据在医疗保健领域的潜力可能会被证明是有价值的,但在BMJ Medicine上撰文的专家表示,需要进行更多研究来探索与这些数据集相关的风险和成本效益,包括在多大程度上可以依赖它们分析。

生成对抗网络(GAN)

生成对抗网络 (GAN)是深度学习 (DL) 的一种,利用神经网络生成合成数据。GAN 由生成网络和对抗网络组成,用于生成逼真的图像、视频、录音和其他类型的数据。

生成网络获取输入数据并使用它来生成该数据的合成版本。此过程的结果将根据输入以及模型层针对所需用例的训练程度而有所不同。

对抗网络将真实数据与合成数据进行比较,使用鉴别器机制来区分两种数据类型。

当两个网络执行这些任务时,理论上结果应该会有所改善,直到合成数据与现实世界的数据几乎无法区分。

研究表明,GAN 在医学中的应用主要涉及医学图像处理、合成、分割、生成和去噪。

这种 PET 在医疗保健领域的其他潜在用例包括生成脑肿瘤的合成异常磁共振图像、生成合成 EHR 数据、改进基于人工智能的癌症成像、支持单细胞 RNA 测序以及支持医学教育。

专家认为,GAN 及其产生的合成数据有可能彻底改变临床研究,同时保护患者隐私。他们表示,使用这些方法可以使医疗保健数据完全匿名,从而使数据集中的任何信息都无法追溯到真实的个人。

除了平衡和扩展现有数据集之外,这还可以使研究人员在适当的情况下取代真实患者数据的使用。

然而,GAN也可能被不良行为者用来对医疗保健人工智能进行“对抗性攻击”。在此类攻击中,GAN 可用于创建虚假图像或更改数据点,以使 AI 得出错误的结论,这将严重影响患者的安全。

此外,GAN 的训练计算成本很高,需要大量投资和图形处理单元 (GPU) 等资源。

一旦 GAN 经过训练,理论上它可以生成无限量的合成数据,但标记这些数据在医疗保健领域是一个挑战。准确的“地面实况标记”对于医疗保健人工智能模型的开发是必要的,如果未能标记用于训练这些工具的数据,可能会严重限制其性能和临床实用性。

数据标记通常由人类以劳动和时间密集的方式执行,这阻碍了可以实际标记和使用多少合成数据。

研究人员指出,未来可能可以使用在真实数据上训练的成熟机器学习模型来标记这些合成数据。但就目前而言,这是不可行的,这加重了人类利益相关者合成数据标签的负担,并限制了 GAN 在医疗保健领域的潜力。

数字孪生的应用

数字孪生是物理对象、流程、系统或人员的数字或虚拟表示,旨在帮助组织模拟潜在结果。IBM 表示,数字孪生通常旨在跨越物理孪生的生命周期,利用实时数据更新和机器学习来帮助支持决策。

与标准模拟不同,数字孪生可以扩展以同时运行研究和模拟多个过程,这使得这种 PET 吸引了对建模和可视化感兴趣的医疗保健利益相关者。医疗保健数字孪生可用于创建人体 3D 可视化、协助诊断和治疗、推进精准医疗以及进行预测分析。该技术还被用来简化医院运营。

医疗保健数字双胞胎还可能有助于改善健康公平。

今年 2 月,克利夫兰诊所和 MetroHealth 的研究人员获得了美国国立卫生研究院 (NIH) 314 万美元的拨款,用于开发数字孪生技术,以更好地了解和解决卫生系统人口中的健康差距。

该研究将利用 250,000 名患者的 EHR 数据构建数字孪生模型。然后,这些模型将用于研究健康趋势以及影响健康差异的复杂社会、环境和经济因素。

该赠款还将支持“数字孪生社区”的开发,以帮助更好地了解克利夫兰地区特有的各种健康不平等现象。

该项目旨在利用数字双胞胎生成的数据来改善基于地点的人口健康和结果。

去年在《npj Digital Medicine》上发表的一项研究强调,医疗保健数字孪生的主要潜在好处之一是能够深入了解物理双胞胎(通常是患者)的预期行为,这可以显着推进临床试验、精准医学、和公共卫生。

研究人员表示,将数字孪生研究转化为临床实践的主要考虑因素是计算要求、产品监督、数据治理和临床实施问题。

此外,一些专家指出,数据收集和融合的困难以及模拟精度是当前医疗领域数字孪生应用的重大限制。但是,他们表示,展望未来,利益相关者可以通过结合医疗保健数字双胞胎、大数据、人工智能和物联网(IoT)来创建高质量的患者模型,以实现个性化诊断和治疗。

原文地址:Patient Privacy in Healthcare Analytics: The Role of Augmentation PETs
原文作者:Shania Kennedy
翻译 & 整理:开放隐私计算 & PrimiHub

热门相关:霸宠天下:腹黑帝君妖娆后   布衣官道   扑倒老公大人:龙总,我爱你!   暖君   朔明