当谷歌宣布兼并DeepMind的健康部门时,引发了一场关于数据隐私的重大争议。尽管DeepMind表示不会将原始患者数据交给谷歌,但仅仅是想到让一个技术巨头能够接触、识别医疗记录的想法就让人感到不安。获得用户大量高质量数据这个问题已经成为在医学领域应用机器学习的最大障碍。
GoogleDeepMind
为了解决这个问题,人工智能研究人员一直在寻找新的机器学习模型培训技术,能够同时保持数据的机密性。麻省理工学院最新创造了一种被称为分裂神经网络的方法:它允许一个人开始训练深度学习模型,而由另一个人完成训练。
这种方法的思路是让医院和其他医疗机构能够用患者的数据在本地培训他们的模型,然后将培训了一半的模型发送到一个集中的位置,在那里,所有的模型将一起完成最后阶段的训练。这个集中的位置,无论是在谷歌还是其他公司的云端,都不会看到原始的患者数据;他们只能看到培训了一半的模型。
麻省理工学院媒体实验室的副教授,该论文的合着者――Ramesh Raskar将这一过程比作数据加密。他表示:“只是因为进行了加密才能让我能够很放心地将信用卡数据发送给另一个实体。”通过神经网络的前几个阶段对医学数据进行模糊处理就是以相同的方式保护数据。
在对这种方法和其他一些也旨在保护患者数据安全的方法进行对比测试时,研究小组发现,分裂神经网络需要的计算资源要少得多,而且能够生成更高精度的模型。