目前,全球防控糖尿病的形势仍然严峻。国际糖尿病联合会的数据显示,在 2019 年,全球约有 4.63 亿 20 岁到 79 岁的成年人患有糖尿病,到了 2045 年,预计这一数字将上升至 7 亿;同时,这一疾病还造成了至少 7600 亿美元的医疗支出,占到了全球成年人总医疗支出的 10%。
特别值得注意的是,约有 79% 的糖尿病患者生活在低收入和中等收入国家,而在那些医疗技术不发达或者医疗资源紧张的地方,糖尿病及其并发症往往得不到及时的诊断和治疗。例如,作为当下增长最快的致盲病因,虽然糖尿病视网膜病变(Diabetic Retinopathy)在早期发现后完全可以得到妥善的治疗,但因为很多情况下没有足够多的医生来为所有糖尿病患者进行及时的诊断,它常常导致不可逆的失明。
医疗技术应当对所有人都有所帮助,为了应对这一挑战,改善糖尿病视网膜病变筛查,人们已经做出了很多努力。Google AI 的研究人员们就利用机器学习和计算机视觉领域的最新进展,开发了一种能够通过眼部扫描图像判断患者的视网膜是否发生了病变的深度学习算法。
现在眼科医生诊断糖尿病视网膜病变的常用方法之一是观察眼部扫描图像,寻找病变征兆(包括微动脉瘤、出血、硬性渗出物等等),并判断其严重程度。当然,掌握准确解读扫描图像的能力,需要经过相当专业的培训。然而,在世界上很多地方,具备这一能力的医生的数量并不能满足当地糖尿病患者的筛查需求。
以帮助医生们在医疗资源有限的情况下检查更多的病人为目标,Google 与印度和美国的医生们密切合作,创建了一个包含 12.8 万张眼底扫描图像的数据集,里面的每张照片都经过了由 54 名眼科医生组成的小组中的 3-7 位医生的专业评估。基于这个数据集,Google 训练出了一个检测糖尿病视网膜病变的深度神经网络。
算法训练完成的下一步就是测试它的性能。为此,Google 安排它在由 1.2 万张眼底扫描图像组成的两个独立临床验证集上,与由上述 54 位医生中一致性较高的 8 位组成的新小组进行 “竞赛”。以 7 到 8 位经美国专业委员会认证的视网膜专家中多数人的诊断结果作为参考标准,这一算法的 F-score 达到了 0.95,好于医生小组的 0.91。所谓 F-score,它的最大值是 1,其衡量综合了敏感性与特异性两大指标,敏感性,指的是降低漏诊的能力,特异性,则意味着避免误诊的能力。
在发表算法之后,Google 的研究人员们并没有止步,而是继续提高它的性能和可解释性。在这一过程中,检测的分级尺度更加细化,由最初的 2 级变为后来的 5 级;临床验证的参考标准也从视网膜专家中的多数意见更改为他们经讨论之后达成的一致意见,这一新标准既提高了精准度,也有助于发现那些最细微的病变,如微动脉瘤。
要想让这一算法成为真正有效的诊断工具,还需要确保它在临床环境中的适应性、透明度和可信度。换句话说,需要以适当的方式向医生们展示算法给出的诊断结果,帮助提高他们进行糖尿病眼病诊断时的准确性和信心。
为了实现这一点,Google 采用的解决方案是,向眼科医生们展示算法对糖尿病视网膜病变的不同等级的预测分数(Model Score),同时突出显示算法做出预测所依据的最主要区域的热图。如下图所示,在没有算法辅助时,3 名眼科医生中有 2 名没有从眼部扫描图像中发现糖尿病视网膜病变的迹象,而在算法的帮助下,它们都给出了准确的结果。可以说,算法确实能够促使医生们更仔细地检查病理,留意到那些容易被忽略的细节。
目前,这一研究已经进入了临床应用的阶段。2019 年,Google 和同属 Alphabet 的生命科学和医疗公司 Verily 合作,在印度马杜赖市(Madurai)的 Aravind 眼科医院首次实际应用了这一算法。首先,由经过训练的工作人员拍摄患者的眼部图像,然后通过软件将它上传到检测算法中,算法会自动检测其中的糖尿病视网膜病变和糖尿病性黄斑水肿(Diabetic Macular Edem)症状,返回筛查结果。
此外,Google 也在泰国巴吞他尼府和清迈府的诊所里进行了实地研究,研究这一算法如何更好地用于糖尿病护理中的眼部筛查。例如,针对护士们拍摄的眼部扫描图像中常常存在模糊或暗区,算法会把它们标记为 “无法分级”这一问题,Google 改进了它的实际应用流程,让专家们在查看患者病历的同时,帮忙检查这些图像,而不是将它们一律转诊给眼科医生。这一做法减少了不必要的误诊,也节约了医生和患者的时间。