OpthaNet:高精度多类眼科图像分类的注意力集成架构
摘要
本研究探讨了预训练深度学习模型在多类眼病(白内障、糖尿病视网膜病变和青光眼)的视网膜图像分类中的有效性。尽管卷积神经网络(CNN)和基于Transformer的模型在眼科诊断中已广泛探索,但直接比较分析仍有限。此外,高性能系统通常依赖于重型骨干网络、集成或大规模领域预训练,这在资源受限的筛查流程中可能不切实际。研究评估了三种模型:EfficientNetB3、MobileNetV2和视觉Transformer,并进行了定制修改。通过引入注意力增强特征精炼模块和OpthaHead自定义分类器,优化了EfficientNetB3和MobileNetV2;META定制优化了视觉Transformer。该设计针对眼科迁移学习中的两个实际瓶颈:对细微病变和结构区域的选择性不足,以及在有限训练数据下最终决策层的过拟合或不稳定性。优化后的EfficientNetB3相比基线提高了10.84%,准确率达到96.04%;MobileNetV2提高了11.26%,平衡了准确性和计算效率。META定制使视觉Transformer性能提升了超过18%,表明减少模型复杂度有助于在有限医疗数据上的表现。研究表明,AI驱动的眼病分类具有强大性能,并突显了AI工具在早期检测和改善临床决策及患者结果方面的潜力。
信息来源: PubMed Ophthalmology 发布于 2026年1月1日
要点速览
- 研究评估了EfficientNetB3、MobileNetV2和视觉Transformer在多类眼病分类中的性能。
- 引入注意力增强特征精炼模块和OpthaHead自定义分类器,优化了EfficientNetB3和MobileNetV2。
- 优化后的EfficientNetB3准确率达到96.04%,MobileNetV2平衡了准确性和计算效率,视觉Transformer性能提升了超过18%。
本站解读
这项研究揭示了眼科图像分类技术路线的重大变迁。传统的CNN和新兴的Transformer模型在眼科诊断中的应用逐渐成熟,但两者之间的直接对比仍然缺乏。研究者通过引入注意力机制和定制化改进,显著提升了模型在多类眼病分类中的性能。这种技术进步不仅解决了现有模型在处理细微病变时选择性不足的问题,还有效缓解了在有限数据下的过拟合现象。
从商业格局来看,这一研究成果可能会引发行业内的新一轮竞争。目前,国内外多家企业都在积极布局眼科AI诊断领域,如谷歌、腾讯等大厂纷纷推出相关产品。然而,这些高性能系统往往依赖于复杂的模型和大规模数据预训练,这对于资源有限的医疗机构来说并不现实。因此,能够实现高效且准确的眼科图像分类的技术方案将更具市场竞争力。
值得注意的是,EfficientNetB3和MobileNetV2在经过优化后,不仅在准确率上有所提升,还在计算效率上取得了平衡。这为资源受限的筛查场景提供了新的解决方案。同时,META定制化的视觉Transformer也展示了其在有限数据下的优越性能,进一步验证了减少模型复杂度的重要性。
未来,随着更多类似研究的推进,眼科AI诊断领域的技术壁垒将进一步降低,更多的医疗机构将能够享受到AI带来的便利。后续需要密切留意的是,如何在保证模型性能的同时,进一步降低成本和提高可操作性,以满足更广泛的应用需求。
常见问题
这项研究对普通患者有什么意义?
这项研究通过改进AI模型,提高了多类眼病(如白内障、糖尿病视网膜病变和青光眼)的诊断准确性。这意味着未来患者可以更快、更准确地获得诊断结果,从而及时接受治疗。如有疑虑可咨询眼科医生。
这项技术什么时候能应用于临床?
虽然这项研究展示了AI在眼科诊断中的巨大潜力,但具体何时能应用于临床还需要进一步的验证和监管审批。预计在未来几年内,随着技术的不断成熟和法规的完善,这类AI工具将逐步进入临床实践。
延伸阅读
轻量级视网膜血管分割网络LCNet:高效精准的临床辅助诊断工具
视网膜血管分割技术在计算机辅助临床诊断中至关重要。尽管深度学习技术显著提升了分割精度,但现有方法在处理细小和模糊边界时仍存在局限性,且多数主流模型依赖复杂的编码器,导致参数量大、资源需求高。为此,研究者提出了一种轻量级U形网络LCNet,通过深度可分离卷积减少参数和计算成本,并引入协同坐标注意力模块以增强特征学习。此外,LCNet还利用空洞空间金字塔池化模块捕捉多尺度特征,并通过四个侧输出层提供额外监督。实验结果显示,LCNet在DRIVE、STARE、CHASEDB1和IOSTAR四个经典数据集上分别达到了96.02%、97.95%、97.95%和97.77%的全局准确率,仅需2.65 M参数和21.2 GFLOPs。该模型在病变眼底图像和光学相干断层扫描血管成像中的表现同样出色,证明了其在视网膜血管分割中的高效性和准确性。
深度学习算法在糖尿病视网膜病变中的非灌注区自动量化
该研究旨在评估一种定制的深度学习算法在超广角扫频源OCT血管成像(UWF SS-OCTA)中对非灌注区(NPA)进行自动分割的性能及其在糖尿病视网膜病变(DR)严重程度评估中的应用。研究采用横断面设计,纳入180只眼,涵盖所有DR严重程度等级。研究人员开发了一种基于多尺度U-Net骨干网络并结合挤压和激励注意力机制的卷积神经网络,用于从三种扫描模式(6 × 6 mm、12 × 12 mm 和 29 × 24 mm)的全视网膜层图像中分割NPA。通过两名独立评分者和一名玻璃体视网膜专家生成的金标准标注,以及结构OCT图像来区分真实NPA与阴影伪影。结果显示,该算法在不同扫描尺寸下均表现出高精度(F1分数分别为0.82 ± 0.01、0.84 ± 0.03 和 0.83 ± 0.02),且无显著差异。Bland-Altman分析表明,人类标记和算法预测的非灌注指数(NPI)之间具有高度一致性。结论是,该深度学习算法在单次扫描UWF SS-OCTA中实现了高精度和可扩展性,支持其作为客观DR OCTA生物标志物分析工具的潜力。
深度学习算法在视网膜自荧光图像中精准测量地理萎缩进展
该研究开发了一种基于DeepLabV3+的深度学习算法,通过同时分析纵向获取的视网膜自荧光(FAF)图像对,实现了对地理萎缩(GA)区域的自动标注和生长率的精确测量。研究利用了AREDS2和METforMIN两项独立前瞻性临床试验的数据,共涉及174名AREDS2参与者和44名METforMIN参与者。结果显示,与手动专家标注相比,该算法在精度、召回率和Dice系数方面均有显著提升,并且在保持纵向一致性方面表现优异。这些改进对于减少测量变异性、有效评估临床试验结果具有重要意义。