学术研究
视频大语言模型在干眼科普视频质量评估中的基准测试
短视频平台的迅速崛起改变了人们获取健康信息的方式,但也加剧了错误信息和虚假信息的传播。干眼症作为一种常见的眼表疾病,成为研究这一问题的典型案例。本文提出了一种基于视频大语言模型(VideoLLMs)的框架,用于自动评估科普视频的质量。研究使用了三种代表性的VideoLLMs(VideoLLaMA3、QwenVL和InternVL),并采用三个已建立的评估工具:PEMAT-A/V、GQS和VIQI进行基准测试。从TikTok收集了185个中文干眼症视频,并由两位眼科医生独立标注。通过组内相关系数(ICC)量化VideoLLM生成分数与专家评分的一致性。结果显示,大多数指标下,VideoLLMs与专家标注的一致性较差(ICC < 0.40),仅在PEMAT-A/V的可操作性维度上,QwenVL和InternVL分别达到了ICC 0.50和0.43。这项工作建立了首个VideoLLMs在眼科科普视频评估中的基准,并揭示了当前模型性能的重大局限,一致性水平远未达到实际应用的要求。该开源框架旨在系统评估模型行为,突出现有差距,并推动进一步的方法改进。
#干眼症#视频大语言模型#健康信息
PubMed Ophthalmology #1/1
READ