#视频大语言模型

短视频平台的迅速崛起改变了人们获取健康信息的方式，但也加剧了错误信息和虚假信息的传播。干眼症作为一种常见的眼表疾病，成为研究这一问题的典型案例。本文提出了一种基于视频大语言模型（VideoLLMs）的框架，用于自动评估科普视频的质量。研究使用了三种代表性的VideoLLMs（VideoLLaMA3、QwenVL和InternVL），并采用三个已建立的评估工具：PEMAT-A/V、GQS和VIQI进行基准测试。从TikTok收集了185个中文干眼症视频，并由两位眼科医生独立标注。通过组内相关系数（ICC）量化VideoLLM生成分数与专家评分的一致性。结果显示，大多数指标下，VideoLLMs与专家标注的一致性较差（ICC < 0.40），仅在PEMAT-A/V的可操作性维度上，QwenVL和InternVL分别达到了ICC 0.50和0.43。这项工作建立了首个VideoLLMs在眼科科普视频评估中的基准，并揭示了当前模型性能的重大局限，一致性水平远未达到实际应用的要求。该开源框架旨在系统评估模型行为，突出现有差距，并推动进一步的方法改进。

#干眼症#视频大语言模型#健康信息

PubMed Ophthalmology #1/1

READ

视频大语言模型在干眼科普视频质量评估中的基准测试