格灵深瞳视觉基础模型Glint
近日,格灵格灵深瞳灵感实验室和华为伦敦研究所发布最新版视觉基础模型——Glint-MVT v1.5(RICE)。深瞳视觉
格灵深瞳此前有6篇论文亮相国际顶级学术舞台ICCV 2025,基础涵盖视觉基座模型、模型人脸3D重建等领域,格灵其中最新版MVT的深瞳视觉相关论文不仅入选,还被接收为Highlight论文。基础
先看升级后的模型核心要点:
1技术创新性方面:新版MVT提出了一种区域局部感知增强的视觉特征学习方法。
2下游任务表现方面:在OCR和分割等任务上效果优于v1.1版和AIMv2、格灵SigLIP2。深瞳视觉
3此外,基础团队还构建了共4亿图像、模型20亿局部区域、格灵4亿文字区域的深瞳视觉预训练数据集。
概括来说,基础MVT v1.5的最大升级在于:强化了模型对图像细节和文字特征的捕捉和表达能力,在精细任务上表现更优。
以往的视觉-文本对比学习模型,如OpenAI的CLIP模型和谷歌的改进版SigLIP模型等,更侧重全局图像特征(对图像内容的概括性描述),核心的训练逻辑是 “全局对齐”,让模型理解图像的整体语义,并和文本的整体语义相对应。
但这类模型对图像局部区域的细节信息表达较少,难以满足需要精细处理图像的任务,例如OCR和图像分割等。
针对这一问题,新版MVT提出一种区域局部感知增强的视觉特征学习方法。
在技术方案上,格灵深瞳团队利用专家分割模型和OCR模型,对无标注数据进行处理,产生十亿级局部区域,并通过聚类产生伪标签。也就是说,通过分割-OCR-聚类的技术流程,团队将无标注数据转化为带伪标签的大规模训练集,节约了标注成本,提升了自主学习能力。
同时,团队设计了区域Transformer层,用来提取局部区域特征和支持数据扩展的区域鉴别损失,使得团队能在亿级数据上进行预训练,突破了在大规模样本上进行高效训练的技术挑战。
基于以上技术攻关,MVT v1.5增强了局部特征和文字特征。相较于传统的全局图像特征模型,新版MVT在检测分割、OCR等对应的下游任务表现上得到提升,有效性得到验证。
以文字OCR任务为例,从下图可以看出,MVT v1.5(RICE)的多项分数高于CLIP和SigLIP等模型。
文字OCR任务和全局理解任务:
引用分割:
检测分割任务:
单目标跟踪任务:
从技术创新到下游任务,格灵深瞳并非单纯追求学术表现,而是注重技术成果转化应用,通过提升任务表现推动AI在多元场景中真正落地。
MVT v1.5背后的技术团队——格灵深瞳灵感实验室,是国内计算机视觉领域的深耕者。灵感实验室聚焦于视觉及相关模态特征表达与应用,主要研究方向包括:视觉基础大模型、多模态大模型、图文多模态表征、大规模分布式训练等。下一步,团队将锚定视频理解领域,发布最新模型成果。
(责任编辑:休闲)
-
11月7日米兰消息(安莎社):热那亚与国际米兰的补赛时间已确定安排在12月13日20:45北京时间14日3:45),门票收入将捐赠给洪水受灾者。国际米兰总经理埃内斯托·保利洛与职业联盟开会后宣布了这一 ...[详细]
-
厦门高中特长生招生明起报名 22所学校计划招收453名学生东南网5月27日讯海峡导报记者 梁静)连日来,厦门一中、厦门二中等学校相继发布高中特长生招生方案。今年,厦门市共有22所学校获批招收453名高 ...[详细]
-
从加法生活转向减法生活很重要,并不是心灵改变了行动,而是行动带来了心灵的变化。可以说,断舍离就是一种生活方式的改变。ntenteditable="false" />&ldq ...[详细]
-
导读: 两全保险结合了保障和储蓄的双重功能,既可以作为风险保障,也可以作为一种储蓄手段。在保险期间内,如果被保险人去世,保险公司会支付约定 ...[详细]
-
县人民医院:庆祝第八届中国医师节文章来源:民权网文章作者:吴杰责任编辑:薛皓点击数: 时间:2025-08-22 15:41 8月19日是第八个“中国 ...[详细]
-
导读: 两全保险结合了保障和储蓄的双重功能,既可以作为风险保障,也可以作为一种储蓄手段。在保险期间内,如果被保险人去世,保险公司会支付约定 ...[详细]
-
发布者:蒙蒙 浏览量:2199发布时间:2024/8/19 15:32:30 以斑斓光影彰显品牌力量!8月18日晚,伯爵咖啡在琴岛呈现了一场梦幻而震撼的视觉盛宴,当琴岛海岸点 ...[详细]
-
中国消费者报北京讯记者司宇萌)据“工信微报”消息,工信部针对“3•15”晚会报道的部分破解版APP违法违规收集用户个人信息问题,立即组织核查,并依据《个人信息保护法》《电信和互联网用户个人信 ...[详细]
-
2025年6月,领克品牌全系销量26,310台,同比增长约7.7%。2025年1-6月,领克品牌全系累计销量154,137台,同比增长超22.3%。“节能更性能,去哪都好开”,领克EM-P智能电混家族 ...[详细]
-
9月20日,云南路建二十一集团董事长李健与广东省汕头市交通运输集团董事长郑祖星会谈,双方就汕头内海湾建设规划展开深入讨论。 李健表示,太平洋建设拥有专业团队,在工程建设领域积累了丰富经验, ...[详细]