APP推广合作
联系“鸟哥笔记小乔”
对话灵感实验室:Glint
2026-02-21 14:07:11

出品 | 网易科技《态度》栏目

作者 | 纪川

编辑 | 定西

世界不是对话由一张张静态图片组成的,而是灵感连续流动的视频。

但在过去很长一段时间里,实验室AI 处理视频的对话方式却显得极其“笨拙”:先把视频解压成一帧帧图片,再像翻连环画一样去理解。灵感这种行业惯例带来了巨大的实验室算力浪费——毕竟,视频中90% 的对话信息都是冗余的背景。

既然视频本身就是灵感被压缩过的,为什么非要把它解压成图片再分析?实验室这种“多此一举”的行业惯例,是对话不是可以被打破?

带着这个问题,灵感实验室新一代视觉基础模型Glint-MVT v2.0(以下简称MVT v2.0)选择了一条“少有人走的灵感路”——图像和视频统一编码,通过视频编码在压缩域进行高效分析——这正是实验室MVT v2.0的核心突破。

MVT v2.0利用视频编码自带的对话运动矢量(Motion Vector)和残差(Residual)信息,生成了一张“信息量热图”。灵感模型只保留那些包含关键动作或细节变化的实验室Patch(图像块),而将背景等低信息量的部分直接丢弃。

这一策略直接减少了 90% 的冗余 Token。

“说到底,我们只是利用了视频编码的原理,不再把那些冗余找回来。”灵感实验室负责人冯子勇解释道。但这看似简单的逻辑转换,却带来极大的能力提升:在全帧率分析下,MVT v2.0 的推理速度提升了 5 倍;任务表现方面,将Glint-MVT v2.0用作VideoLLM的视觉编码器,在MVBench、VideoMME、Percepton Test等视频基准上超过Google SigLIP2。

Glint-MVT v2.0任务的表现

然而,这场突围并非一蹴而就。

如果把时间轴拉回几年前,这支专注底层视觉编码的团队其实更像是一群在快车道旁默默修路的人。

从 2023 年发布Glint-MVT v1.0 开始,灵感实验室一直在探索视觉和多模态领域的技术创新。在 v1.0 阶段,为了给4 亿张无标注图片打上伪标签,他们采用“标签采样”方法来解决噪声问题;到了v1.1,为了突破单标签的限制,他们优化了损失函数,让模型学会“一眼看多物”;再到v1.5 版本,通过引入专家模型和OCR,把模型对局部细节和文字特征的理解能力拉到了新高度。

Glint-MVT系列论文:

1.0:Unicom: Universal and Compact Representation Learning for Image Retrieval

1.1:Multi-label Cluster Discrimination for Visual Representation Learning

1.5:Region-based Cluster Discrimination for Visual Representation Learning

正是一步步的技术积累,才让他们最终在MVT v2.0 阶段打破了图像与视频的界限,走通了这条高效分析之路。

以下是网易科技与灵感实验室团队(以下简称“灵感”)的对话,经不改变原意的编辑。

统一图像与视频:人们看到的世界是视频,而不是静态图片

网易科技:简单介绍一下Glint-MVT,从1.0到1.5版本大概是一个什么样的情况?这次2.0版本最大的升级是什么?

灵感:从1.0、1.1到1.5版本,MVT视觉模型基座的关注点都在图片上,1.x系列都定义在图像领域。

我们在v1.0和v1.1时关注的是怎么训练一个好的图像编码器(Encoder)。到了v1.5,我们的重点方向是细粒度,也就是提升局部区域的表征。结果发现到2025年三四月份,各种各样的模型基本上都是针对这个点来做的,竞争非常激烈。再往下做,只能像大厂那样堆资源,这对我们来说相对困难。

所以,我们决定在v2.0做一次较大升级。MVT v2.0最大的创新性在于统一支持图像和视频,把视频加进来,统一在一个Encoder里面。

Glint-MVT v2.0方法示意图

网易科技:对于你们来说,参与 MVT v2.0 的过程中最兴奋的一个瞬间是什么?

灵感:第一次听到基于 Codec(编解码)输入的结果还可以的时候,那个瞬间最兴奋。

因为做统一支持图像和视频的视觉编码器的人还是比较少的,而且我们想颠覆的是“把视频变成图片流”这样一种根深蒂固的观念。在这条路上,没有太多前人的工作可借鉴。当验证结果出来,说明这个路线是可行的,这给了我们很大的鼓舞。

网易科技:当前主流做法仍是分别训练图像和视频模型。你们选择研发“图像和视频统一”的视觉编码器,这个想法是在什么契机下产生的?是为了解决业务痛点,还是纯粹的技术推演?

灵感:这个想法是几个方向逐步凝聚在一起,慢慢萌生出来的。既有业务痛点的驱动,也有对技术本质的思考。

首先,从业务痛点来看,视频分析在我们的业务(如泛安防、银行、体育动作识别等场景)中占据重要地位。

长期以来,行业惯例是把视频解码为一帧帧图片单独分析。但这存在一个问题:我们拿到的视频本来就是被压缩过的,压缩后的体积可能只有原来的十分之一,说明大量冗余已经被剔除了。但惯有做法是把冗余解压回来再分析,这不仅浪费算力,而且性能强依赖于解码器性能和内存带宽。既然视频本身的信息量是满的,为什么不能直接在压缩域上做分析?

其次,从技术推演来看,图像编码器这个赛道已经卷到基本没有空间了,技术发展必然会转向视频分析。

最后,从第一性原理来看,我们看到的世界从来都是视频,不是静态图片。我们的空间推理和事件推理都是构建在视频之上的。图片本质上是静态的视频,所以视频是可以包含图片的。MVT v2.0 就是基于这样的思考。

削减90% 视频Token:只保留“最有信息量”的 Patch

网易科技:我看到一个数字,MVT v2.0利用视频编码信息减少了90%的token数量。这意味着什么?请用更通俗的方式解释,这是如何实现的?

灵感:这90%的减少,是通过只保留“最有信息量”的Patch(图像块)实现的。

视频编码器在压缩视频时,会自动产生两种非常宝贵的信号:

·MV(运动矢量): 告诉我们哪些块在动、怎么动。

·Residual(残差): 告诉我们哪些地方预测不准、哪里有细节和边缘的变化。

我们将 MV 和Residual 融合成一张“信息量热图”,热度越高,表示这个区域越可能包含关键动作或关键细节。然后,我们在每帧只保留一个固定预算的 Top-k 关键Patch,把剩余大部分低信息量的Patch 直接扔掉,不再变成Token 输入。所以,Token 从全量覆盖变成了预算可控的稀疏输入,90% 的削减就是这样来的。

比如固定摄像头的监控视频,很多背景是不动的。说到底,视频流在传输时,冗余部分已经被扔掉了,否则带宽扛不住。我们只是利用这个原理,不再把那些冗余找回来,直接对变化的部分做分析。

网易科技:如此大幅度的 Token 削减,如何保证不丢失关键信息?在实现效率提升的过程中,你们面临的最大权衡是什么?

灵感:我们能在大幅降 Token 的同时尽量保住关键信息,核心在于两点:

第一,我们删掉的不是随机内容,而是“低信息量内容”。MV 和Residual 本身就是编码器为了压缩而标记出的“变化”和“难预测细节”。它天然在提醒我们:哪里更值得花比特,也就更值得让模型花算力。因此我们优先保留的区域,往往正是主体动作、交互区域这些理解视频最关键的地方。

第二,我们做了防止误选的处理。例如,我们会做全局相机运动补偿,把镜头平移或抖动造成的整体运动扣掉,避免背景因为镜头运动被误认为“很重要”,从而把有限的预算更集中在真实运动的主体上。同时MV 和Residual 是互补的,融合后更稳。

自左向右分别为:原始视频、均匀帧采样(常规用法)、时间显著性检测、类编解码器风格的块提取

网易科技:在大模型参数量越来越大的今天,你们似乎在追求一种更轻量、更高效的表达方式。这是否代表你们对未来视觉模型发展方向的一种不同判断?

灵感: 我们觉得参数量扩大是否能带来更好的性能,或者说能好多少,这才是本质。我们其实是在追求“性价比”。

如果在这个规模下性能已经很不错了,再往后堆参数需要耗费巨大的资源但提升不显著,那就不值得。

MVT v2.0 中视频的表达直接来源于视频Codec,这是基于我们对视频本质的理解——图片流本身就是冗余的。我们不盲目追求大参数,而是追求更本质、更高效的表达。

网易科技:了解到 MVT v2.0 可以应用于VLM(视觉语言模型)。这是否意味着它的目标是成为下一代多模态大模型的“视觉编码器”?与目前主流的VLM 视觉编码器相比,优势体现在哪里?

灵感:是的,我们内部已经验证了它作为 VLM 视觉底座的效果。与目前主流的模型相比,优势主要体现在:

·性能上:在全帧率分析的情况下,我们能提速 5倍。

·效果上:视频理解任务效果超过了 SigLIP2。

·功能上:它原生支持全帧率和高速运动分析,这是传统抽帧方案很难做到的。

技术好奇心与野心:探索视觉特征表达的新路径

网易科技:这项技术突破,最先会应用到哪些产品或解决方案中?

灵感:像安防或银行的视频分析产品中,立刻就可以应用。因为 MVT v2.0 可以进行全帧率分析,像打斗、快速奔跑等这些快速动作的识别,以前因为算力限制很难做全帧率,现在都可以应用上了。

此外,我们认为凡是涉及快速运动、高帧率视频分析的场景都可以受益,比如具身智能(机器人需要实时感知和响应动作变化)。

网易科技:回看MVT从1.0到1.5再到现在的2.0,这条技术路线上,有没有哪个阶段是团队感到最迷茫的?

灵感:是在 1.5 版本推出之前。

在v1.0 和v1.1 的时候,做这个方向的工作还不是很多,我们也就是自己探索,预期没那么高,结果出来得也快。但到了1.5 阶段(大概2025年初),我们明显感觉到同类型的工作不停地发表,竞争变得非常激烈,同时也有其他训练方法(如 MAE、图文对比学习)的冲击。那时候压力很大,只能一点一点往前推。

很幸运的是,后来MVT v1.5 被ICCV 2025(国际计算机视觉大会)录用了,这给了我们很大的信心,做v2.0 的时候底气就更足了。

网易科技:现在的AI人才市场非常疯狂。比较好奇灵感实验室的成员是一群什么样的人?

灵感:我们的团队成员大多觉得视觉特征表达还有其他的路径,不一定是大厂所定义的那样。大家有一种纯粹的技术好奇心,想去探索不一样的路。这有点像在 GPT-3 出来之前,大家主要用的还是BERT,但最后证明GPT 这条路是对的。

公司也支持我们去探索这种非共识的、偏底层的研究。

网易科技:灵感实验室的下一步技术演进方向是什么?

灵感:2.0版本只是个开始,刚把这个点做通了,但离做得很好还有很长路要走。我们下一步的方向是:

·第一,要更高效。现在虽然利用了流里的信息,但还要经过一步处理,希望能做到直接进流、直接分析。

·第二,做流式(Streaming)分析。现在很多VLM是离线分析的,我们希望基于2.0的VLM能像看球赛解说一样,实时进流、实时分析。

·第三,兼容3D重建。像Gaussian Splatting或VGGT这种,希望能直接把视频塞进去就生成3D场景或点云。

更大的野心是,视频的理解和生成能不能一体化?同一个Encoder既能输出理解的特征,也能输出生成的特征。

网易科技:如果用一个词来形容 MVT v2.0 对当前视觉领域的意义,你们会选哪个词?

灵感:启发。

我们希望能对其他做视觉的研究者有更多的启发,让大家看到除了堆参数、解图片流之外,还有通过视频编码在压缩域进行高效分析这条路,欢迎大家跟我们一起探索。

延伸阅读
  • 中国人形机器人进入欧洲高端制造:空客拟用中国机器人组装飞机
  • 豆包与浦东美术馆合作上线“官方AI讲解员”
  • 64万年终奖刷屏!AI正悄悄掏空你的钱包
知识
分享到朋友圈
收藏
收藏
评分
评论

综合评分:

我的评分

参与评论(0)

社区交流公约

暂无评论,快来抢沙发吧~
登录后参与评论
发布评论
用户社区交流公约

Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
超级nice便签砖
超级超级超级奈斯!
1000羽毛
立即兑换
【新品】办公/外出两用静音充电小电扇
办公桌必备小电扇!
2000羽毛
立即兑换
知识
发表文章124
确认要消耗 羽毛购买
一个模型两个漏斗做好拉新活动吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接