ICCV 2025 Highlight:把图像“分词”了,AI真的能像人一样“读图”吗?

我前几天读到北大、UCSD、人大与BeingBeyond团队的一篇ICCV 2025Highlight论文,心里既兴奋又有点不安。说实话,长期以来我们都在期待一个能同时“看见”和“理解”世界的模型,但视觉是像素的海洋,语言是离散的符号,二者总像两个人在不同频道讲话。BPE-V提出的核心想法很直接也很狡猾:既然语言靠“词”来组织意义,那我们能不能把图像也拆成“词”来读?这听起来像把油画的笔触翻译成句子,但他们的确 把这个想法变成了可训练的系统。
先来说说技术怎么做的。BPE-V把图像先分成基本视觉块,然后通过统计共现频率和空间一致性来把常一起出现、并且位置稳定的块合并成更高级的“视觉词”。研究团队还引入了一个优先引导机制,在决定合并时既看频率也看空间稳定性,这样“草地+天空”这种只因场景常见而凑在一起的伪组合就不容易被当成语义整体。更关键的是,他们不是一次性把所有东西塞进模型,而是用三阶段的课程式训练,让模型先识字再读句,逐层掌握视觉到语义的映射。这一点很像我们教小孩先认形状再学词义——训练路径和表明层次相辅相成,效果也更稳定。

看完实验结果,我有个明显的感受:这不是简单的性能提升,更像是把视觉“语言化”之后,建立了一座跨模态的桥梁。作者提到,经过BPE-V训练后,视觉token和文本token在嵌入空间的权重分布趋于一致,这意味着图像与文字可以在同一语义平面上交流——换句话说,模型不再需要在两套体系间强行对接,而是把图像变成了可以被语言模型“读懂”的符号流。想象一下,后来检索一张图不再靠像素类似度,而是靠视觉词与文字词的语义匹配,这对内容检索、辅助驾驶、医疗影像的自动化解读都有深远影响。
不过我也有顾虑。把图像离散化成词,有没有可能把细腻的质感和情绪信息给丢掉?我朋友小李做图片风格分析的项目时就遇到过类似问题:当模型把笔触、光影都合并为语义块后,某些艺术风格的微妙差异反而被压平了。为此,BPE-V里的α参数和空间一致性测度就显得很重大,它能在“语义聚合”和“保留细节”之间做权衡。实务上,这意味着在训练时必须有专门的验证集来衡量两类任务的取舍——既要看跨模态检索性能,也要看细粒度风格或纹理的保留度。

从产品和工程角度看,我认为可以把BPE-V的思路拆成几步可操作的流程:先做一个可视化的合并过程,把哪些视觉块被合并成“词”展示出来以便人工审核;其次在合并评分中加入空间一致性阈值和领域先验,列如医疗影像里器官结构的稳定性应当比街景中的可变物体更重大;再者用分阶段训练来降低模型一次学太多概念造成的干扰,最后在上线前做隐私和偏见风险评估,避免数据集偏向导致某些视觉词带有不恰当的社会标签。说白了,技术可行性不是全部,如何在工程、伦理和产品体验间找到平衡才是真正的挑战。
再谈趋势,我觉得BPE-V的意义在于方法论上的转折:不再把多模态理解当作“把几堆不同的东西叠在一起”,而是尝试把各种模态都转换到同一种“交流单位”上去。未来三年内,我们可能会看到更多把视频、音频、三维场景都做成“词”的尝试,从而出现一种更通用的语义词典。这既有好处,也带来危险:一方面可以极大提升模型的横向能力,减少跨模态断层;另一方面,一旦视觉词典被滥用或训练数据失衡,就可能把偏见和误读固化成“词汇”,影响到下游决策系统。

最后我想给关心这件事的同事和创业者几句实用提议。产品经理需要把BPE-V的可解释性放在首位,技术落地要跟可视化工具和人工标注闭环配合;研究者要把空间一致性和频率信息作为可调的工程超参,而不是固定公式;普通用户则要知道,尽管AI变得更会“读图”,它读到的是被训练出来的词汇,而不是人类的全部理解。说实话,技术的每一步进展都带着两面性,我们既要拥抱便利,也要谨慎对待可能的偏差和误用。
你看到这样的“图像分词”方法后,最担心或最期待的是什么?欢迎说说你的想法和身边的故事,让我们把讨论继续下去。

作者丨3D视觉工坊
来源丨3D视觉工坊

编辑丨极市平台