[2606] CVPR 2026 Feelings and Findings

<aside> 💡

CV community 没被大模型吞噬，但在 pivot
- VLM / MLLM 吸收的是 visual understanding 类任务（OCR、识别检测、VQA、grounding），把固定任务统一成了 instruction-conditioned 的灵活形式。CVPR 不少 poster 本质上是在给现有 VLM 找 corner case、补 benchmark 和数据
- visual generation 类任务暂时还百花齐放，趋势是从生成「视觉上 plausible 的内容」扩展到生成「actionable representation」，以支持 action planning 和闭环控制
VLA vs. World Model 不一定是二选一：当前 VLA 有两大问题：真机 robotics 数据占比过低、observation 到 action 的黑盒缺少对时空动态的显式建模。目前解决方案的路径更像 VLA 先起步、过程中融入 world model 思想（比如 π-0.7、Gen-1）
具身落地按容错率分层：自动驾驶十多年了才接近落地，虽然 action space 小，但对成功率小数点后的 9 极度严苛，按照 power law 的数据/算力曲线趋于垂直。具身是一组容错率各异任务的复合体，可能会沿容错率与 RoI 排序分层落地，不一定慢 </aside>

这次 CVPR 2026，主要在看 poster 和 booth，一个比较大的感受是 CV 并没有像 NLP 一样被大模型吞噬。但 CV community 也在 pivot：从研究视觉任务本身，走向 Physical AI，i.e. 研究如何把视觉作为一种 infra 连接真实世界

一些传统的 CV 任务：检测、分割、OCR、pose estimation、3D reconstruction、tracking。今天这些任务仍然存在，paper 也还很多。但今天它们的角色变了，过去它们是独立任务和独立模型，但现在越来越像多模态系统中的一个能力模块

CV 任务按输出类型分为两类

① 第一类以输出文本、结构化信息的 visual understanding 为主，比如 OCR、检测、识别、视觉问答、visual grounding
② 第二类是以图像、视频、3D、mesh、scene 或 motion 为输出的任务，也就是各种 visual generation 和 world modeling

VLM / MLLM 在快速吸收第一类以 visual understanding 为主的任务

从 task-specific model 到 instruction-conditioned visual reasoning：过去一个检测模型的隐含 instruction 是“识别图像里有哪些物体”，OCR 模型的隐含 instruction 是“读出图片里的文字”。但 MLLM 把这些固定任务统一改写成了更 flexible 的形式：“看下桌上蓝色水杯旁边的纸上写了什么”，“沿着这条线走一遍，经过了哪些 node”
这次 CVPR 上有不少 poster，本质上是在给现有 VLM / VLM 找 corner case、扩展 benchmark 和 data coverage，比如有几个印象比较深的 poster
- Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs 发现同样的内容以文本、图片或混合模态输入时，MLLM 会给出不同答案，即使 OCR 本身没有明显错误
- Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR 发现 DeepSeek-OCR 并不会严格 letter-by-letter 地转录文字，而是会不受控 rewrite 一些内容，引入 language prior hallucination
- MIT 的 TraversalBench 让大模型去进行图形连线，结果发现在这个对人类很简单的任务上，模型能力不好

对于第二类，以 visual generation 为主的任务，因为比较远离 VLM / MLLM，还挺百花齐放。但趋势是从生成 visual content 到生成 actionable representation

模型的输出可能包含 image、video、3D、mesh、4D reconstruction、human motion、robot motion。对于输出是 2d image 的任务比如分割、depth estimation，Deepmind 推出的 Vision Banana 已经逐渐有统一的趋势了，但其他模态上还是各自有各自的模型和方法

 https://deepmind.google/research/publications/240658/