<aside>
💡
- CV community 没被大模型吞噬,但在 pivot
- VLM / MLLM 吸收的是 visual understanding 类任务(OCR、识别检测、VQA、grounding),把固定任务统一成了 instruction-conditioned 的灵活形式。CVPR 不少 poster 本质上是在给现有 VLM 找 corner case、补 benchmark 和数据
- visual generation 类任务暂时还百花齐放,趋势是从生成「视觉上 plausible 的内容」扩展到生成「actionable representation」,以支持 action planning 和闭环控制
- VLA vs. World Model 不一定是二选一:当前 VLA 有两大问题:真机 robotics 数据占比过低、observation 到 action 的黑盒缺少对时空动态的显式建模。目前解决方案的路径更像 VLA 先起步、过程中融入 world model 思想(比如 π-0.7、Gen-1)
- 具身落地按容错率分层:自动驾驶十多年了才接近落地,虽然 action space 小,但对成功率小数点后的 9 极度严苛,按照 power law 的数据/算力曲线趋于垂直。具身是一组容错率各异任务的复合体,可能会沿容错率与 RoI 排序分层落地,不一定慢
</aside>
写在开头
这次 CVPR 2026,主要在看 poster 和 booth,一个比较大的感受是 CV 并没有像 NLP 一样被大模型吞噬。但 CV community 也在 pivot:从研究视觉任务本身,走向 Physical AI,i.e. 研究如何把视觉作为一种 infra 连接真实世界
一些传统的 CV 任务:检测、分割、OCR、pose estimation、3D reconstruction、tracking。今天这些任务仍然存在,paper 也还很多。但今天它们的角色变了,过去它们是独立任务和独立模型,但现在越来越像多模态系统中的一个能力模块
VLM / MLLM 到底在如何 shift computer vision
CV 任务按输出类型分为两类
- ① 第一类以输出文本、结构化信息的 visual understanding 为主,比如 OCR、检测、识别、视觉问答、visual grounding
- ② 第二类是以图像、视频、3D、mesh、scene 或 motion 为输出的任务,也就是各种 visual generation 和 world modeling
VLM / MLLM 在快速吸收第一类以 visual understanding 为主的任务
- 从 task-specific model 到 instruction-conditioned visual reasoning:过去一个检测模型的隐含 instruction 是“识别图像里有哪些物体”,OCR 模型的隐含 instruction 是“读出图片里的文字”。但 MLLM 把这些固定任务统一改写成了更 flexible 的形式:“看下桌上蓝色水杯旁边的纸上写了什么”,“沿着这条线走一遍,经过了哪些 node”
- 这次 CVPR 上有不少 poster,本质上是在给现有 VLM / VLM 找 corner case、扩展 benchmark 和 data coverage,比如有几个印象比较深的 poster
对于第二类,以 visual generation 为主的任务,因为比较远离 VLM / MLLM,还挺百花齐放。但趋势是从生成 visual content 到生成 actionable representation