<aside> 💡

写在开头

这次 CVPR 2026,主要在看 poster 和 booth,一个比较大的感受是 CV 并没有像 NLP 一样被大模型吞噬。但 CV community 也在 pivot:从研究视觉任务本身,走向 Physical AI,i.e. 研究如何把视觉作为一种 infra 连接真实世界

一些传统的 CV 任务:检测、分割、OCR、pose estimation、3D reconstruction、tracking。今天这些任务仍然存在,paper 也还很多。但今天它们的角色变了,过去它们是独立任务和独立模型,但现在越来越像多模态系统中的一个能力模块

VLM / MLLM 到底在如何 shift computer vision

CV 任务按输出类型分为两类

VLM / MLLM 在快速吸收第一类以 visual understanding 为主的任务

对于第二类,以 visual generation 为主的任务,因为比较远离 VLM / MLLM,还挺百花齐放。但趋势是从生成 visual content 到生成 actionable representation