昆仑万维 2050 全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布开源了 Vitron 通用像素级视觉多模态大语言模型。
Vitron 支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,包括静态图像和动态视频内容进行全面的理解、生成、分割等任务。同时,Vitron 也解决了图像/视频模型割裂的问题,为通用视觉大模型的终极形态奠定了基础,是迈向通用人工智能(AGI)的重要一步。
Vitron 相关的论文、代码和 Demo 已全部公开,其在综合性、技术创新、人机交互和应用潜力等方面展现出的独特优势和潜力,不仅推动了多模态大模型的发展,还为未来的视觉大模型研究提供了一个新的方向。