本文提出了ILLUME,这是一种统一的多模态大语言模型(MLLM),能够在单一的大语言模型(LLM)中无缝整合视觉理解与生成功能,并通过语义视觉分词器和三阶段训练流程实现高效训练。 为了促进理解与生成能力的协同增强,本文提出了一种新颖的自增强多模态 ...