论文阅读 | DeepSeek-VL: Towards Real-World Vision-Language Understanding
DeepSeek-VL: Towards Real-World Vision-Language Understanding 0. Abstract 本文的主要贡献: 数据集构建:构建了具有多样性和可扩展性,广泛覆盖真实世界场景的数据集。包括网页截图、PDF文档、OCR文本、图表以及知识型内容(如专家知识、教科书)等。此外,根据真实用户场景将数据进行分类,并据此创建了指令微调数据集。通过该数据集的微调,显著提升了模型在实际应用中的用户体验。 创新的模型架构:采用了混合视觉编码器(hybrid vision encoder),能在固定的token预算下高效处理高分辨率图像(1024*1024),同时保持较低的计算开销。该架构保证模型多种视觉任务中能捕捉到关键的语义和细节信息。 创新的训练策略:既使LLM学会新模态,也保证原有的的语言能力不退化。调控语言和视觉的竞争关系,实现两种模态的均衡融合。 1. Introduction 大语言模型的巨大成功引发了人们对多模态模型的追求。这些模型能同时理解语言和图像,在执行现实世界任务时展现出巨大的潜力。 目前出现了很多开源的VLM方案,在benchmark上表现优秀,但在现实世界中表现不佳。大都存在以下问题(本文的改进方案): 许多方案将重心放在指令微调阶段。作者认为应当使用大量的视觉-语言数据进行充分预训练。(深度预训练) 现有方案多使用学术上的数据集进行微调,缺乏现实世界经验。(精心构建数据集) 现有方案多采用vision transformer与预训练语言模型结合的方式,这类模型分辨率低,不能胜任OCR或微小物体识别任务。(高分辨率处理架构) 有些模型在长期的多模态训练中会出现语言能力的退化。应采用一种既保留语言能力,又掌握新模态能力的训练方式。(平衡多模态特征的训练策略) DeepSeek-VL具有通用的多模态理解能力,能够处理逻辑图、网页、公式识别、科学文献、自然图像等。 DeepSeek-VL的优势: Deepseek-VL的预训练数据涵盖了广泛的世界知识,包括网络爬虫、网页代码、电子书、教育资料、arxiv文章等等,全面覆盖现实世界中的场景,数据质量高,具有广泛性和实用性。同时作者团队还精心设计了指令调优数据集,具体来说,作者从网上收集了GPT-4V和Gemini的真实案例,并进行分类,为每个测试图像选择合适的prompt。该分类体系还用于构建评估数据集。 视觉模块采用混合视觉编码器架构,384$\times$384的文本对齐编码器用于粗粒度语义提取,1024$\times$1024的高分辨率编码器用于捕捉细节视觉信息。两者结合,可以将1024$\times$1024的图像压缩为576个token,在视觉表征和token开销间取得平衡,使视觉模块支持文-图交织处理和多轮推理场景。 为了使多模态模型不出现语言能力的退化:1.保持至少70%的语言数据,这对维护模型内部的语言知识完整性至关重要。2.作者提出了模态预热(modality warm-up)策略。该方法通过在训练过程中动态调整模态比例,逐步引入更多视觉-语言数据。 在迭代模型时,首先在小模型上进行实验。然而,形如1B的小模型在benchmark上难以展现理想性能,无法真实的反映模型的实际表现。因此,作者把评估措施从多选改为了各选项的困惑度(PPL)对比;此外,为避免指令跟随能力成为瓶颈,在预训练阶段我们混合了少量指令调优数据。通过这种方式,我们既能利用1B模型获得合理性能表现,又能更精准地量化实验中每次迭代的影响效果。 2. Data Construction 数据集包括两大模块:VL-Pretrain数据、VL-SFT数据 VL-Pretrain整合了多源视觉文本数据,旨在强化模型的基础跨模态理解能力。 VL-SFT相对较小,主要用于训练模型完成特定下游任务。 在stage1,VL-Pretrain用于预热VL adapter stage2,VL-Pretrain用于联合预训练VL adaptor和VL model stage3,使用VL-SFT微调整个模型 2.1 VL-Pretraining Data 分为以下7个类别: Interleaved image-text data(交错式图文数据,使模型对多模态输入具有更好的上下文学习能力),MMC4、Wiki等 Image caption data(图像描述,包含高质量图-文对),Capsfusion、TaiSu等 Table and chart data(图表数据),Chart2text、Unichart Web Code data(网页代码,使模型具有从图形界面或图表重建代码的能力。从Stack数据集中的jupyter notebook清洗出2million图像-代码对。最终选择1.1million作为是主要训练集,包括一张图像-至少5行代码) OCR data(文档光学字符识别数据,作者构建了一个中英混合的OCR数据集,包括两部分:1.arxiv文章 2.电子书和教育材料,来自Anna’s Archive) Scene text OCR(增强模型识别场景中文本的能力)ArT、MLT-17等。 Text-only corpus(纯文本,和DeepSeek LLM的一致) 2.2 VL-SFT Data 包括多个知名开源数据集ShareGPT4V、LAION-GPTV等。 ...