当前位置: 首页 > 创领中心 > 网络优化

仅1.3B!Janus 一致多模态了解和生成

  • 网络优化
  • 2024-11-15

Janus 是一个一致的多模态了解和生成的大型言语模型(MLLM),它将多模态了解和生成的视觉编码解耦。Janus 基于 DeepSeek-LLM-1.3b-base 构建,该模型训练时经常使用了大概5000亿个文本token的语料库。在多模态了解方面,它经常使用 SigLIP-L 作为视觉编码器,允许384 x 384像素的图像输入。在图像生成方面,Janus 经常使用了LlamaGen的tokenizer,并且具有16倍的下采样率。

Janus的训练环节是分阶段启动的,以确保模型在多模态了解和生成义务上都能到达高性能:

第一阶段:训练Adpater和图像Head

第二阶段:一致预训练

第三阶段:监视微调(SFT)

训练细节:

作为一个next token prediction的图像生成模型,生功成果相当不错:

同时作为一个多模态了解模型,仅1.3B且只要384的输入分辨率,成果也超出预期。比如带有文字的meme图的了解,甚至也还行:

可以看出,多模态大模型生成和了解,越卷越一致;模型尺寸也有着越卷越小的趋向。

原文链接:​ ​​ ​​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://clwxseo.com/wangluoyouhua/6147.html

猜你喜欢

热门资讯

关注我们

微信公众号