从Google多模态大模型看后续大模型应该具有哪些才干 Gemini技术报告解读

网络优化
2024-11-14

大家好，我是HxShine。

前段期间Google推出Gemini多模态大模型，展现了非凡的对话才干和多模态才干，其体现终究如何呢？

本文对Gemini报告启动剖析，总的来说Gemini模型在图像、音频、视频和文本了解方面体现出出色的才干。其包括 Ultra、Pro 和 Nano 尺寸，能够实用于从复杂推理义务到设施内存受限用例的各种运行。

不像OpenAI接入多模态才干须要应用多个不同的模型，Google间接在预训练阶段间接接受多模态的输入是Gemini的特点之一，它能够间接处置多模态的数据，并且各名目的都还不错。另外可以看出具有图文了解等才干后，再结合大模型的对话才干，能够带来更冷艳的效果体验。

一、概述

Title：Gemini: A Family of Highly Capable Multimodal Models

论文地址：

1Motivation

颁布Google的能与GPT4竞争的大模型，同时兼具多模态才干，包括文字、图像、视频、音频识别与了解才干。

1）Gemini模型允许4种格局输入，2种格局输入

特点：同时允许text文本，image图像，video视频和audio音频输入，允许文本和图片的输入。可以间接处置音频文件，不须要将音频转为文字等。

猜想的训练方法（张俊林：）：

2）Gemini模型有多个版本，最小有1.8B

特点：其中Nano首先从大模型蒸馏，而后4bit量化。Gemini Nano蕴含两个版本：1.8B面向低端手机，3.25B面向上流手机。

3 Conclusion

1）文本了解：Ultra性能超越了GPT4

2）图像了解：zero-shot效果超越很多微调后的模型

3）视频了解：超越之前的few-shot SoTA模型

4）不同版Genmini模型的性能

Nano2模型很多超越了Pro版本的50%，局部到达90的水平，效果还不错。

5）多语种翻译：性能超越GPT4

翻译才干也是比GPT-4好，WMT23目的中4个有3个超越GPT4的体现。

6）图像了解数据集：MMMU数据个体现

二、详细内容

1 多模态推理才干：识别手写答案，对物理疑问启动解答

特点：识别书写结果，这个和OpenAI之前演示的依据草图写前端代码是一样的，不过识别的准确率是存疑的。

2 多模态推理才干：从新组织子图顺序

处置此义务须要模型具有以下才干：

3 图像生成才干：多模态了解+图像生成

要具有下面的配置须要以下才干：

4 语音了解才干：具有语音识别和语音翻译才干

对比的是OpenAI的Whisper，看着Gemini就是把多个SoTA模型包装起来了。

5 多模态了解：允许图片+音频输入

这个gptv+加个语音转文字的模型可以做，这里的特点或许是间接用一个模型就可以处置？

三、多模态才干展现

1 几何推理才干：求平行四边形的高

2 视觉多模态推理才干：依据图片确定地点

3 多言语知识推理：识别中文相关图

4 视频了解才干：剖析视频中的人如何优化足球技术

四、总结

本文转载自，作者：

关注微信

上一篇：叫好不叫座微软困境虚构小人冲破名目或将激发出一大量

下一篇：一文读懂从RAG到多模态RAG

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：http://clwxseo.com/wangluoyouhua/5772.html

从Google多模态大模型看后续大模型应该具有哪些才干 Gemini技术报告解读

一、概述

1Motivation

1）Gemini模型允许4种格局输入，2种格局输入

2）Gemini模型有多个版本，最小有1.8B

3 Conclusion

1）文本了解：Ultra性能超越了GPT4

2）图像了解：zero-shot效果超越很多微调后的模型

3）视频了解：超越之前的few-shot SoTA模型

4）不同版Genmini模型的性能

5）多语种翻译：性能超越GPT4

6）图像了解数据集：MMMU数据个体现

二、详细内容

1 多模态推理才干：识别手写答案，对物理疑问启动解答

2 多模态推理才干：从新组织子图顺序

3 图像生成才干：多模态了解+图像生成

4 语音了解才干：具有语音识别和语音翻译才干

5 多模态了解：允许图片+音频输入

三、多模态才干展现

1 几何推理才干：求平行四边形的高

2 视觉多模态推理才干：依据图片确定地点

3 多言语知识推理：识别中文相关图

4 视频了解才干：剖析视频中的人如何优化足球技术

四、总结

猜你喜欢

热门标签

随便看看

六种阅读器跨窗口通讯打算

对象的四种形式 JavaScript 比拟

人工智能 PyTorch深度学习框架

JavaScript5大编程言语 PHP Java Python 我该选哪个 C

数据飞轮在媒体行业的运行探求

热门资讯

阅读排行

企业出海须要什么样的数据库

Git 不为人知但配置弱小的技术

用Keras来了解形态LSTM递归神经网络

人工智能不止于技术的反派

GPT成熟之路官网笔记

关注我们

从Google多模态大模型看后续大模型应该具有哪些才干 Gemini技术报告解读

一、概述

1Motivation

1）Gemini模型允许4种格局输入，2种格局输入

2）Gemini模型有多个版本，最小有1.8B

3 Conclusion

1）文本了解：Ultra性能超越了GPT4

2）图像了解：zero-shot效果超越很多微调后的模型

3）视频了解：超越之前的few-shot SoTA模型

4）不同版Genmini模型的性能

5）多语种翻译：性能超越GPT4

6）图像了解数据集：MMMU数据个体现

二、详细内容

1 多模态推理才干：识别手写答案，对物理疑问启动解答

2 多模态推理才干：从新组织子图顺序

3 图像生成才干：多模态了解+图像生成

4 语音了解才干：具有语音识别和语音翻译才干

5 多模态了解：允许图片+音频输入

三、多模态才干展现

1 几何推理才干：求平行四边形的高

2 视觉多模态推理才干：依据图片确定地点

3 多言语知识推理：识别中文相关图

4 视频了解才干：剖析视频中的人如何优化足球技术

四、总结

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号