多模态大模型
→ 返回大模型
多模态大模型(Multimodal LLM / MLLM)能同时理解和生成文本、图像、音频、视频等多种模态,是从”语言模型”向”世界模型”演进的关键一步。
模态类型
| 输入模态 | 输出模态 | 代表模型 |
|---|
| 文本 + 图像 | 文本 | GPT-4o、Claude 3、Gemini、LLaVA |
| 文本 + 音频 | 文本 | Whisper + LLM 管线 |
| 文本 | 图像 | DALL-E 3、Stable Diffusion、Flux |
| 文本 | 语音 | GPT-4o Audio、ElevenLabs |
| 文本 + 视频 | 文本 | Gemini 1.5 Pro、GPT-4o |
| 任意 → 任意 | 任意 | GPT-4o、Gemini Ultra |
架构原理
视觉-语言模型(VLM)
图像 → Vision Encoder(ViT/CLIP)→ 视觉 Token
文本 → Text Tokenizer → 文本 Token
↓
[拼接/交叉注意力]
↓
LLM Decoder → 输出文本
关键组件:
| 组件 | 作用 | 示例 |
|---|
| Vision Encoder | 将图像切分为 patch 并编码为向量 | ViT-L、CLIP |
| Projector/Adapter | 对齐视觉 token 与语言 token 的维度空间 | MLP、Q-Former |
| LLM Backbone | 统一处理多模态 token 序列 | LLaMA、Qwen |
原生多模态(GPT-4o 风格)
不经过独立的视觉编码器,直接在 token 空间统一处理所有模态,延迟更低,跨模态理解更自然。
主流模型对比
| 模型 | 发布方 | 视觉能力 | 上下文 | 开源 |
|---|
| GPT-4o | OpenAI | 图像/音频/视频 | 128K | ❌ |
| Claude 3.5 Sonnet | Anthropic | 图像/文档 | 200K | ❌ |
| Gemini 1.5 Pro | Google | 图像/音频/视频 | 1M | ❌ |
| LLaVA-1.6 | haotian-liu | 图像 | 4K | ✅ |
| Qwen2-VL | 阿里 | 图像/视频 | 32K | ✅ |
| InternVL2 | 上海 AI Lab | 图像/视频 | 8K | ✅ |
| Phi-3-Vision | Microsoft | 图像 | 128K | ✅ |
使用示例
图像理解(Claude API)
import anthropic, base64
with open("chart.png", "rb") as f:
img_data = base64.standard_b64encode(f.read()).decode("utf-8")
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
messages=[{
"role": "user",
"content": [
{
"type": "image",
"source": {"type": "base64", "media_type": "image/png", "data": img_data},
},
{"type": "text", "text": "分析这张图表,提取关键数据和趋势。"}
],
}]
)
print(message.content[0].text)
图像理解(OpenAI API)
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}},
{"type": "text", "text": "图中有什么?"}
]
}]
)
典型应用场景
| 场景 | 输入 | 输出 |
|---|
| 文档智能 | PDF/截图 | 结构化数据提取 |
| 图表分析 | 数据图 | 数字解读、趋势描述 |
| 代码截图识别 | 代码截图 | 可编辑代码文本 |
| 视觉问答 | 图片 + 问题 | 答案 |
| 图像描述 | 图片 | Alt text、内容描述 |
| 多模态 RAG | 图文混合文档 | 综合问答 |
| UI 自动化 | 屏幕截图 | 操作指令(点击/输入) |
局限性
| 限制 | 说明 |
|---|
| 幻觉 | 模型可能编造图中不存在的内容 |
| OCR 精度 | 对小字、模糊图片、手写体识别率低 |
| 空间推理 | 对图中对象的相对位置理解不稳定 |
| 长视频 | 大多数模型对超长视频理解能力有限 |
| 图像生成质量 | 文字渲染、手部细节等仍是难点 |
相关文档