多模态大模型

多模态大模型（Multimodal LLM / MLLM）能同时理解和生成文本、图像、音频、视频等多种模态，是从”语言模型”向”世界模型”演进的关键一步。

模态类型

输入模态	输出模态	代表模型
文本 + 图像	文本	GPT-4o、Claude 3、Gemini、LLaVA
文本 + 音频	文本	Whisper + LLM 管线
文本	图像	DALL-E 3、Stable Diffusion、Flux
文本	语音	GPT-4o Audio、ElevenLabs
文本 + 视频	文本	Gemini 1.5 Pro、GPT-4o
任意 → 任意	任意	GPT-4o、Gemini Ultra

架构原理

视觉-语言模型（VLM）

图像 → Vision Encoder（ViT/CLIP）→ 视觉 Token
文本 → Text Tokenizer → 文本 Token
                    ↓
              [拼接/交叉注意力]
                    ↓
              LLM Decoder → 输出文本

关键组件：

组件	作用	示例
Vision Encoder	将图像切分为 patch 并编码为向量	ViT-L、CLIP
Projector/Adapter	对齐视觉 token 与语言 token 的维度空间	MLP、Q-Former
LLM Backbone	统一处理多模态 token 序列	LLaMA、Qwen

原生多模态（GPT-4o 风格）

不经过独立的视觉编码器，直接在 token 空间统一处理所有模态，延迟更低，跨模态理解更自然。

主流模型对比

模型	发布方	视觉能力	上下文	开源
GPT-4o	OpenAI	图像/音频/视频	128K	❌
Claude 3.5 Sonnet	Anthropic	图像/文档	200K	❌
Gemini 1.5 Pro	Google	图像/音频/视频	1M	❌
LLaVA-1.6	haotian-liu	图像	4K	✅
Qwen2-VL	阿里	图像/视频	32K	✅
InternVL2	上海 AI Lab	图像/视频	8K	✅
Phi-3-Vision	Microsoft	图像	128K	✅

使用示例

图像理解（Claude API）

import anthropic, base64
 
with open("chart.png", "rb") as f:
    img_data = base64.standard_b64encode(f.read()).decode("utf-8")
 
client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "image",
                "source": {"type": "base64", "media_type": "image/png", "data": img_data},
            },
            {"type": "text", "text": "分析这张图表，提取关键数据和趋势。"}
        ],
    }]
)
print(message.content[0].text)

图像理解（OpenAI API）

from openai import OpenAI
 
client = OpenAI()
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}},
            {"type": "text", "text": "图中有什么？"}
        ]
    }]
)

典型应用场景

场景	输入	输出
文档智能	PDF/截图	结构化数据提取
图表分析	数据图	数字解读、趋势描述
代码截图识别	代码截图	可编辑代码文本
视觉问答	图片 + 问题	答案
图像描述	图片	Alt text、内容描述
多模态 RAG	图文混合文档	综合问答
UI 自动化	屏幕截图	操作指令（点击/输入）

局限性

限制	说明
幻觉	模型可能编造图中不存在的内容
OCR 精度	对小字、模糊图片、手写体识别率低
空间推理	对图中对象的相对位置理解不稳定
长视频	大多数模型对超长视频理解能力有限
图像生成质量	文字渲染、手部细节等仍是难点

知识仓库

探索

多模态大模型

多模态大模型

模态类型

架构原理

视觉-语言模型（VLM）

原生多模态（GPT-4o 风格）

主流模型对比

使用示例

图像理解（Claude API）

图像理解（OpenAI API）

典型应用场景

局限性

相关文档

关系图谱

目录

反向链接