多模态大模型

返回大模型

多模态大模型(Multimodal LLM / MLLM)能同时理解和生成文本、图像、音频、视频等多种模态,是从”语言模型”向”世界模型”演进的关键一步。


模态类型

输入模态输出模态代表模型
文本 + 图像文本GPT-4o、Claude 3、Gemini、LLaVA
文本 + 音频文本Whisper + LLM 管线
文本图像DALL-E 3、Stable Diffusion、Flux
文本语音GPT-4o Audio、ElevenLabs
文本 + 视频文本Gemini 1.5 Pro、GPT-4o
任意 → 任意任意GPT-4o、Gemini Ultra

架构原理

视觉-语言模型(VLM)

图像 → Vision Encoder(ViT/CLIP)→ 视觉 Token
文本 → Text Tokenizer → 文本 Token
                    ↓
              [拼接/交叉注意力]
                    ↓
              LLM Decoder → 输出文本

关键组件:

组件作用示例
Vision Encoder将图像切分为 patch 并编码为向量ViT-L、CLIP
Projector/Adapter对齐视觉 token 与语言 token 的维度空间MLP、Q-Former
LLM Backbone统一处理多模态 token 序列LLaMA、Qwen

原生多模态(GPT-4o 风格)

不经过独立的视觉编码器,直接在 token 空间统一处理所有模态,延迟更低,跨模态理解更自然。


主流模型对比

模型发布方视觉能力上下文开源
GPT-4oOpenAI图像/音频/视频128K
Claude 3.5 SonnetAnthropic图像/文档200K
Gemini 1.5 ProGoogle图像/音频/视频1M
LLaVA-1.6haotian-liu图像4K
Qwen2-VL阿里图像/视频32K
InternVL2上海 AI Lab图像/视频8K
Phi-3-VisionMicrosoft图像128K

使用示例

图像理解(Claude API)

import anthropic, base64
 
with open("chart.png", "rb") as f:
    img_data = base64.standard_b64encode(f.read()).decode("utf-8")
 
client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "image",
                "source": {"type": "base64", "media_type": "image/png", "data": img_data},
            },
            {"type": "text", "text": "分析这张图表,提取关键数据和趋势。"}
        ],
    }]
)
print(message.content[0].text)

图像理解(OpenAI API)

from openai import OpenAI
 
client = OpenAI()
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}},
            {"type": "text", "text": "图中有什么?"}
        ]
    }]
)

典型应用场景

场景输入输出
文档智能PDF/截图结构化数据提取
图表分析数据图数字解读、趋势描述
代码截图识别代码截图可编辑代码文本
视觉问答图片 + 问题答案
图像描述图片Alt text、内容描述
多模态 RAG图文混合文档综合问答
UI 自动化屏幕截图操作指令(点击/输入)

局限性

限制说明
幻觉模型可能编造图中不存在的内容
OCR 精度对小字、模糊图片、手写体识别率低
空间推理对图中对象的相对位置理解不稳定
长视频大多数模型对超长视频理解能力有限
图像生成质量文字渲染、手部细节等仍是难点

相关文档