Gemini
→ 返回工具
Google DeepMind 出品的多模态大模型系列,原生支持文本、图像、音频、视频、代码。Gemini 1.5 Pro 以百万 token 上下文窗口著称,是处理超长文档和长视频的首选。
模型系列
| 模型 | 上下文 | 特点 | 适用场景 |
|---|---|---|---|
| Gemini 2.5 Pro | 1M token | 最强推理,思维链 | 复杂分析、代码、数学 |
| Gemini 2.5 Flash | 1M token | 速度与成本优化 | 高并发生产推理 |
| Gemini 2.0 Flash | 1M token | 实验性,支持实时流 | 语音/视频实时交互 |
| Gemini 1.5 Pro | 1M token | 稳定,多模态 | 长文档分析 |
| Gemini 1.5 Flash | 1M token | 低成本 | 批量处理 |
接入方式
Google AI Studio(免费实验)
直接在浏览器使用:https://aistudio.google.com
Python SDK
pip install google-generativeaiimport google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-2.5-flash")
# 文本对话
response = model.generate_content("用一句话解释量子纠缠")
print(response.text)
# 流式输出
for chunk in model.generate_content("写一首关于秋天的诗", stream=True):
print(chunk.text, end="", flush=True)多模态输入
import pathlib
# 上传文件(支持 PDF、视频、音频等)
video = genai.upload_file(pathlib.Path("demo.mp4"))
response = model.generate_content([
video,
"总结这个视频的主要内容,并列出关键时间节点"
])
print(response.text)长上下文核心优势
Gemini 的 1M token 上下文让以下场景成为可能:
| 场景 | 说明 |
|---|---|
| 代码库分析 | 一次性输入整个大型项目,跨文件问答 |
| 长视频理解 | 1 小时视频直接输入,定位具体片段 |
| 大型 PDF | 整本书或完整报告,无需分块 |
| 多文档对比 | 同时比较多份合同、论文 |
| 长对话历史 | 保留完整上下文,无遗忘 |
Gemini CLI
Google 官方命令行工具,可在终端直接使用 Gemini:
# 安装
npm install -g @google/gemini-cli
# 登录(使用 Google 账户)
gemini auth login
# 对话
gemini "解释这个 Python 函数" < script.py
# 分析图片
gemini "这张图里有什么问题?" --image screenshot.pngGrounding(搜索增强)
Gemini 支持连接 Google 搜索获取实时信息:
response = model.generate_content(
"今天的 AI 重大新闻有哪些?",
tools="google_search_retrieval",
)与其他模型对比
| 维度 | Gemini 2.5 Pro | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|
| 上下文 | 1M | 128K | 200K |
| 多模态 | 全模态 | 图像/音频 | 图像 |
| 代码 | 强 | 强 | 强 |
| 中文 | 良好 | 良好 | 良好 |
| 价格(输入/1M token) | $1.25 | $2.5 | $3.0 |
| 免费额度 | 有(AI Studio) | 无 | 无 |
Vertex AI 企业部署
通过 Google Cloud 的 Vertex AI 使用 Gemini,支持私有数据、VPC 隔离、SLA:
import vertexai
from vertexai.generative_models import GenerativeModel
vertexai.init(project="my-project", location="us-central1")
model = GenerativeModel("gemini-2.5-pro-preview")
response = model.generate_content("解释 Transformer 架构")