Gemini

返回工具

Google DeepMind 出品的多模态大模型系列,原生支持文本、图像、音频、视频、代码。Gemini 1.5 Pro 以百万 token 上下文窗口著称,是处理超长文档和长视频的首选。


模型系列

模型上下文特点适用场景
Gemini 2.5 Pro1M token最强推理,思维链复杂分析、代码、数学
Gemini 2.5 Flash1M token速度与成本优化高并发生产推理
Gemini 2.0 Flash1M token实验性,支持实时流语音/视频实时交互
Gemini 1.5 Pro1M token稳定,多模态长文档分析
Gemini 1.5 Flash1M token低成本批量处理

接入方式

Google AI Studio(免费实验)

直接在浏览器使用:https://aistudio.google.com

Python SDK

pip install google-generativeai
import google.generativeai as genai
 
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-2.5-flash")
 
# 文本对话
response = model.generate_content("用一句话解释量子纠缠")
print(response.text)
 
# 流式输出
for chunk in model.generate_content("写一首关于秋天的诗", stream=True):
    print(chunk.text, end="", flush=True)

多模态输入

import pathlib
 
# 上传文件(支持 PDF、视频、音频等)
video = genai.upload_file(pathlib.Path("demo.mp4"))
 
response = model.generate_content([
    video,
    "总结这个视频的主要内容,并列出关键时间节点"
])
print(response.text)

长上下文核心优势

Gemini 的 1M token 上下文让以下场景成为可能:

场景说明
代码库分析一次性输入整个大型项目,跨文件问答
长视频理解1 小时视频直接输入,定位具体片段
大型 PDF整本书或完整报告,无需分块
多文档对比同时比较多份合同、论文
长对话历史保留完整上下文,无遗忘

Gemini CLI

Google 官方命令行工具,可在终端直接使用 Gemini:

# 安装
npm install -g @google/gemini-cli
 
# 登录(使用 Google 账户)
gemini auth login
 
# 对话
gemini "解释这个 Python 函数" < script.py
 
# 分析图片
gemini "这张图里有什么问题?" --image screenshot.png

Grounding(搜索增强)

Gemini 支持连接 Google 搜索获取实时信息:

response = model.generate_content(
    "今天的 AI 重大新闻有哪些?",
    tools="google_search_retrieval",
)

与其他模型对比

维度Gemini 2.5 ProGPT-4oClaude 3.5 Sonnet
上下文1M128K200K
多模态全模态图像/音频图像
代码
中文良好良好良好
价格(输入/1M token)$1.25$2.5$3.0
免费额度有(AI Studio)

Vertex AI 企业部署

通过 Google Cloud 的 Vertex AI 使用 Gemini,支持私有数据、VPC 隔离、SLA:

import vertexai
from vertexai.generative_models import GenerativeModel
 
vertexai.init(project="my-project", location="us-central1")
model = GenerativeModel("gemini-2.5-pro-preview")
response = model.generate_content("解释 Transformer 架构")

相关文档