跳到主要内容

图像生成

Hermes Agent 可以根据文本提示词,使用 FAL.ai 的 FLUX 2 Pro 模型生成图像,并通过 Clarity Upscaler 自动进行 2 倍放大,以提升图像质量。

配置

获取 FAL API 密钥

  1. fal.ai 注册账号
  2. 在管理后台生成 API 密钥

配置密钥

# 添加到 ~/.hermes/.env
FAL_KEY=your-fal-api-key-here

安装客户端库

pip install fal-client
信息

设置 FAL_KEY 后,图像生成工具会自动可用,无需额外配置工具集。

工作原理

当你请求 Hermes 生成图像时:

  1. 生成 — 提示词被发送到 FLUX 2 Pro 模型(fal-ai/flux-2-pro
  2. 放大 — 生成的图像通过 Clarity Upscaler(fal-ai/clarity-upscaler)自动进行 2 倍放大
  3. 交付 — 返回放大后的图像 URL

如果放大过程因任何原因失败,将自动回退并返回原始图像。

使用方式

直接告诉 Hermes 你想要生成什么图像:

生成一张宁静的山地风景,配有樱花盛开的场景
创作一幅智慧老猫头鹰栖息在古树枝上的肖像
生成一张有飞行汽车和霓虹灯的未来都市风景

参数

image_generate_tool 支持以下参数:

参数默认值范围说明
prompt(必填)所需图像的文字描述
aspect_ratio"landscape"landscapesquareportrait图像宽高比
num_inference_steps501–100推理步数(越多质量越高,速度越慢)
guidance_scale4.50.1–20.0对提示词的遵循程度(引导强度)
num_images11–4生成图像的数量
output_format"png"pngjpeg图像文件格式
seed(随机)任意整数随机种子,用于获得可复现的结果

宽高比

该工具使用简化的宽高比名称,映射到 FLUX 2 Pro 的图像尺寸预设:

宽高比映射值适用场景
landscapelandscape_16_9壁纸、横幅、场景图
squaresquare_hd头像、社交媒体帖子
portraitportrait_16_9角色艺术、手机壁纸
提示

你也可以直接使用 FLUX 2 Pro 的原始尺寸预设:square_hdsquareportrait_4_3portrait_16_9landscape_4_3landscape_16_9。同时支持最高 2048x2048 的自定义尺寸。

自动放大

每张生成的图像都会通过 FAL.ai 的 Clarity Upscaler 自动进行 2 倍放大,使用以下设置:

设置项
放大倍数2x
创意度0.35
保真度0.6
引导强度4
推理步数18
正向提示词"masterpiece, best quality, highres" + 你的原始提示词
负向提示词"(worst quality, low quality, normal quality:2)"

放大器会在保留原始构图的同时提升细节和分辨率。如果放大器失败(网络问题、速率限制),将自动返回原始分辨率的图像。

提示词示例

以下是一些效果不错的提示词:

一张粉色波波头、眼线浓郁的女性街头抓拍照片
玻璃幕墙现代建筑,夕阳光照
充满活力色彩与几何图案的抽象艺术作品
智慧老猫头鹰栖息在古树枝上的肖像
有飞行汽车和霓虹灯的未来都市风景

调试

启用图像生成的调试日志:

export IMAGE_TOOLS_DEBUG=true

调试日志保存在 ./logs/image_tools_debug_.json,包含每次生成请求的详细信息:参数、耗时及所有错误。

安全设置

图像生成工具默认关闭安全检查(safety_tolerance: 5,最宽松设置)。该配置在代码层面固定,不支持用户自定义。

平台交付

生成的图像会根据平台不同以不同方式交付:

平台交付方式
CLI以 Markdown 格式 ![description](url) 打印图像 URL,点击可在浏览器中打开
Telegram以图片消息发送,提示词作为说明文字
Discord图像内嵌在消息中
Slack图像 URL 发送到消息中(Slack 会自动展开预览)
WhatsApp以媒体消息发送图像
其他平台以纯文本形式发送图像 URL

智能体在响应中使用 MEDIA: 语法,平台适配器会将其转换为对应格式。

限制

  • 需要 FAL API 密钥 — 图像生成会产生 FAL.ai 账户的 API 费用
  • 不支持图像编辑 — 仅支持文生图,不支持局部重绘或图生图
  • 基于 URL 的交付 — 图像以临时 FAL.ai URL 返回,不保存到本地,URL 会在一段时间后过期(通常为数小时)
  • 放大增加延迟 — 自动 2 倍放大步骤会增加处理时间
  • 每次请求最多 4 张num_images 上限为 4