多模态内容生成 Skill

多模态内容生成

当用户需要生成图片或视频时，自动调用 multimodal-agent 进行处理。

触发场景

图片生成

"生成一张图片"
"画一张..."
"AI 作图"
"文生图"
"帮我生成图像"
"用 flux/imagen/dalle 生成"

视频生成

"生成一个视频"
"做个视频"
"文生视频"
"用 veo/sora/kling 生成视频"

使用方式

自动调用 multimodal-agent

sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: {用户描述}, 使用 {模型} 模型"
)

可用模型

图片生成

| 别名 | 模型 | 特点 | |------|------|------| | flux | flux-pro-max | 高质量，推荐 | | imagen | google/imagen-4-ultra | Google 最强 | | dalle | gpt-image-1 | DALL-E 3 | | doubao | doubao-seedream-4-5 | 中式美学 | | klingimg | kling-image | 可灵生图 |

视频生成

| 别名 | 模型 | 特点 | |------|------|------| | veopro | veo3.1-pro | Google 专业版 | | veo4k | veo3.1-pro-4k | 4K 高清 | | sora | sora-2-pro-all | OpenAI Sora | | kling | kling-video | 可灵视频 |

执行流程

用户请求 "生成一张猫咪图片"
    │
    ▼
┌─────────────────────────────────────┐
│ 1. 识别为图片生成请求              │
│ 2. 提取描述: "猫咪"                │
│ 3. 选择默认模型: flux-pro-max      │
└─────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────┐
│ sessions_spawn(                     │
│   agentId="multimodal-agent",       │
│   task="生成图片: 一只可爱的猫咪,   │
│         使用 flux 模型"             │
│ )                                   │
└─────────────────────────────────────┘
    │
    ▼
multimodal-agent 执行生成并返回结果

示例

生成图片

用户: 帮我生成一张日落海滩的图片

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: 日落时分的海滩，金色阳光洒在海面上，使用 flux 模型"
)

生成视频

用户: 用 sora 生成一个猫咪玩耍的视频

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成视频: 一只可爱的猫咪在草地上玩耍，使用 sora 模型"
)

指定模型

用户: 用 doubao 画一张中国风山水画

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: 中国风山水画，云雾缭绕的山峰，使用 doubao 模型"
)

模型选择建议

| 场景 | 推荐模型 | |------|----------| | 通用高质量 | flux | | 中式风格 | doubao | | 写实照片 | imagen | | 创意艺术 | dalle | | 高清视频 | veo4k | | 电影级视频 | sora | | 快速视频 | kling |

注意事项

提示词优化: multimodal-agent 会自动优化用户的描述
模型选择: 如果用户没指定，默认使用 flux (图片) 或 veopro (视频)
异步执行: 视频生成可能需要较长时间，会在后台执行
结果返回: 生成完成后会自动发送结果给用户

Agent Skills: 多模态内容生成

Install this agent skill to your local

Skill Files