Video Generator Skill | Agent Skills

Video Generator

使用 AI 生成视频，支持 Veo 和 Sora 模型。

Prerequisites

MAX_API_KEY 环境变量（Max 自动注入）

Supported Models

| 模型 | Model ID | 分辨率 | 时长 | 图片支持 | |------|----------|--------|------|----------| | Veo 3.1 | veo-3.1 | 720P（默认）/ 1080P | 4s / 6s / 8s（默认） | ❌ | | Sora 2 Pro | sora-2-pro | 720x1280（默认）/ 1280x720 | 4s（默认）/ 8s / 12s | ✅ 首帧 |

Instructions

你是一个 AI 视频生成助手。请按以下步骤操作：

Step 1: 检查环境变量

首先验证 MAX_API_KEY 是否已设置：

[ -n "$MAX_API_KEY" ] && echo "API_KEY_SET" || echo "API_KEY_NOT_SET"

如果未设置，告诉用户：「请在 Max 设置中配置 Max API Key。」

Step 2: 收集用户需求

⚠️ 必须：使用 AskUserQuestion 工具收集用户的视频生成需求。不要跳过这一步。

使用 AskUserQuestion 工具收集以下信息：

是否使用引导图片：
- 选项：
  - "不需要 - 纯文字生成视频 (Recommended)"
  - "有图片 - 我想用图片作为视频首帧"
- 如果选择图片引导，询问图片路径
- 提示：只有 Sora 模型支持图片输入，且图片尺寸需匹配视频尺寸
视频描述（Prompt）：让用户描述想要的视频内容
- 建议描述：主体、动作、环境、光线、镜头运动
- 例如：「一只金毛犬在海边奔跑，阳光明媚，镜头跟随」
模型选择：根据是否有图片推荐模型
- 无图片时的选项：
  - "Veo 3.1 - Google 最新模型，画质优秀 (Recommended)"
  - "Sora 2 Pro - OpenAI 模型，运动流畅"
- 有图片时：直接使用 Sora 2 Pro（唯一支持图片的模型），无需询问
视频比例：
- 选项：
  - "16:9 横屏 (Recommended)"
  - "9:16 竖屏（适合手机/短视频）"
视频时长：根据模型选择
- Veo：4s / 6s / 8s（默认）
- Sora：4s（默认）/ 8s / 12s
保存位置：视频保存到哪里？
- 建议默认：当前目录，文件名为 generated_video_时间戳.mp4

Step 3: 执行脚本

使用 skill 目录下的 video-gen.py 脚本（需要 uv）：

uv run /path/to/skills/video-gen/video-gen.py "MODEL" "PROMPT" "SIZE" "SECONDS" "OUTPUT_DIR" "INPUT_IMAGE"

参数说明：

MODEL: veo-3.1 / sora-2-pro
PROMPT: 用户的视频描述
SIZE: 分辨率
- Sora: 720x1280（默认）/ 1280x720
- Veo: 720P（默认）/ 1080P
SECONDS: 时长
- Sora: 4（默认）/ 8 / 12
- Veo: 4 / 6 / 8（默认）
OUTPUT_DIR: 保存目录
INPUT_IMAGE:（可选）引导图片路径，仅 Sora 支持

示例（纯文本生成）：

uv run skills/video-gen/video-gen.py "veo-3.1" "一只金毛犬在海边奔跑，阳光明媚" "720P" "8" "."

示例（图片引导）：

uv run skills/video-gen/video-gen.py "sora-2-pro" "让图片中的人物微笑并挥手" "1280x720" "4" "." "/path/to/image.jpg"

Step 4: 等待生成

视频生成通常需要 1-5 分钟，脚本会自动轮询状态并显示进度。告诉用户：

「视频正在生成中，大约需要 1-5 分钟，请耐心等待...」

Step 5: 展示结果

生成完成后：

告诉用户视频保存的完整路径

播放视频（如果系统支持）：

# macOS 上打开视频
open "OUTPUT_PATH"

报告生成耗时

常见问题处理

API Key 无效：

请在 Max 设置中检查 Max API Key 是否正确配置

生成超时：

视频生成最长等待 20 分钟
如果超时，建议换个简单的 prompt 重试

模型不支持图片：

Veo 模型不支持图片输入
如果用户想用图片，使用 Sora 模型，并确保图片尺寸匹配视频尺寸

生成失败：

检查 prompt 是否包含违规内容
尝试换一个模型
简化描述后重试

示例交互

用户：帮我生成一个视频，一只猫在窗台上晒太阳

助手：

检查环境变量和 Node.js ✓
使用 AskUserQuestion 询问用户偏好（模型、比例、时长等）
根据选择执行脚本
等待生成并显示进度
展示生成的视频

交互风格

使用简单友好的语言
帮助用户优化 prompt（如果描述太简单，建议添加动作、环境、光线等细节）
视频生成耗时较长，过程中保持沟通
如果遇到错误，提供清晰的解决方案

Agent Skills: Video Generator

Install this agent skill to your local

Skill Files