ffmpeg 使用指南 Skill

ffmpeg 使用指南

概述

本技能提供基于 ffmpeg 的全面音视频处理能力，包括经过实战验证的命令和工作流，适用于常见多媒体任务、平台特定优化，以及质量与文件大小管理的最佳实践。

版本： 1.0.0 要求： ffmpeg >= 4.0，ffprobe（可选但推荐）

当用户提及视频或音频处理任务、格式转换、社交媒体优化或多媒体编辑时，Claude 应使用本技能。

适用场景

当用户需要以下操作时使用本技能：

视频格式转换（MP4、WebM、MOV 等）
分辨率缩放或宽高比调整
从视频创建 GIF
音频提取或格式转换
视频编辑（裁剪、合并、变速、旋转）
字幕处理（硬字幕、软字幕、提取字幕）
视频压缩或优化
平台特定格式化（YouTube、Instagram、TikTok、Twitter）
缩略图或帧提取
批量处理音视频文件

前置条件

使用本技能前，请确保已安装 ffmpeg：

# macOS
brew install ffmpeg

# Ubuntu/Debian
sudo apt-get install ffmpeg

# Windows（使用 Chocolatey）
choco install ffmpeg

验证安装：

ffmpeg -version

支持的操作

1. 格式转换

在不同视频格式之间转换，并使用优化设置。

MP4 转 WebM：

ffmpeg -i input.mp4 -c:v libvpx-vp9 -crf 30 -b:v 0 -c:a libopus output.webm

MOV 转 MP4：

ffmpeg -i input.mov -c:v libx264 -c:a aac -strict experimental output.mp4

任意格式转 MP4（通用兼容）：

ffmpeg -i input.* -c:v libx264 -preset medium -crf 23 -c:a aac -b:a 128k output.mp4

2. 分辨率调整

调整视频尺寸同时保持宽高比。

缩放到 720p：

ffmpeg -i input.mp4 -vf scale=-1:720 -c:a copy output_720p.mp4

缩放到 1080p：

ffmpeg -i input.mp4 -vf scale=-1:1080 -c:a copy output_1080p.mp4

缩放到指定宽度（高度自适应）：

ffmpeg -i input.mp4 -vf scale=1280:-1 -c:a copy output.mp4

带填充缩放（黑边填充/信箱模式）：

ffmpeg -i input.mp4 -vf "scale=1920:1080:force_original_aspect_ratio=decrease,pad=1920:1080:(ow-iw)/2:(oh-ih)/2" output.mp4

3. GIF 制作

从视频创建高质量 GIF，并优化文件大小。

基本 GIF（10 帧/秒）：

ffmpeg -i input.mp4 -vf "fps=10,scale=480:-1:flags=lanczos" output.gif

高质量 GIF（使用调色板）：

# 生成调色板
ffmpeg -i input.mp4 -vf "fps=10,scale=480:-1:flags=lanczos,palettegen" palette.png

# 使用调色板创建 GIF
ffmpeg -i input.mp4 -i palette.png -filter_complex "fps=10,scale=480:-1:flags=lanczos[x];[x][1:v]paletteuse" output.gif

从指定时间范围创建 GIF：

ffmpeg -ss 00:00:10 -t 5 -i input.mp4 -vf "fps=10,scale=480:-1:flags=lanczos,split[s0][s1];[s0]palettegen[p];[s1][p]paletteuse" output.gif

4. 音频操作

提取、转换和处理音频流。

提取音频为 MP3：

ffmpeg -i input.mp4 -vn -acodec libmp3lame -q:a 2 output.mp3

提取音频为 WAV：

ffmpeg -i input.mp4 -vn -acodec pcm_s16le -ar 44100 -ac 2 output.wav

转换音频格式：

ffmpeg -i input.wav -c:a aac -b:a 192k output.m4a

添加背景音乐：

ffmpeg -i video.mp4 -i music.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest output.mp4

混合音频（叠加）：

ffmpeg -i video.mp4 -i music.mp3 -filter_complex "[0:a][1:a]amix=inputs=2:duration=first" -c:v copy output.mp4

5. 视频编辑

裁剪、拼接和修改视频。

裁剪视频：

# 从第 10 秒到第 30 秒
ffmpeg -i input.mp4 -ss 00:00:10 -to 00:00:30 -c copy output.mp4

# 基于时长（从第 5 秒开始，截取 10 秒）
ffmpeg -i input.mp4 -ss 00:00:05 -t 10 -c copy output.mp4

拼接视频：

根据格式和兼容性选择方法：

方法一：Concat 协议（推荐——无需临时文件）

# 适用于 MPEG 格式：.ts、.mpg、.mpeg、.mp3、.aac 等
# 直接拼接，无需创建列表文件
ffmpeg -i "concat:file1.mp3|file2.mp3|file3.mp3" -c copy output.mp3
ffmpeg -i "concat:video1.ts|video2.ts|video3.ts" -c copy output.ts

# 支持格式：TS、MPEG-1、MPEG-2、MP3、AAC
# 不支持：MP4、MOV、MKV（请使用方法二）

方法二：Concat 分离器（适用于 MP4、MOV、MKV）

# 使用进程替换避免临时文件
ffmpeg -f concat -safe 0 -i <(printf "file '%s'\n" video1.mp4 video2.mp4 video3.mp4) -c copy output.mp4

# 如果 shell 不支持进程替换：
printf "file '%s'\n" video1.mp4 video2.mp4 video3.mp4 > list.txt
ffmpeg -f concat -safe 0 -i list.txt -c copy output.mp4
rm list.txt

方法三：Concat 滤镜（可接受重新编码时使用）

# 当视频编码/分辨率不同时使用
ffmpeg -i video1.mp4 -i video2.mp4 -i video3.mp4 \
  -filter_complex "[0:v][0:a][1:v][1:a][2:v][2:a]concat=n=3:v=1:a=1[v][a]" \
  -map "[v]" -map "[a]" output.mp4

格式选择指南：

.mp3、.aac、.ts、.mpg、.mpeg → 使用 concat 协议（方法一）
.mp4、.mov、.mkv → 使用 concat 分离器（方法二）
不同编码/分辨率 → 使用 concat 滤镜（方法三）

加速/减速：

# 2 倍速
ffmpeg -i input.mp4 -filter:v "setpts=0.5*PTS" -an output.mp4

# 0.5 倍速（慢动作）
ffmpeg -i input.mp4 -filter:v "setpts=2.0*PTS" output.mp4

旋转视频：

# 顺时针旋转 90 度
ffmpeg -i input.mp4 -vf "transpose=1" output.mp4

# 旋转 180 度
ffmpeg -i input.mp4 -vf "transpose=2,transpose=2" output.mp4

6. 字幕处理

添加、提取或烧录字幕。

烧录字幕到视频（硬字幕）：

ffmpeg -i input.mp4 -vf subtitles=subtitles.srt output.mp4

添加软字幕：

ffmpeg -i input.mp4 -i subtitles.srt -c copy -c:s mov_text output.mp4

提取字幕：

ffmpeg -i input.mp4 -map 0:s:0 subtitles.srt

7. 缩略图提取

从视频中提取帧作为图片。

在指定时间提取单帧：

ffmpeg -i input.mp4 -ss 00:00:05 -vframes 1 thumbnail.jpg

提取多张缩略图：

# 每 10 秒提取一帧
ffmpeg -i input.mp4 -vf fps=1/10 thumb%04d.jpg

# 提取前 10 帧
ffmpeg -i input.mp4 -vframes 10 frame%04d.png

8. 压缩与优化

在保持质量的同时减小文件大小。

视频压缩（均衡模式）：

ffmpeg -i input.mp4 -c:v libx264 -crf 23 -preset medium -c:a aac -b:a 128k output.mp4

高压缩（更小文件）：

ffmpeg -i input.mp4 -c:v libx264 -crf 28 -preset veryslow -c:a aac -b:a 96k output.mp4

Web 优化压缩：

ffmpeg -i input.mp4 -c:v libx264 -preset medium -crf 23 -movflags +faststart -c:a aac -b:a 128k output.mp4

平台特定预设

YouTube 优化

ffmpeg -i input.mp4 \
  -c:v libx264 -preset slow -crf 18 \
  -c:a aac -b:a 192k \
  -pix_fmt yuv420p \
  -movflags +faststart \
  youtube.mp4

Instagram 快拍（9:16）

ffmpeg -i input.mp4 \
  -vf "scale=1080:1920:force_original_aspect_ratio=decrease,pad=1080:1920:(ow-iw)/2:(oh-ih)/2" \
  -c:v libx264 -preset medium -crf 23 \
  -c:a aac -b:a 128k \
  -t 15 \
  instagram_story.mp4

Twitter/X（16:9，最长 2 分 20 秒）

ffmpeg -i input.mp4 \
  -vf scale=1280:720 \
  -c:v libx264 -preset medium -crf 23 \
  -c:a aac -b:a 128k \
  -t 140 \
  twitter.mp4

TikTok（9:16）

ffmpeg -i input.mp4 \
  -vf "scale=1080:1920:force_original_aspect_ratio=decrease,pad=1080:1920:(ow-iw)/2:(oh-ih)/2" \
  -c:v libx264 -preset medium -crf 23 \
  -c:a aac -b:a 128k \
  -t 60 \
  tiktok.mp4

常见用例

屏幕录制优化

# 减小屏幕录制文件大小
ffmpeg -i screen_recording.mov \
  -c:v libx264 -preset medium -crf 23 \
  -vf "scale=1920:-1" \
  -c:a aac -b:a 128k \
  optimized.mp4

批量转换

# 将所有 MOV 文件转换为 MP4
for i in *.mov; do
  ffmpeg -i "$i" -c:v libx264 -crf 23 -c:a aac "${i%.mov}.mp4"
done

从图片创建视频

# 从图片序列创建
ffmpeg -framerate 30 -pattern_type glob -i '*.jpg' \
  -c:v libx264 -pix_fmt yuv420p \
  output.mp4

# 单张图片转视频（5 秒）
ffmpeg -loop 1 -i image.jpg -c:v libx264 -t 5 -pix_fmt yuv420p output.mp4

最佳实践

始终先检查输入文件：

ffmpeg -i input.mp4
# 或使用 ffprobe 获取详细信息
ffprobe -v quiet -print_format json -show_format -show_streams input.mp4

尽可能使用 -c copy 避免重新编码：

ffmpeg -i input.mp4 -ss 00:01:00 -t 30 -c copy output.mp4

处理前用 -t 参数预览效果：

# 先测试前 10 秒
ffmpeg -i input.mp4 -t 10 [其他参数] test.mp4

使用合适的 CRF 值：
- 18 = 视觉无损
- 23 = 高质量（默认值）
- 28 = 可接受质量，文件更小
- 范围：0（无损）到 51（最差质量）
为 Web 视频添加 -movflags +faststart：
- 启用渐进式播放
- 将元数据移至文件开头

错误处理

使用本技能时，请始终：

验证输入文件存在且可读
处理前检查 ffmpeg 是否已安装
验证输出路径可写
使用适当的提示信息优雅处理错误
处理大文件时显示进度

Claude 使用指南

当用户请求音视频处理时：

识别任务类型
从本技能中选择合适的命令
验证前置条件（ffmpeg 已安装、输入文件存在）
执行前说明命令的作用
执行命令并进行错误处理
验证输出是否成功创建
提供优化建议（如适用）

对于复杂工作流，应分步骤执行并逐一说明。

视频拼接注意事项： 尽可能使用 printf 配合进程替换来避免临时文件（参见拼接部分的方法二）。仅在必要时使用临时 list.txt 文件。

示例

用户："把这个 MOV 文件转成 MP4" 响应： 使用 H.264 编码的 MOV 转 MP4 命令

用户："从这个视频做一个 GIF，从第 10 秒开始只要 5 秒" 响应： 使用带时间范围的 GIF 创建命令

用户："我需要把这个 4K 视频缩小到 1080p 用于网页" 响应： 结合分辨率缩放和 Web 优化预设

用户："提取音频为 MP3" 响应： 使用 MP3 编码的音频提取命令

参考资料

FFmpeg 官方文档：https://ffmpeg.org/documentation.html
FFmpeg Wiki：https://trac.ffmpeg.org/wiki
支持的编解码器：https://ffmpeg.org/ffmpeg-codecs.html
滤镜文档：https://ffmpeg.org/ffmpeg-filters.html

文案提取和转录功能，当涉及到转录和文案提取功能的时候，参考下面文档：

Voice Model API (本地语音转录)

应用启动后自动在 http://127.0.0.1:18923 开启本地 HTTP 接口，供 Claude Skill 等外部调用方使用。

接口列表

1. 查询模型状态

GET /v1/audio/models/status

响应示例：

{
  "installed": true,
  "modelDir": "/Users/xxx/.newmax/models/sensevoice-small",
  "modelSize": 239549735
}

{
  "installed": false,
  "modelDir": "/Users/xxx/.newmax/models/sensevoice-small",
  "missingFiles": ["model.int8.onnx", "tokens.txt"]
}

2. 音频转录

POST /v1/audio/transcriptions
Content-Type: application/json

请求参数：

| 字段 | 类型 | 必填 | 说明 | |------|------|------|------| | audioPath | string | 是 | 音频文件的本地绝对路径 | | language | string | 否 | 语言代码（如 zh, en, ja），留空自动检测 |

请求示例：

{
  "audioPath": "/Users/xxx/Downloads/interview.mp3",
  "language": "zh"
}

成功响应（200）：

{
  "success": true,
  "text": "第一段转录文字\n第二段转录文字\n第三段转录文字"
}

失败响应（400/500）：

{
  "success": false,
  "error": "模型未安装，请先下载模型"
}

使用说明

端口固定为 18923，仅监听 127.0.0.1（本机访问）
支持格式：WAV / MP3 / FLAC / M4A / OGG / AAC（非 WAV 格式需系统安装 ffmpeg）
长音频自动按 30 秒分段转录，结果以换行符拼接
模型需在设置 → 语音模型中先下载（约 239 MB），否则转录接口会返回未安装错误
使用 SenseVoice Small 模型，支持中英日韩粤等 50+ 语种

curl 快速测试

# 检查模型是否已安装
curl http://127.0.0.1:18923/v1/audio/models/status

# 转录音频文件
curl -X POST http://127.0.0.1:18923/v1/audio/transcriptions \
  -H 'Content-Type: application/json' \
  -d '{"audioPath": "/path/to/audio.mp3"}'

在 Claude Skill 中调用

# 在 skill 脚本中调用转录 API
result=$(curl -s -X POST http://127.0.0.1:18923/v1/audio/transcriptions \
  -H 'Content-Type: application/json' \
  -d "{\"audioPath\": \"$AUDIO_FILE\"}")

echo "$result" | jq -r '.text'

Agent Skills: ffmpeg 使用指南

Install this agent skill to your local

Skill Files