LLM Knowledge - 知識庫 Skill

LLM Knowledge - 知識庫

提供 LLM fine-tuning 相關的結構化知識，減少上網搜尋時間。

知識範圍

本知識庫涵蓋以下領域（知識截止：2026-01）：

| 領域 | 內容 | |------|------| | 模型架構 | Dense, MoE, MLA | | 基礎模型 | Qwen, DeepSeek, Llama, Phi | | 訓練方法 | SFT, LoRA, QLoRA, DoRA | | 對齊方法 | DPO, ORPO, KTO, SimPO | | 任務類型 | 分類、NER、生成 | | 問題排解 | 過擬合、欠擬合、類別不平衡 |

快速查詢

模型選擇

| 需求 | 推薦模型 | 說明 | |------|----------|------| | 中文任務 | Qwen3-4B/8B | 中文能力最強 | | 推理任務 | DeepSeek-R1 | 推理鏈能力強 | | 輕量部署 | Phi-4 | 14B 效能媲美 70B | | 生態整合 | Llama-3.3 | 工具支援最完整 | | 成本優先 | DeepSeek-V3 | API 成本僅 1/17 |

訓練方法選擇

| 情況 | 推薦方法 | 原因 | |------|----------|------| | 標準監督學習 | SFT | 最穩定基礎方法 | | 資源有限 | LoRA (r=32) | 僅訓練 0.1% 參數 | | 極低資源 | QLoRA | 4-bit 量化 + LoRA | | 有偏好資料 | ORPO | 無需參考模型 | | 強調對齊 | DPO | 需要 chosen/rejected 對 |

LoRA 配置建議

| 資料量 | LoRA r | alpha | 說明 | |--------|--------|-------|------| | <500 | 16 | 32 | 保守配置，防過擬合 | | 500-2000 | 32 | 64 | 建議配置 | | 2000-5000 | 64 | 128 | 充足資料 | | >5000 | 128+ | 256+ | 可考慮 full fine-tuning |

常見問題速查

| 症狀 | 可能原因 | 解決方案 | |------|----------|----------| | 整體 F1 低 | 資料不足/模型太小 | 增加資料、換大模型 | | 某類別 F1 低 | 類別不平衡 | 過採樣、類別權重 | | Train loss 低但 eval 高 | 過擬合 | 減少 epochs、增加 dropout | | Loss 不下降 | 學習率問題 | 調整 learning rate | | 輸出格式錯誤 | 訓練資料格式不一致 | 檢查 chat format |

詳細知識

模型架構

Dense 架構

代表模型: Llama, Qwen (非-MoE), Phi
特點: 標準 Transformer，所有參數都參與計算
優點: 穩定、工具支援完整
缺點: 計算成本高

MoE (Mixture of Experts)

代表模型: DeepSeek-V3, Mixtral, Qwen-MoE
特點: 稀疏激活，只有部分專家參與計算
優點: 效率高，相同效能下成本更低
缺點: 部署複雜，需要更多記憶體

MLA (Multi-head Latent Attention)

代表模型: DeepSeek-V2/V3
特點: 壓縮 KV cache，降低推理成本
優點: 長序列效率高
應用: 適合長文本任務

訓練方法詳解

SFT (Supervised Fine-Tuning)

適用場景:
  - 標準分類、抽取任務
  - 有充足標註資料
  - 需要穩定可預測的結果

配置建議:
  epochs: 3-8
  learning_rate: 1e-5 ~ 5e-5
  batch_size: 4-16
  warmup_ratio: 0.1

LoRA (Low-Rank Adaptation)

適用場景:
  - 資源有限（GPU 記憶體不足）
  - 需要快速迭代
  - 保留基礎模型能力

配置建議:
  r: 16-64 (根據資料量)
  alpha: 2 * r
  dropout: 0.05-0.1
  target_modules: [q_proj, v_proj, k_proj, o_proj]

QLoRA

適用場景:
  - 極低資源環境
  - 消費級 GPU (RTX 3090, 4090)
  - 大模型微調

配置建議:
  quantization: 4-bit (nf4)
  lora_r: 32-64
  compute_dtype: bfloat16

DPO (Direct Preference Optimization)

適用場景:
  - 有 chosen/rejected 配對資料
  - 需要對齊人類偏好
  - 生成任務品質優化

配置建議:
  beta: 0.1-0.5
  需要資料: chosen/rejected pairs
  通常在 SFT 後進行

ORPO (Odds Ratio Preference Optimization)

適用場景:
  - 有偏好資料但不想用參考模型
  - 簡化訓練流程
  - 效率優先

配置建議:
  beta: 0.1
  lambda: 0.1
  無需參考模型

任務類型最佳實踐

情感分析

推薦配置:
  base_model: Qwen3-4B
  method: SFT + LoRA
  output: JSON (sentiment field)

注意事項:
  - 處理類別不平衡
  - 中立類別通常最難
  - 考慮 aspect-based 需求

命名實體識別 (NER)

推薦配置:
  base_model: Qwen3-8B
  method: SFT + LoRA
  output: JSON (entities array)

注意事項:
  - 實體邊界標註一致性
  - 考慮巢狀實體
  - 評估用 entity-level F1

文本生成

推薦配置:
  base_model: 依需求選擇
  method: SFT → ORPO/DPO
  output: 自然語言

注意事項:
  - 先 SFT 建立基礎能力
  - 再用對齊方法提升品質
  - 評估指標多元化

2025-2026 關鍵趨勢

MoE 成為主流: Top 10 開源模型均採用 MoE 架構
DeepSeek 崛起: R1 達 ChatGPT 水準，API 成本僅 1/17
Qwen 超越 Llama: HuggingFace 下載量和微調使用率第一
SLM 實用化: Phi-4、Gemma 3 在特定任務媲美大模型
對齊方法多元化: ORPO、KTO、SimPO、GRPO 湧現

Agent Skills: LLM Knowledge - 知識庫

Install this agent skill to your local

Skill Files