LLM Knowledge - 知識庫
提供 LLM fine-tuning 相關的結構化知識,減少上網搜尋時間。
知識範圍
本知識庫涵蓋以下領域(知識截止:2026-01):
| 領域 | 內容 | |------|------| | 模型架構 | Dense, MoE, MLA | | 基礎模型 | Qwen, DeepSeek, Llama, Phi | | 訓練方法 | SFT, LoRA, QLoRA, DoRA | | 對齊方法 | DPO, ORPO, KTO, SimPO | | 任務類型 | 分類、NER、生成 | | 問題排解 | 過擬合、欠擬合、類別不平衡 |
快速查詢
模型選擇
| 需求 | 推薦模型 | 說明 | |------|----------|------| | 中文任務 | Qwen3-4B/8B | 中文能力最強 | | 推理任務 | DeepSeek-R1 | 推理鏈能力強 | | 輕量部署 | Phi-4 | 14B 效能媲美 70B | | 生態整合 | Llama-3.3 | 工具支援最完整 | | 成本優先 | DeepSeek-V3 | API 成本僅 1/17 |
訓練方法選擇
| 情況 | 推薦方法 | 原因 | |------|----------|------| | 標準監督學習 | SFT | 最穩定基礎方法 | | 資源有限 | LoRA (r=32) | 僅訓練 0.1% 參數 | | 極低資源 | QLoRA | 4-bit 量化 + LoRA | | 有偏好資料 | ORPO | 無需參考模型 | | 強調對齊 | DPO | 需要 chosen/rejected 對 |
LoRA 配置建議
| 資料量 | LoRA r | alpha | 說明 | |--------|--------|-------|------| | <500 | 16 | 32 | 保守配置,防過擬合 | | 500-2000 | 32 | 64 | 建議配置 | | 2000-5000 | 64 | 128 | 充足資料 | | >5000 | 128+ | 256+ | 可考慮 full fine-tuning |
常見問題速查
| 症狀 | 可能原因 | 解決方案 | |------|----------|----------| | 整體 F1 低 | 資料不足/模型太小 | 增加資料、換大模型 | | 某類別 F1 低 | 類別不平衡 | 過採樣、類別權重 | | Train loss 低但 eval 高 | 過擬合 | 減少 epochs、增加 dropout | | Loss 不下降 | 學習率問題 | 調整 learning rate | | 輸出格式錯誤 | 訓練資料格式不一致 | 檢查 chat format |
詳細知識
模型架構
Dense 架構
- 代表模型: Llama, Qwen (非-MoE), Phi
- 特點: 標準 Transformer,所有參數都參與計算
- 優點: 穩定、工具支援完整
- 缺點: 計算成本高
MoE (Mixture of Experts)
- 代表模型: DeepSeek-V3, Mixtral, Qwen-MoE
- 特點: 稀疏激活,只有部分專家參與計算
- 優點: 效率高,相同效能下成本更低
- 缺點: 部署複雜,需要更多記憶體
MLA (Multi-head Latent Attention)
- 代表模型: DeepSeek-V2/V3
- 特點: 壓縮 KV cache,降低推理成本
- 優點: 長序列效率高
- 應用: 適合長文本任務
訓練方法詳解
SFT (Supervised Fine-Tuning)
適用場景:
- 標準分類、抽取任務
- 有充足標註資料
- 需要穩定可預測的結果
配置建議:
epochs: 3-8
learning_rate: 1e-5 ~ 5e-5
batch_size: 4-16
warmup_ratio: 0.1
LoRA (Low-Rank Adaptation)
適用場景:
- 資源有限(GPU 記憶體不足)
- 需要快速迭代
- 保留基礎模型能力
配置建議:
r: 16-64 (根據資料量)
alpha: 2 * r
dropout: 0.05-0.1
target_modules: [q_proj, v_proj, k_proj, o_proj]
QLoRA
適用場景:
- 極低資源環境
- 消費級 GPU (RTX 3090, 4090)
- 大模型微調
配置建議:
quantization: 4-bit (nf4)
lora_r: 32-64
compute_dtype: bfloat16
DPO (Direct Preference Optimization)
適用場景:
- 有 chosen/rejected 配對資料
- 需要對齊人類偏好
- 生成任務品質優化
配置建議:
beta: 0.1-0.5
需要資料: chosen/rejected pairs
通常在 SFT 後進行
ORPO (Odds Ratio Preference Optimization)
適用場景:
- 有偏好資料但不想用參考模型
- 簡化訓練流程
- 效率優先
配置建議:
beta: 0.1
lambda: 0.1
無需參考模型
任務類型最佳實踐
情感分析
推薦配置:
base_model: Qwen3-4B
method: SFT + LoRA
output: JSON (sentiment field)
注意事項:
- 處理類別不平衡
- 中立類別通常最難
- 考慮 aspect-based 需求
命名實體識別 (NER)
推薦配置:
base_model: Qwen3-8B
method: SFT + LoRA
output: JSON (entities array)
注意事項:
- 實體邊界標註一致性
- 考慮巢狀實體
- 評估用 entity-level F1
文本生成
推薦配置:
base_model: 依需求選擇
method: SFT → ORPO/DPO
output: 自然語言
注意事項:
- 先 SFT 建立基礎能力
- 再用對齊方法提升品質
- 評估指標多元化
2025-2026 關鍵趨勢
- MoE 成為主流: Top 10 開源模型均採用 MoE 架構
- DeepSeek 崛起: R1 達 ChatGPT 水準,API 成本僅 1/17
- Qwen 超越 Llama: HuggingFace 下載量和微調使用率第一
- SLM 實用化: Phi-4、Gemma 3 在特定任務媲美大模型
- 對齊方法多元化: ORPO、KTO、SimPO、GRPO 湧現
相關資源
參考文件
詳細的技術文件和進階指南請參考:
references/models/- 各模型系列詳細指南references/methods/- 訓練方法深入解析references/architectures/- 模型架構技術細節references/troubleshooting/- 問題排解完整指南references/tasks/- 各任務類型最佳實踐
查詢方式
需要更詳細資訊時,可以查詢 references 目錄:
「Qwen 模型詳細資訊」→ references/models/qwen.md
「LoRA 進階配置」→ references/methods/peft/lora.md
「過擬合解決方案」→ references/troubleshooting/overfitting.md
知識截止: 2026-01