reward-modeling | Agent Skills

fine-tuning-with-trl

Fine-tune LLMs using reinforcement learning with TRL - SFT for instruction tuning, DPO for preference alignment, PPO/GRPO for reward optimization, and reward model training. Use when need RLHF, align model with preferences, or train from human feedback. Works with HuggingFace Transformers.

fine-tuningreinforcement-learningrlhfhuggingface

ovachiever

rlhf

Understanding Reinforcement Learning from Human Feedback (RLHF) for aligning language models. Use when learning about preference data, reward modeling, policy optimization, or direct alignment algorithms like DPO.

reinforcement-learningrlhflarge-language-modelsreward-modeling

itsmostafa

Agent Skills with tag: reward-modeling

fine-tuning-with-trl

rlhf