Signin

Direct Preference Optimization (DPO): Your Language Model is Secretly a Reward Model Explained

Gabriel Mongaras • August 30, 2023

Video Thumbnail

You May Also Like

Gabriel Mongaras

About

No channel description available.

Latest Posts

Video Thumbnail

Round and Round We Go! What makes Rotary Positional Encodings useful?

Gabriel Mongaras

Video Thumbnail

DeepSeek-V3

Gabriel Mongaras

Video Thumbnail

Memory Layers at Scale

Gabriel Mongaras

Video Thumbnail

OpenAI Sora and DiTs: Scalable Diffusion Models with Transformers

Gabriel Mongaras