4 Ways to Align LLMs: RLHF, DPO, KTO, and ORPO

Опубликовано: 10 Июль 2024
на канале: Snorkel AI

2,968

65

Enterprises must align large language models to make them work on their specific domain, task, and communication style. Snorkel AI researcher Tom Walshe walks through four separate LLM alignment methods:

Reinforcement learning with human feedback (RLHF)
Direct preference optimization (DPO)
Odds-ratio preference optimization (ORPO)
Kahneman-Tversky Optimization (KTO)

Each of these approaches has advantages and drawbacks.

This video is an excerpt from a longer webinar. See it here: • How to Fine-Tune LLMs to Perform Specializ...

#largelanguagemodels #alignment #orpo

Danganronpa Croxx: Chapter 3 Deadly Life - FULL Investigation (Eng Sub)

Danganronpa Croxx: Chapter 3 Deadly Life - FULL Investigation (Eng Sub)

Как совмещать 4 бизнеса и быть успешным | Андрей Котов

Как совмещать 4 бизнеса и быть успешным | Андрей Котов

El Cascabel [Son Jarocho] | The Mesoamerican Orchestra

El Cascabel [Son Jarocho] | The Mesoamerican Orchestra

ЗАНЯЛИ ПЕРВОЕ МЕСТО В ТУРНИРЕ ПО РАСТ. НЕ ДАЛИ НИ ШАНСУ... (BASEINVADERS)

ЗАНЯЛИ ПЕРВОЕ МЕСТО В ТУРНИРЕ ПО РАСТ. НЕ ДАЛИ НИ ШАНСУ... (BASEINVADERS)

Cum controlezi pc-ul cu telefonul

Cum controlezi pc-ul cu telefonul

Dean Martin - In Napoli

Dean Martin - In Napoli

imagin.Asia 2018: Highlights

imagin.Asia 2018: Highlights

:: الجديد .. الجديد (Layder boy ft L'arTisTou Azmi ( Ye Lebnaya ::

:: الجديد .. الجديد (Layder boy ft L'arTisTou Azmi ( Ye Lebnaya ::