Русские видео

Сейчас в тренде

Иностранные видео


Скачать с ютуб RLHF Intro: from Zero to Aligned Intelligent Systems | Igor Kotenkov в хорошем качестве

RLHF Intro: from Zero to Aligned Intelligent Systems | Igor Kotenkov 1 год назад


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса savevideohd.ru



RLHF Intro: from Zero to Aligned Intelligent Systems | Igor Kotenkov

Ссылка на презентацию: https://1drv.ms/p/s!AlnN0aqNwShslWtiu... Мой телеграм канал: https://t.me/seeallochnaya Список всех моих образовательных материалов, статей, лекций итд: https://t.me/seeallochnaya/3 Перед вами - обзорная-лекция блока Instruct Models Датафеста 2023го года. В ней рассказано о проблемах в мире машинного обучения, о несоответствии функций для оптимизации и реальных задач, для которых модели предназначаются. В лекции будут рассказаны основы RL, языковых моделей, а затем показано, как эти два направления можно объединить, чтобы тренировать модель напрямую оптимизировать воспринимаемое человеком качество генерации. В заключении будет дан обзор текущих тенденций в мире RLHF (Reinforcement Learning from Human Feedback) и рассказано про то, что же такое AI Alignment и почему им нужно заниматься уже сейчас. Подпишитесь на наш канал, чтобы не пропустить новые видео о машинном обучении и искусственном интеллекте. Не забудьте поставить лайк и поделиться этим видео с друзьями, если оно вам понравилось. Если у вас возникнут вопросы или предложения, оставляйте их в комментариях! Timeline: 00:00 Intro 01:58 Text Summarization Task 05:02 Summaraiztion Metrics, or what is the problem? 09:58 What Reward is, and why should we care about its definition? 14:33 Man is the measure of the quality 25:05 The Setup 32:04 RLHF Pipeline Overview 39:23 Reward Modelling (based on Human Preferences) 47:01 How to train a Language Model using Reinforcement Learning Techniques? 1:01:00 Overfitting, or how to solve the overoptimization problem 1:09:18 InstructGPT 1:14:17 ChatGPT 1:17:21 Why RLHF works? 1:20:40 Why do Hallucinations happen? 1:28:02 Harmless, Helpful, and Instruction-following models 1:34:53 Why Alignment is a thing, or what models a do, if we won't control them 1:39:20 RL from AI Feedback, or what's next? ---- #chatgpt #ai #alignment #rlhf #Трансформеры #Машинноеобучение #Искусственныйинтеллект #NLP #DeepLearning #AI #NeuralNetworks #NaturalLanguageProcessing #MachineLearningAlgorithms #DataScience #LanguageModels #ML #GPT #OpenAI #MLengineers #chatgpt #attention #attentionisallyouneed #rlhf #rl #humanfeedback #ai #deeplearning #GPT3 #gpt4 #gpt3.5 #claude #anthropic #alignment #rlfaif

Comments