Artwork

المحتوى المقدم من wail. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة wail أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.
Player FM - تطبيق بودكاست
انتقل إلى وضع عدم الاتصال باستخدام تطبيق Player FM !

Fine-Tuning AI Models: Unlocking the Potential of Llama 2, Code Llama, and OpenHermes

23:20
 
مشاركة
 

سلسلة مؤرشفة ("تلقيمة معطلة" status)

When? This feed was archived on January 21, 2025 14:14 (11M ago). Last successful fetch was on September 28, 2024 12:48 (1y ago)

Why? تلقيمة معطلة status. لم تتمكن خوادمنا من جلب تلقيمة بودكاست صحيحة لفترة طويلة.

What now? You might be able to find a more up-to-date version using the search function. This series will no longer be checked for updates. If you believe this to be in error, please check if the publisher's feed link below is valid and contact support to request the feed be restored or if you have any other concerns about this.

Manage episode 440702883 series 3601678
المحتوى المقدم من wail. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة wail أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.

In this episode, we dive deep into the world of fine-tuning AI language models, breaking down the processes and techniques behind optimizing models like Llama 2, Code Llama, and OpenHermes. We'll explore the critical role of high-quality instruction datasets and walk you through a step-by-step guide on fine-tuning Llama 2 using Google Colab. Learn about the key libraries, parameters, and how to go beyond notebooks with more advanced scripts.

We also take a closer look at the fine-tuning of Code Llama with the Axolotl tool, covering everything from setting up a cloud-based GPU service to merging the trained model and uploading it to Hugging Face. Whether you're just starting with AI models or looking to level up your game, this episode has you covered.

Finally, we'll explore Direct Preference Optimization (DPO), a cutting-edge technique that significantly improved the performance of OpenHermes-2.5. DPO, a variation of Reinforcement Learning from Human Feedback (RLHF), shows how preference data can help models generate more accurate and relevant answers. Tune in for practical insights, code snippets, and tips to help you explore and optimize AI models.

  continue reading

1 حلقة واحدة

Artwork
iconمشاركة
 

سلسلة مؤرشفة ("تلقيمة معطلة" status)

When? This feed was archived on January 21, 2025 14:14 (11M ago). Last successful fetch was on September 28, 2024 12:48 (1y ago)

Why? تلقيمة معطلة status. لم تتمكن خوادمنا من جلب تلقيمة بودكاست صحيحة لفترة طويلة.

What now? You might be able to find a more up-to-date version using the search function. This series will no longer be checked for updates. If you believe this to be in error, please check if the publisher's feed link below is valid and contact support to request the feed be restored or if you have any other concerns about this.

Manage episode 440702883 series 3601678
المحتوى المقدم من wail. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة wail أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.

In this episode, we dive deep into the world of fine-tuning AI language models, breaking down the processes and techniques behind optimizing models like Llama 2, Code Llama, and OpenHermes. We'll explore the critical role of high-quality instruction datasets and walk you through a step-by-step guide on fine-tuning Llama 2 using Google Colab. Learn about the key libraries, parameters, and how to go beyond notebooks with more advanced scripts.

We also take a closer look at the fine-tuning of Code Llama with the Axolotl tool, covering everything from setting up a cloud-based GPU service to merging the trained model and uploading it to Hugging Face. Whether you're just starting with AI models or looking to level up your game, this episode has you covered.

Finally, we'll explore Direct Preference Optimization (DPO), a cutting-edge technique that significantly improved the performance of OpenHermes-2.5. DPO, a variation of Reinforcement Learning from Human Feedback (RLHF), shows how preference data can help models generate more accurate and relevant answers. Tune in for practical insights, code snippets, and tips to help you explore and optimize AI models.

  continue reading

1 حلقة واحدة

كل الحلقات

×
 
Loading …

مرحبًا بك في مشغل أف ام!

يقوم برنامج مشغل أف أم بمسح الويب للحصول على بودكاست عالية الجودة لتستمتع بها الآن. إنه أفضل تطبيق بودكاست ويعمل على أجهزة اندرويد والأيفون والويب. قم بالتسجيل لمزامنة الاشتراكات عبر الأجهزة.

 

دليل مرجعي سريع

حقوق الطبع والنشر 2025 | سياسة الخصوصية | شروط الخدمة | | حقوق النشر
استمع إلى هذا العرض أثناء الاستكشاف
تشغيل