انتقل إلى وضع عدم الاتصال باستخدام تطبيق Player FM !
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification
Manage episode 499008741 series 3524393
We introduce Dynamic Fine-Tuning (DFT), enhancing Supervised Fine-Tuning for Large Language Models by improving generalization through dynamic gradient updates, outperforming standard methods across benchmarks.
https://arxiv.org/abs//2508.05629
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
2489 حلقات
Manage episode 499008741 series 3524393
We introduce Dynamic Fine-Tuning (DFT), enhancing Supervised Fine-Tuning for Large Language Models by improving generalization through dynamic gradient updates, outperforming standard methods across benchmarks.
https://arxiv.org/abs//2508.05629
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
2489 حلقات
كل الحلقات
×مرحبًا بك في مشغل أف ام!
يقوم برنامج مشغل أف أم بمسح الويب للحصول على بودكاست عالية الجودة لتستمتع بها الآن. إنه أفضل تطبيق بودكاست ويعمل على أجهزة اندرويد والأيفون والويب. قم بالتسجيل لمزامنة الاشتراكات عبر الأجهزة.