انتقل إلى وضع عدم الاتصال باستخدام تطبيق Player FM !
[QA] SOTOPIA-RL: Reward Design for Social Intelligence
Manage episode 498751041 series 3524393
SOTOPIA-RL enhances reinforcement learning for social intelligence in language models by refining feedback into utterance-level, multi-dimensional rewards, improving goal completion in social tasks significantly.
https://arxiv.org/abs//2508.03905
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
2489 حلقات
Manage episode 498751041 series 3524393
SOTOPIA-RL enhances reinforcement learning for social intelligence in language models by refining feedback into utterance-level, multi-dimensional rewards, improving goal completion in social tasks significantly.
https://arxiv.org/abs//2508.03905
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
2489 حلقات
كل الحلقات
×مرحبًا بك في مشغل أف ام!
يقوم برنامج مشغل أف أم بمسح الويب للحصول على بودكاست عالية الجودة لتستمتع بها الآن. إنه أفضل تطبيق بودكاست ويعمل على أجهزة اندرويد والأيفون والويب. قم بالتسجيل لمزامنة الاشتراكات عبر الأجهزة.