انتقل إلى وضع عدم الاتصال باستخدام تطبيق Player FM !
Episode 154 - Sind LLMs auf Benchmark Daten manipuliert?
Manage episode 416428792 series 2911119
In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein.
Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824
208 حلقات
Manage episode 416428792 series 2911119
In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein.
Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824
208 حلقات
Tutti gli episodi
×مرحبًا بك في مشغل أف ام!
يقوم برنامج مشغل أف أم بمسح الويب للحصول على بودكاست عالية الجودة لتستمتع بها الآن. إنه أفضل تطبيق بودكاست ويعمل على أجهزة اندرويد والأيفون والويب. قم بالتسجيل لمزامنة الاشتراكات عبر الأجهزة.