انتقل إلى وضع عدم الاتصال باستخدام تطبيق Player FM !
Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs
Manage episode 500127308 series 3524393
This paper explores filtering dual-use topics from training data to enhance the tamper-resistance of open-weight AI systems, demonstrating significant improvements in adversarial fine-tuning resistance without degrading unrelated capabilities.
https://arxiv.org/abs//2508.06601
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
2489 حلقات
Manage episode 500127308 series 3524393
This paper explores filtering dual-use topics from training data to enhance the tamper-resistance of open-weight AI systems, demonstrating significant improvements in adversarial fine-tuning resistance without degrading unrelated capabilities.
https://arxiv.org/abs//2508.06601
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
2489 حلقات
كل الحلقات
×مرحبًا بك في مشغل أف ام!
يقوم برنامج مشغل أف أم بمسح الويب للحصول على بودكاست عالية الجودة لتستمتع بها الآن. إنه أفضل تطبيق بودكاست ويعمل على أجهزة اندرويد والأيفون والويب. قم بالتسجيل لمزامنة الاشتراكات عبر الأجهزة.