Artwork

المحتوى المقدم من Brian Carter. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة Brian Carter أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.
Player FM - تطبيق بودكاست
انتقل إلى وضع عدم الاتصال باستخدام تطبيق Player FM !

LLM Tokenizers, from HFs LNP Course

12:23
 
مشاركة
 

Manage episode 448077700 series 3605861
المحتوى المقدم من Brian Carter. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة Brian Carter أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.

This excerpt from Hugging Face's NLP course provides a comprehensive overview of tokenization techniques used in natural language processing. Tokenizers are essential tools for transforming raw text into numerical data that machine learning models can understand. The text explores various tokenization methods, including word-based, character-based, and subword tokenization, highlighting their advantages and disadvantages. It then focuses on the encoding process, where text is first split into tokens and then converted to input IDs. Finally, the text demonstrates how to decode input IDs back into human-readable text.

Read more: https://huggingface.co/learn/nlp-course/en/chapter2/4

  continue reading

71 حلقات

Artwork
iconمشاركة
 
Manage episode 448077700 series 3605861
المحتوى المقدم من Brian Carter. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة Brian Carter أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.

This excerpt from Hugging Face's NLP course provides a comprehensive overview of tokenization techniques used in natural language processing. Tokenizers are essential tools for transforming raw text into numerical data that machine learning models can understand. The text explores various tokenization methods, including word-based, character-based, and subword tokenization, highlighting their advantages and disadvantages. It then focuses on the encoding process, where text is first split into tokens and then converted to input IDs. Finally, the text demonstrates how to decode input IDs back into human-readable text.

Read more: https://huggingface.co/learn/nlp-course/en/chapter2/4

  continue reading

71 حلقات

كل الحلقات

×
 
Loading …

مرحبًا بك في مشغل أف ام!

يقوم برنامج مشغل أف أم بمسح الويب للحصول على بودكاست عالية الجودة لتستمتع بها الآن. إنه أفضل تطبيق بودكاست ويعمل على أجهزة اندرويد والأيفون والويب. قم بالتسجيل لمزامنة الاشتراكات عبر الأجهزة.

 

دليل مرجعي سريع

استمع إلى هذا العرض أثناء الاستكشاف
تشغيل