Artwork

المحتوى المقدم من Building The Future. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة Building The Future أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.
Player FM - تطبيق بودكاست
انتقل إلى وضع عدم الاتصال باستخدام تطبيق Player FM !

Avaliação de LLMs

55:36
 
مشاركة
 

Manage episode 496206514 series 2834098
المحتوى المقدم من Building The Future. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة Building The Future أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.

Hoje vamos explorar um tema essencial na atualidade da inteligência artificial: como avaliar e medir o desempenho dos grandes modelos de linguagem, os chamados Large Language Models (LLMs). Com o crescimento exponencial de ferramentas como o ChatGPT, GPT-4 ou Bard, surge a questão fundamental: Como sabemos se um modelo realmente compreende o que diz, ou se está apenas a reproduzir padrões previamente decorados? Para responder a isto, vamos analisar a importância dos benchmarks—testes padronizados que avaliam diferentes capacidades dos modelos, desde conhecimentos gerais até ao raciocínio lógico, passando pela capacidade de tomar decisões autónomas e executar tarefas práticas.

Ao longo do episódio, vamos ainda descobrir as métricas-chave que determinam a qualidade destes modelos, perceber porque é que algumas das ferramentas mais avançadas falham quando confrontadas com problemas ligeiramente diferentes dos habituais, e examinar estudos recentes—como o da Apple, que questiona seriamente se osmodelos realmente “pensam” ou se apenas simulam essa capacidade. Vamos também discutir as forças e limitações dos atuais métodos de avaliação, abordando as diferenças entre modelos de código aberto e fechado, e apresentar sugestões para melhorar a forma como medimos o verdadeiro potencial da IA.

AI News:

Email us at [email protected]

Produção:

Beatriz Herrera González - https://www.linkedin.com/in/beahgonzalez/

Hosts:

Marco António Silva: https://www.linkedin.com/in/marconsilva/

José António Silva: https://www.linkedin.com/in/canoas/

Vitor Santos: https://www.linkedin.com/in/vitor-santos-ab87662/

  continue reading

105 حلقات

Artwork
iconمشاركة
 
Manage episode 496206514 series 2834098
المحتوى المقدم من Building The Future. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة Building The Future أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.

Hoje vamos explorar um tema essencial na atualidade da inteligência artificial: como avaliar e medir o desempenho dos grandes modelos de linguagem, os chamados Large Language Models (LLMs). Com o crescimento exponencial de ferramentas como o ChatGPT, GPT-4 ou Bard, surge a questão fundamental: Como sabemos se um modelo realmente compreende o que diz, ou se está apenas a reproduzir padrões previamente decorados? Para responder a isto, vamos analisar a importância dos benchmarks—testes padronizados que avaliam diferentes capacidades dos modelos, desde conhecimentos gerais até ao raciocínio lógico, passando pela capacidade de tomar decisões autónomas e executar tarefas práticas.

Ao longo do episódio, vamos ainda descobrir as métricas-chave que determinam a qualidade destes modelos, perceber porque é que algumas das ferramentas mais avançadas falham quando confrontadas com problemas ligeiramente diferentes dos habituais, e examinar estudos recentes—como o da Apple, que questiona seriamente se osmodelos realmente “pensam” ou se apenas simulam essa capacidade. Vamos também discutir as forças e limitações dos atuais métodos de avaliação, abordando as diferenças entre modelos de código aberto e fechado, e apresentar sugestões para melhorar a forma como medimos o verdadeiro potencial da IA.

AI News:

Email us at [email protected]

Produção:

Beatriz Herrera González - https://www.linkedin.com/in/beahgonzalez/

Hosts:

Marco António Silva: https://www.linkedin.com/in/marconsilva/

José António Silva: https://www.linkedin.com/in/canoas/

Vitor Santos: https://www.linkedin.com/in/vitor-santos-ab87662/

  continue reading

105 حلقات

كل الحلقات

×
 
Loading …

مرحبًا بك في مشغل أف ام!

يقوم برنامج مشغل أف أم بمسح الويب للحصول على بودكاست عالية الجودة لتستمتع بها الآن. إنه أفضل تطبيق بودكاست ويعمل على أجهزة اندرويد والأيفون والويب. قم بالتسجيل لمزامنة الاشتراكات عبر الأجهزة.

 

دليل مرجعي سريع

حقوق الطبع والنشر 2025 | سياسة الخصوصية | شروط الخدمة | | حقوق النشر
استمع إلى هذا العرض أثناء الاستكشاف
تشغيل