Artwork

المحتوى المقدم من Wolfgang Gassler, Andy Grunwald, Wolfgang Gassler, and Andy Grunwald. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة Wolfgang Gassler, Andy Grunwald, Wolfgang Gassler, and Andy Grunwald أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.
Player FM - تطبيق بودكاست
انتقل إلى وضع عدم الاتصال باستخدام تطبيق Player FM !

#201 Wie hart kann es sein, einen Link zu checken... mit Matthias Endler

1:18:10
 
مشاركة
 

Manage episode 490480004 series 3432292
المحتوى المقدم من Wolfgang Gassler, Andy Grunwald, Wolfgang Gassler, and Andy Grunwald. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة Wolfgang Gassler, Andy Grunwald, Wolfgang Gassler, and Andy Grunwald أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.

Ein Klick – und nichts passiert. Statt der gewünschten Website landet man im digitalen Nirwana: 404 Not Found. Jede:r kennt es, niemand mag es. Doch was technisch im Hintergrund passiert, wenn ein Link kaputt ist – und wie man das automatisch erkennen kann – ist alles andere als simpel.

Denn Links sind weit mehr als nur HTTP-URLs. Sie können auf Dateien, E-Mail-Adressen oder interne Dokumentfragmente zeigen. Sie können sich über Weiterleitungen verändern, mit JavaScript generiert werden oder nur unter bestimmten Bedingungen erreichbar sein. Und genau das macht die automatische Überprüfung von Links so komplex.

In dieser Episode sprechen wir mit Matthias Endler, Rust-Consultant, Blogger und Core-Maintainer des Open-Source-Linkcheckers Lychee. Was als Side Project begann, ist heute im Einsatz bei Unternehmen wie Amazon und GitLab. Mit Matthias diskutieren wir, wie Lychee aufgebaut ist, warum Linkchecking so viele Edge Cases beinhaltet und warum es ohne gutes Domain-Wissen oft unmöglich ist, die „richtige“ Antwort zu erkennen.

Wir sprechen über die Rolle von HTTP-Statuscodes (inkl. selbst erfundener Codes), Markdown vs. HTML Parsing, Redirect-Hölle, die Tücken von GitHub APIs, wie Lychee Plattform-Spezialfälle wie YouTube oder LinkedIn behandelt – und warum DOI-Links trotz akademischer Standards gerne mal ins Leere laufen.

Bonus: Warum Matthias den Server einer Immobilienmaklerin am Gewissen hat.

Unsere aktuellen Werbepartner findest du auf https://engineeringkiosk.dev/partners

Das schnelle Feedback zur Episode:

👍 (top) 👎 (geht so)

Anregungen, Gedanken, Themen und Wünsche

Dein Feedback zählt! Erreiche uns über einen der folgenden Kanäle …

Unterstütze den Engineering Kiosk

Wenn du uns etwas Gutes tun möchtest … Kaffee schmeckt uns immer

Links

Sprungmarken

(00:00:00) Die Komplexität von Links und Link-Checking mit Matthias Endler

(00:05:34) Was ist ein Link-Checker?

(00:05:58) Info/Werbung

(00:06:58) Was ist ein Link-Checker?

(00:23:57) Technische Architektur: Extraktoren, Streams & Channels und Edge-Cases

(00:40:00) Request-Bodies, JavaScript und Weiterleitungen

(00:47:55) Warum eigentlich nicht cURL?

(00:52:37) DOI-Links, interne IP-Adressen und S3-Bucket-Kosten

(01:04:18) Verbreitung des Link-Checkers, Projekt Start und Motivation

Hosts

Community

Diskutiere mit uns und vielen anderen Tech-Spezialist⋅innen in unserer Engineering Kiosk Community unter https://engineeringkiosk.dev/join-discord

  continue reading

217 حلقات

Artwork
iconمشاركة
 
Manage episode 490480004 series 3432292
المحتوى المقدم من Wolfgang Gassler, Andy Grunwald, Wolfgang Gassler, and Andy Grunwald. يتم تحميل جميع محتويات البودكاست بما في ذلك الحلقات والرسومات وأوصاف البودكاست وتقديمها مباشرة بواسطة Wolfgang Gassler, Andy Grunwald, Wolfgang Gassler, and Andy Grunwald أو شريك منصة البودكاست الخاص بهم. إذا كنت تعتقد أن شخصًا ما يستخدم عملك المحمي بحقوق الطبع والنشر دون إذنك، فيمكنك اتباع العملية الموضحة هنا https://ar.player.fm/legal.

Ein Klick – und nichts passiert. Statt der gewünschten Website landet man im digitalen Nirwana: 404 Not Found. Jede:r kennt es, niemand mag es. Doch was technisch im Hintergrund passiert, wenn ein Link kaputt ist – und wie man das automatisch erkennen kann – ist alles andere als simpel.

Denn Links sind weit mehr als nur HTTP-URLs. Sie können auf Dateien, E-Mail-Adressen oder interne Dokumentfragmente zeigen. Sie können sich über Weiterleitungen verändern, mit JavaScript generiert werden oder nur unter bestimmten Bedingungen erreichbar sein. Und genau das macht die automatische Überprüfung von Links so komplex.

In dieser Episode sprechen wir mit Matthias Endler, Rust-Consultant, Blogger und Core-Maintainer des Open-Source-Linkcheckers Lychee. Was als Side Project begann, ist heute im Einsatz bei Unternehmen wie Amazon und GitLab. Mit Matthias diskutieren wir, wie Lychee aufgebaut ist, warum Linkchecking so viele Edge Cases beinhaltet und warum es ohne gutes Domain-Wissen oft unmöglich ist, die „richtige“ Antwort zu erkennen.

Wir sprechen über die Rolle von HTTP-Statuscodes (inkl. selbst erfundener Codes), Markdown vs. HTML Parsing, Redirect-Hölle, die Tücken von GitHub APIs, wie Lychee Plattform-Spezialfälle wie YouTube oder LinkedIn behandelt – und warum DOI-Links trotz akademischer Standards gerne mal ins Leere laufen.

Bonus: Warum Matthias den Server einer Immobilienmaklerin am Gewissen hat.

Unsere aktuellen Werbepartner findest du auf https://engineeringkiosk.dev/partners

Das schnelle Feedback zur Episode:

👍 (top) 👎 (geht so)

Anregungen, Gedanken, Themen und Wünsche

Dein Feedback zählt! Erreiche uns über einen der folgenden Kanäle …

Unterstütze den Engineering Kiosk

Wenn du uns etwas Gutes tun möchtest … Kaffee schmeckt uns immer

Links

Sprungmarken

(00:00:00) Die Komplexität von Links und Link-Checking mit Matthias Endler

(00:05:34) Was ist ein Link-Checker?

(00:05:58) Info/Werbung

(00:06:58) Was ist ein Link-Checker?

(00:23:57) Technische Architektur: Extraktoren, Streams & Channels und Edge-Cases

(00:40:00) Request-Bodies, JavaScript und Weiterleitungen

(00:47:55) Warum eigentlich nicht cURL?

(00:52:37) DOI-Links, interne IP-Adressen und S3-Bucket-Kosten

(01:04:18) Verbreitung des Link-Checkers, Projekt Start und Motivation

Hosts

Community

Diskutiere mit uns und vielen anderen Tech-Spezialist⋅innen in unserer Engineering Kiosk Community unter https://engineeringkiosk.dev/join-discord

  continue reading

217 حلقات

Minden epizód

×
 
Loading …

مرحبًا بك في مشغل أف ام!

يقوم برنامج مشغل أف أم بمسح الويب للحصول على بودكاست عالية الجودة لتستمتع بها الآن. إنه أفضل تطبيق بودكاست ويعمل على أجهزة اندرويد والأيفون والويب. قم بالتسجيل لمزامنة الاشتراكات عبر الأجهزة.

 

دليل مرجعي سريع

حقوق الطبع والنشر 2025 | سياسة الخصوصية | شروط الخدمة | | حقوق النشر
استمع إلى هذا العرض أثناء الاستكشاف
تشغيل