Alle Beiträge

FourA taucht in Dawn auf, und das ist der Aufstieg von etwas

Dawn hat diese Woche eine FourA-Integration veröffentlicht. Hinter jeder Agenten-Antwort, die das Live-Web nutzt, steht jetzt ein Extraktions-Call. Hier ist die Form, die sich abzeichnet.

Ein Entwickler öffnet Dawn und fragt: "Scrape https://topstartups.io/ und gib mir die ersten 10 Startups, inklusive Namen, Beschreibungen, Hauptsitz, Gründungsjahr, URLs, Social-Media-Seiten, formatiert als Tabelle."

Der Agent überlegt kurz, ruft die Seite ab, parst die Einträge, folgt dem Profil jedes Startups und gibt die Tabelle zurück. Zehn Zeilen. Jede Spalte ausgefüllt. Pogo, Auctor, Scalify, Omnea, Rivan, Listen Labs, Doppel, Blossom, Avoca, Traba. Hauptsitze in Brooklyn, New York, London, San Francisco, Remote. LinkedIn für die meisten. Gründungsjahre 2020 bis 2026.

Diese Tabelle war das Ergebnis einer Handvoll FourA-Aufrufe.

Diese Woche hat Dawn FourA als First-Class-Tool veröffentlicht innerhalb ihrer Agenten-Plattform. Es befindet sich in ihrem Integrationsraster direkt neben Notion, GitHub und Google Drive. Agenten mit FourA-Zugriff können eine öffentliche Webseite oder einen HTTP-endpoint abrufen, die response (inklusive JSON) parsen, ein Formular absenden, die Erreichbarkeit prüfen und bestimmten Text oder Links aus den Rückgabedaten extrahieren. Jeder Agent hat entweder expliziten Zugriff oder nicht. Governance pro Agent, kein "Jeder Agent darf ins Internet"-Footgun.

FourA im Integrationsraster von Dawn, neben OneDrive, MailJet, Linear, Jira und Trello FourA im Integrationsraster von Dawn, neben OneDrive, MailJet, Linear, Jira und Trello

Interessant ist nicht, dass ein Agent eine URL aufrufen kann. Websuche gibt es in Agenten-Plattformen schon seit einem Jahr. Interessant ist die Form des Tools, die sich hier abzeichnet.

Websuche und URL-Extraktion sind verschiedene Aufgaben. Die Suche ist für "Was sagt das Internet über X?" gedacht. Breite, generative Informationen auf Zusammenfassungsniveau. Die Extraktion ist für "Hier ist die URL oder der endpoint, ruf sie ab und gib mir die strukturierte Antwort" gedacht. Unterschiedliche Zuverlässigkeitsanforderungen, unterschiedliche Kostenprofile, unterschiedliche Fehlermuster. Beides in einem Tool zu mischen, führt zu mittelmäßigen Ergebnissen für beide.

Die Integration von Dawn behandelt sie getrennt. Sie haben eine /web-research-Funktion für die breite Aufgabe. FourA ist für die gezielte Aufgabe da. Ein Agent greift nach dem richtigen Tool, basierend auf dem, was er tatsächlich benötigt. Und das ist das Reifemuster, das wir im Jahr 2026 plattformübergreifend bei Agenten sehen: Extraktion entwickelt sich von der "drangeflanschten Suche" zu einem eigenen Primitiv.

Für die Plattform-Entwickler unter euch

Dawn stellt FourA als acht benannte Tools bereit, die jeweils einem gängigen Extraktionsmuster entsprechen:

  • foura_fetch_page für HTML- und Textseiten
  • foura_extract_text für sauberen, lesbaren Inhalt
  • foura_extract_links für Navigation, Formulare, Skripte und Styles
  • foura_fetch_json für API-endpoints
  • foura_head_url für header, Status, Redirects
  • foura_probe_site für schnelle Erreichbarkeitsprüfungen
  • foura_submit_form für formularübermittlungen ohne Login
  • foura_single_request für beliebiges HTTP

Der Agent wählt basierend auf den Anforderungen der Anfrage aus. Die obige topstartups-Anfrage nutzte drei davon nacheinander: einen Fetch, ein Extract, ein Follow-up.

Die Integration ist unkompliziert genug, um sie an einem Tag umzusetzen. Darunter liegen zwei Request-Varianten: ein Direktmodus mit Browser-Fingerprinting für Seiten, die nicht aggressiv blockieren, und ein Proxy-gerouteter Modus für alles andere. Beide teilen sich dieselbe Request-Form: URL, optionale header und Body, optionales Parsen der response. Der Agent wählt basierend auf den Anforderungen der Zielseite aus.

Der Contract, den eine Plattform ihren Agenten anbietet, sieht meistens so aus:

  • Eine kleine Auswahl an Funktionen (fetch / extract / probe / submit), jeweils mit einer fokussierten Tool-Definition, die der Agent nutzen kann
  • Standardmäßig Proxy-Modus, Fallback auf Direktmodus, wenn Latenz oder Kosten eine Rolle spielen
  • Berechtigungen pro Agent, damit die Kunden der Plattform die Kontrolle behalten
  • Strukturiertes Parsen der response, bereitgestellt als Tool-Parameter und nicht in einem System-Prompt vergraben

Aber der Teil, den die meisten Plattform-Entwickler unterschätzen, ist das, was im Tail passiert. Der 80%-Fall (ein Fetch ist in 200 ms erfolgreich, gibt sauberes HTML zurück) ist die einfache Hälfte. Die anderen 20% (Seiten, die auf TLS-Fingerprints prüfen, eine JS-Challenge in die response einschleusen oder einen 403-Fehler bei Cloud-IP-Blöcken zurückgeben) entscheiden darüber, ob dein Agent eine korrekte oder eine halluzinierte Antwort liefert. Wir haben unseren Request-Pfad genau für diesen Tail umgebaut, und der Unterschied zwischen "fühlt sich zuverlässig an" und "ist tatsächlich zuverlässig" macht den Großteil der Arbeit aus.

Wenn du also eine Agenten-Plattform betreibst und deine Kunden ständig fragen, wie ihre Agenten "einfach mal diese URL prüfen" können, ist das das Muster. Die Dokumentation findest du unter /docs. Wir führen dich gerne durch den Prozess.

Für alle anderen

Du wirst von all dem nichts mitbekommen. Du wirst nur merken, dass ein KI-Assistent, wenn du ihm eine Frage stellst, die den Blick auf eine echte, aktuelle Webseite erfordert, korrekt antwortet, anstatt zu raten oder sich zu entschuldigen.

Das ist das für Nutzer sichtbare Ergebnis einer Extraktions-Grundfunktion, die zuverlässig genug ist, um neben GitHub und Google Drive in einem Integrationsraster zu existieren. Es ist kein Forschungsprojekt mehr. Es wird zur Infrastruktur.

Warum das wichtig ist

Vor sechs Monaten war ein Agent, der eine Webseite lesen musste, noch eine Eigenentwicklung. Maßgeschneiderte Prompts, fragile Scraper, selbstgebaute Retries, eine Erfolgsquote von 60% an einem guten Tag. Die Form stimmte nicht, weil es diese Ebene noch nicht gab. Und die Seiten, die der Agent aufrief, veränderten sich ständig. Anti-Bot-Technologien haben sich von statischen Signalen zu Verhaltensprüfungen verlagert, sodass die notdürftig zusammengeflickten Scraper schneller den Geist aufgaben, als die Teams sie flicken konnten.

Jetzt bildet sich diese Ebene heraus. Dawn hat das aufgegriffen und eine Integration veröffentlicht. Wir erwarten, dass in diesem Jahr weitere Agenten-Plattformen folgen werden, und wir erwarten, dass sich der Contract angleicht: ein dediziertes Tool für die Suche, ein dediziertes Tool für die Extraktion, Governance pro Agent, kalkulierbare Kosten.

Wir stehen noch am Anfang. Aber genau so sieht der Aufstieg von etwas aus. Wenn eine Funktion aufhört, ein Projekt zu sein, und zu einem einfachen Plug wird.

Wenn du eine Agenten-Plattform baust und dieselbe Form anbieten möchtest, sag Hallo. Wenn du Agenten auf Dawn baust, ist FourA bereits da. Schalte es einfach ein.