Alle Beiträge

Wie KORENA einen Holzpreisindex auf FourA aufgebaut hat

KORENA hat einen täglichen europäischen Holzpreisindex auf Basis von Forstportalen, Auktions-PDFs und zehn Währungen aufgebaut. FourA ist der Request-Layer dahinter.

Europäische Holzpreisdaten sind technisch gesehen öffentlich, praktisch aber unbrauchbar. Ein Land listet Eichenpreise in Euro pro Kubikmeter ohne Steuern auf. Ein Nachbarland veröffentlicht Buchenpreise in Landeswährung inklusive Steuern, vergraben in einem gescannten PDF ohne durchsuchbare Textebene. Erschwerend kommt hinzu, dass stehende Bäume, Stammholz am Wegrand und ausgewählte Auktionslose oft nebeneinander aufgeführt werden, als ob es sich um identische Produkte handele.

Die Rohdaten existieren. Marktanalysen nicht.

KORENA hat den KORENA Timber Index gestartet, um das zu ändern. Das Ergebnis ist eine tägliche, frei zugängliche Referenz für europäische Laubholz-, Schnittholz- und Schwartenpreise. Seit Mitte 2026 erfasst der Index rund zwei Dutzend Baumarten und 170 regionale Preisreihen in zehn Ländern (Rumänien, Deutschland, Bulgarien, Polen, Frankreich, Österreich, Italien, Finnland, Norwegen, Schweden) sowie eine EU-weite Marktplatz-Ebene.

Damit ein zweiköpfiges Entwicklerteam so viel abdecken kann, musste KORENA eine Entscheidung vorab klären: Wer kümmert sich um das Web. Sie haben sich für FourA entschieden und leiten alles darüber.

Ein Gateway zum Web

KORENA hat sich früh für eine Architektur entschieden: Jeder externe Web-Request läuft über FourA. Sie haben unkontrollierte Scraper, Einmalskripte und benutzerdefinierte Befehle aus der Codebasis verbannt.

Es ging nicht um Bequemlichkeit. Es ging um Konsistenz. Forstportale verhalten sich unvorhersehbar. Einige sind statische HTML-Seiten. Andere sind moderne Auktionsplattformen, die Daten erst nach dem Rendering im Browser anzeigen. Regierungsseiten sind oft langsam, veraltet oder stark geschützt.

Durch das Routing des gesamten Traffics über die Request-Infrastruktur von FourA verarbeitet KORENA Retries, Backoff, Logging und Alerting für jede Quelle auf dieselbe Weise. Und jedes abgerufene Dokument kann gehasht, gespeichert und für Audits bis zum Endpreis zurückverfolgt werden.

Die richtige Fetch-Strategie pro Quelle wählen

Anstatt die Scraping-Logik für jede Website fest im Code zu hinterlegen, ordnet KORENA jede Datenquelle direkt in ihrer Datenbank einem bestimmten FourA-Endpoint zu (siehe Auswahl des richtigen Task-Typs für die vollständige Übersicht). Sie können die Strategie wechseln, ohne ihren Core-Parsing-Code anzufassen:

  • Single (/single/): Statische HTML-Seiten, XML-Feeds und direkte PDF-Downloads. Deutsche Statistikberichte, bulgarische Staatsforst-Updates, rumänische Preistabellen. Schnell, leichtgewichtig, der richtige Standard für die meisten Websites.

  • Browser (/browser/): Interaktive Webanwendungen, die einen echten Browser-Kontext benötigen. Polens Auktionsplattform e-Drewno erfordert ein Rendering, bevor die Zahlen erscheinen. Das initiale HTML enthält nichts Brauchbares.

  • Proxy Finder (/proxy/): Das Fallback für die schwierigsten Ziele. Stärkere Rotation, plus unblocker: true für Anti-Bot-Barrieren auf Handshake-Ebene.

Da es sich um eine quellenspezifische Einstellung und nicht um ein fest codiertes Skript handelt, kann KORENA eine Quelle von Single zu Browser oder Proxy Finder verschieben, wenn eine Website ihre Abwehrmaßnahmen ändert. Der Parsing-Layer bekommt davon nichts mit.

Gescannte PDFs: Der schwierigste Teil

Moderne Web-APIs sind unkompliziert. Der am schwersten zu automatisierende Fall sind reine Bild-PDFs. Preislisten und Auktionsergebnisse, die als Scans ohne jegliche Textebene veröffentlicht werden. Für einen Menschen ist das lästig. Für einen täglichen Index blockiert es die Pipeline.

Die Pipeline von KORENA bewältigt dies durch eine klare Arbeitsteilung:

  • Retrieval: FourA lädt die rohen PDF-Bytes täglich und zuverlässig herunter.

  • Text-Evaluierung: KORENA prüft die Datei auf eine nutzbare native Textebene.

  • Verarbeitung und Extraktion: Wenn das PDF ein flaches Bild ist, rastert KORENA die Seiten und jagt sie durch OCR und KI-Dokumentenextraktion. Dabei werden benutzerdefinierte Sprachhinweise und Baumarten-Wörterbücher angewendet, um die lokale Forstterminologie zu erfassen.

  • Schema-Validierung: Der Output wird gegen dasselbe Schema wie jede andere Quelle validiert.

Nichts davon funktioniert, wenn du das Dokument nicht jeden Tag zuverlässig abrufen kannst. Das ist der Schritt, den FourA übernimmt.

Abrufen vs. Verstehen: Eine klare Trennung

Der Job von FourA ist es, rohe Bytes zuverlässig zu liefern. Es muss nichts über Holz wissen. Dadurch kann sich KORENA zu 100 % auf das konzentrieren, was es tatsächlich kann: chaotische Daten in einen standardisierten Index zu verwandeln. Alles Fachspezifische bleibt bei KORENA. HTML wird lokal geparst, digitale PDFs werden mit pdfjs-dist gelesen und gescannte PDFs per OCR verarbeitet.

Im Normalisierungsschritt werden aus rohen Zahlen ein Index. Der Preis für einen stehenden Baum ist nicht der Preis für ein Sägeholz, und ein lokales Auktionsergebnis inklusive Mehrwertsteuer ist nicht direkt mit einem Exportangebot ohne Mehrwertsteuer vergleichbar. Um rohe Zahlen in vergleichbare Marktanalysen zu verwandeln, konvertiert KORENA alle Daten in einen Standard: Euro pro Kubikmeter, ohne Mehrwertsteuer, frei-Haus-Äquivalent.

Um das präzise zu tun, berücksichtigt das System:

Der Index hält auch verschiedene Marktebenen getrennt. Stammholz in großen Mengen, Wertholzauktionen und Einzelhandelsangebote werden als separate Kategorien aufgeführt und niemals vermischt. Ein Premium-Auktionslos darf die Baseline nicht verzerren.

Die Trennung ist der entscheidende Punkt: FourA löst den Webzugriff, KORENA löst das Holzthema. Keines von beiden wird zu einer Blackbox, von der das andere abhängt.

Warum Transparenz bei Holzpreisen plötzlich dringend ist

Strengere europäische Vorschriften, darunter die EU-Entwaldungsverordnung (EUDR), drängen den Holzmarkt zu vollständiger Rückverfolgbarkeit und sauberer Herkunftsdokumentation. Preistransparenz ist die andere Hälfte dieser Gleichung. Holzproduzenten, die regionale Werte vergleichen, Einkäufer, die Angebote prüfen, und digitale Marktplätze, die Basispreise festlegen, benötigen alle tägliche, lokalisierte und vergleichbare Daten. Keine veralteten Jahresdurchschnitte. Keine einmaligen lokalen Zahlen.

Für ein schlankes, zweiköpfiges Entwicklerteam, das zehn Länder und Hunderte von unvorhersehbaren Webformaten abdecken muss, war es unmöglich, Zeit für die Verwaltung von Proxy-Infrastruktur, Browser-Fleets und Anti-Bot-Workarounds aufzuwenden (siehe Die versteckten Kosten für den Betrieb eigener Scraper für die vollständige Rechnung). FourA kümmert sich um den Request-Layer. KORENA gewinnt die Zeit zurück, um sich auf die Normalisierung der Baumarten, das OCR-Tuning, die Preislogik und Audit-Trails zu konzentrieren (die Arbeit, die nur sie erledigen können).

Tägliche Holzpreise bedeuteten früher einen Anruf beim regionalen Makler. Jetzt kann jeder die Kurve selbst unter timber-index.korena.eu ablesen. Die nächsten zehn indexähnlichen Produkte werden keine Zeit haben, den Fetch-Layer von Grund auf neu zu bauen. Das ist die Wette, die wir eingehen.


Du baust ein Produkt auf Basis öffentlicher Webdaten auf und hast es satt, eigene Scraper und Proxy-Infrastrukturen zu warten? Starte jetzt mit FourA.