Comment KORENA a construit un indice des prix du bois sur FourA

Les données sur les prix du bois en Europe sont techniquement publiques, mais pratiquement inutilisables. Un pays affiche les prix du chêne en euros par mètre cube, hors taxes. Un pays voisin partage les prix du hêtre en monnaie locale, taxes comprises, enfouis dans un PDF numérisé sans couche de texte consultable. Pour aggraver les choses, les arbres sur pied, les grumes en bord de route et les lots d'enchères sélectionnés sont souvent cités côte à côte comme s'il s'agissait de produits identiques.

Les données brutes existent. L'intelligence de marché n'existe pas.

KORENA a lancé le KORENA Timber Index pour y remédier. Le résultat est une référence quotidienne et librement accessible pour les prix du bois feuillu, du bois d'œuvre et des dalles en Europe. À la mi-2026, l'indice suit environ deux douzaines d'espèces et 170 lignes de prix régionales dans dix pays (Roumanie, Allemagne, Bulgarie, Pologne, France, Autriche, Italie, Finlande, Norvège, Suède), plus un niveau de marché paneuropéen.

Pour qu'une équipe d'ingénierie de deux personnes couvre autant de terrain, KORENA devait régler une décision cruciale : qui gère le web. Ils ont choisi FourA, et ils ont tout acheminé par son intermédiaire.

Une passerelle unique vers le Web

KORENA a fait un choix d'architecture très tôt : chaque request web externe passe par FourA. Ils ont éliminé les scrapers isolés, les scripts uniques et les commandes personnalisées cachées dans la base de code.

Ce n'était pas une question de commodité. C'était une question de cohérence. Les portails forestiers se comportent de manière imprévisible. Certains sont des pages HTML statiques. D'autres sont des plateformes d'enchères modernes qui n'affichent les données qu'après le rendu par un navigateur. Les sites gouvernementaux sont souvent lents, obsolètes ou fortement protégés.

En acheminant tout le trafic via l'infrastructure de request de FourA, KORENA gère les tentatives, le backoff, la journalisation et les alertes de la même manière pour chaque source. Et chaque document récupéré peut être haché, stocké et tracé jusqu'à son prix final pour audit.

Choisir la bonne stratégie de fetch par source

Au lieu de coder en dur la logique de scraping pour chaque site, KORENA associe chaque source de données à un endpoint FourA spécifique directement dans sa base de données (voir choisir le bon type de tâche pour l'explication complète). Ils peuvent changer de stratégie sans toucher à leur code de parsing principal :

Single (/single/) : pages HTML statiques, flux XML et téléchargements directs de PDF. Rapports statistiques allemands, mises à jour de la foresterie d'État bulgare, tableaux des prix roumains. Rapide, léger, le bon choix par défaut pour la plupart des sites.
Browser (/browser/) : applications web interactives qui nécessitent un véritable contexte de navigateur. La plateforme d'enchères polonaise e-Drewno nécessite un rendu avant que les chiffres n'apparaissent. Le HTML initial ne contient rien d'utile.
Proxy Finder (/proxy/) : la solution de repli pour les cibles les plus difficiles. Rotation plus forte, plus unblocker: true pour les murs anti-bots au niveau du handshake.

Comme il s'agit d'un paramètre par source et non d'un script codé en dur, KORENA peut faire passer une source de Single à Browser ou à Proxy Finder lorsqu'un site modifie ses défenses. La couche de parsing ne le voit jamais.

Les PDF numérisés : la partie la plus difficile

Les API web modernes sont simples. Le cas le plus difficile à automatiser est celui des PDF contenant uniquement des images. Des listes de prix et des résultats d'enchères publiés sous forme de scans, sans aucune couche de texte. Pour un humain, c'est fastidieux. Pour un indice quotidien, cela bloque le pipeline.

Le pipeline de KORENA les gère grâce à une division claire du travail :

Récupération : FourA télécharge les octets bruts du PDF, quotidiennement et de manière fiable.
Évaluation du texte : KORENA vérifie si le fichier contient une couche de texte native exploitable.
Traitement et extraction : si le PDF est une image plate, KORENA pixellise les pages et les passe au crible de l'OCR et de l'extraction de documents par IA, en appliquant des indices linguistiques personnalisés et des dictionnaires d'espèces pour capturer la terminologie forestière locale.
Validation du schéma : la sortie est validée par rapport au même schéma que toutes les autres sources.

Rien de tout cela ne fonctionne si vous ne pouvez pas récupérer le document de manière fiable chaque jour. C'est l'étape que FourA prend en charge.

Récupération vs Compréhension : une séparation claire

Le rôle de FourA est de livrer des octets bruts de manière fiable. Il n'a pas besoin de s'y connaître en bois. Cela permet à KORENA de concentrer 100 % de son énergie sur ce qu'elle maîtrise réellement : transformer des données chaotiques en un indice standardisé. Tout ce qui est spécifique au domaine reste chez KORENA. Le HTML est analysé localement, les PDF numériques sont lus avec pdfjs-dist et les PDF numérisés sont traités par OCR.

L'étape de normalisation est celle où les chiffres bruts deviennent un indice. Le prix d'un arbre sur pied n'est pas le prix d'un bois de sciage, et le résultat d'une enchère locale TTC n'est pas directement comparable à une offre d'exportation hors taxes. Pour transformer des chiffres bruts en informations de marché comparables, KORENA convertit toutes les données en un standard unique : Euros par mètre cube, hors taxes, équivalent-livré.

Pour le faire avec précision, le système prend en compte :

Les taux de change quotidiens de la Banque centrale européenne.
Les règles de TVA locales de chaque pays.
Les facteurs de transport basés sur le stade de transformation du bois.

L'indice sépare également les différents niveaux de marché. Le bois rond en vrac, les enchères de bois de valeur et les annonces de détail apparaissent comme des catégories distinctes et ne sont jamais mélangés. Un lot d'enchères premium ne vient pas fausser la référence.

Cette séparation est essentielle : FourA résout l'accès au web, KORENA résout le bois. Aucun ne devient une boîte noire dont l'autre dépend.

Pourquoi la transparence des prix du bois est soudainement urgente

Des réglementations européennes plus strictes, notamment le règlement de l'UE sur la déforestation (RDUE), poussent le marché du bois vers une traçabilité totale et une documentation d'approvisionnement plus claire. La transparence des prix est l'autre moitié de cette équation. Les producteurs de bois qui comparent les valeurs régionales, les acheteurs qui valident les devis et les places de marché numériques qui fixent les tarifs de référence ont tous besoin de données quotidiennes, localisées et comparables. Pas de moyennes annuelles obsolètes. Pas de chiffres locaux ponctuels.

Pour qu'une équipe d'ingénierie restreinte de deux personnes couvre dix pays et des centaines de formats web imprévisibles, elle ne pouvait pas se permettre de passer son temps à gérer l'infrastructure de proxy, les flottes de navigateurs et les contournements anti-bots (voir le coût caché de la maintenance de vos propres scrapers pour le calcul complet). FourA gère la couche de request. KORENA récupère du temps pour se concentrer sur la normalisation des espèces, l'ajustement de l'OCR, la logique de tarification et les pistes d'audit, le travail que eux seuls peuvent accomplir.

Auparavant, obtenir les prix quotidiens du bois signifiait appeler votre courtier régional. Désormais, n'importe qui peut tracer la courbe soi-même sur timber-index.korena.eu. Les dix prochains produits de type Index n'auront pas le temps de construire la couche de fetch à partir de zéro. C'est le pari que nous faisons.

Vous construisez un produit basé sur des données web publiques et vous en avez assez de maintenir vos propres scrapers et votre infrastructure de proxy ? Commencez avec FourA.