Dữ liệu giá gỗ châu Âu về mặt kỹ thuật là công khai, nhưng trên thực tế thì không thể sử dụng được. Một quốc gia niêm yết giá gỗ sồi bằng Euro trên mỗi mét khối, chưa bao gồm thuế. Một quốc gia láng giềng lại chia sẻ giá gỗ dẻ gai bằng nội tệ, đã bao gồm thuế, nằm sâu trong một tệp PDF được quét không có lớp văn bản có thể tìm kiếm. Tệ hơn nữa, cây đứng, gỗ tròn ven đường và các lô đấu giá được chọn lọc thường được báo giá cạnh nhau như thể chúng là những sản phẩm giống hệt nhau.
Dữ liệu thô thì có sẵn. Nhưng thông tin thị trường thì không.
KORENA đã ra mắt KORENA Timber Index để giải quyết vấn đề đó. Kết quả là một nguồn tham khảo hàng ngày, truy cập tự do cho giá gỗ cứng, gỗ xẻ và gỗ tấm của châu Âu. Tính đến giữa năm 2026, chỉ số này theo dõi khoảng hai mươi loài gỗ và 170 hàng giá khu vực tại mười quốc gia (Romania, Đức, Bulgaria, Ba Lan, Pháp, Áo, Ý, Phần Lan, Na Uy, Thụy Điển), cùng với một phân khúc thị trường chung toàn EU.
Để một đội ngũ kỹ sư gồm hai người có thể bao phủ một phạm vi rộng lớn như vậy, KORENA cần giải quyết một quyết định quan trọng: ai sẽ xử lý phần web. Họ đã chọn FourA, và họ định tuyến mọi thứ qua đó.
Một Cổng duy nhất kết nối với Web
KORENA đã đưa ra một lựa chọn kiến trúc ngay từ đầu: mọi web request bên ngoài đều đi qua FourA. Họ đã loại bỏ các scraper rải rác, các script chạy một lần và các lệnh tùy chỉnh ẩn bên trong codebase.
Đây không phải là vấn đề tiện lợi. Đó là về tính nhất quán. Các cổng thông tin lâm nghiệp hoạt động rất khó lường. Một số là các trang HTML tĩnh. Một số khác là các nền tảng đấu giá hiện đại chỉ hiển thị dữ liệu sau khi trình duyệt render chúng. Các trang web của chính phủ thường chậm, lỗi thời hoặc được bảo vệ nghiêm ngặt.
Bằng cách định tuyến toàn bộ lưu lượng truy cập qua cơ sở hạ tầng request của FourA, KORENA xử lý việc thử lại (retry), giãn cách (backoff), ghi nhật ký (logging) và cảnh báo (alerting) theo cùng một cách trên mọi nguồn dữ liệu. Và mọi tài liệu được tải về đều có thể được băm (hash), lưu trữ và truy xuất nguồn gốc trở lại mức giá cuối cùng của nó để phục vụ kiểm toán.
Lựa chọn Chiến lược Fetch phù hợp cho từng Nguồn
Thay vì viết cứng (hardcode) logic cào dữ liệu cho từng trang web, KORENA ánh xạ trực tiếp mỗi nguồn dữ liệu tới một endpoint cụ thể của FourA trong cơ sở dữ liệu của họ (xem lựa chọn loại tác vụ phù hợp để biết phân tích chi tiết). Họ có thể chuyển đổi chiến lược mà không cần chạm vào mã nguồn phân tích cú pháp (parsing) cốt lõi của mình:
Single (
/single/): các trang HTML tĩnh, nguồn cấp dữ liệu XML và tải xuống PDF trực tiếp. Các báo cáo thống kê của Đức, cập nhật lâm nghiệp nhà nước của Bulgaria, bảng giá của Romania. Nhanh, nhẹ, là lựa chọn mặc định phù hợp cho hầu hết các trang web.Browser (
/browser/): các ứng dụng web tương tác cần một môi trường trình duyệt thực tế. Nền tảng đấu giá e-Drewno của Ba Lan yêu cầu render trước khi các con số xuất hiện. HTML ban đầu không có thông tin gì hữu ích.Proxy Finder (
/proxy/): phương án dự phòng cho các mục tiêu khó khăn nhất. Xoay vòng mạnh mẽ hơn, cộng vớiunblocker: truecho các bức tường anti-bot ở cấp độ handshake.
Vì đây là cấu hình theo từng nguồn chứ không phải là một script được viết cứng, KORENA có thể chuyển một nguồn từ Single sang Browser rồi sang Proxy Finder khi một trang web thay đổi cơ chế phòng vệ của nó. Lớp phân tích cú pháp (parsing) không bao giờ phải bận tâm về điều đó.
PDF được quét: Phần khó khăn nhất
Các API web hiện đại thì rất đơn giản. Trường hợp khó tự động hóa nhất là các tệp PDF chỉ có hình ảnh. Danh sách giá và kết quả đấu giá được xuất bản dưới dạng bản quét, hoàn toàn không có lớp văn bản. Đối với con người thì điều này thật phiền toái. Đối với một chỉ số cập nhật hàng ngày, nó làm tắc nghẽn toàn bộ pipeline.
Pipeline của KORENA xử lý chúng thông qua sự phân chia nhiệm vụ rõ ràng:
Retrieval: FourA tải xuống các byte PDF thô một cách đáng tin cậy hàng ngày.
Text evaluation: KORENA kiểm tra tệp để xem có lớp văn bản gốc nào có thể sử dụng được hay không.
Processing and extraction: nếu PDF là một hình ảnh phẳng, KORENA sẽ rasterize các trang và chạy chúng qua OCR và trích xuất tài liệu bằng AI, áp dụng các gợi ý ngôn ngữ tùy chỉnh và từ điển loài gỗ để nhận diện thuật ngữ lâm nghiệp địa phương.
Schema validation: đầu ra được xác thực dựa trên cùng một schema như mọi nguồn dữ liệu khác.
Không có bước nào ở trên hoạt động được nếu bạn không thể fetch tài liệu một cách đáng tin cậy mỗi ngày. Đó là bước mà FourA đảm nhận.
Fetching so với Understanding: Sự phân tách rõ ràng
Nhiệm vụ của FourA là cung cấp các byte thô một cách đáng tin cậy. Nó không cần biết bất cứ điều gì về gỗ. Điều đó cho phép KORENA tập trung 100% năng lượng vào những gì họ thực sự am hiểu: biến dữ liệu hỗn loạn thành một chỉ số chuẩn hóa. Mọi thứ đặc thù theo lĩnh vực đều do KORENA xử lý. HTML được phân tích cú pháp cục bộ, các tệp PDF kỹ thuật số được đọc bằng pdfjs-dist và các tệp PDF được quét được xử lý qua OCR.
Bước chuẩn hóa (normalisation) là nơi các con số thô trở thành một chỉ số. Giá cây đứng không phải là giá gỗ tròn xẻ, và kết quả đấu giá địa phương đã bao gồm thuế VAT không thể so sánh trực tiếp với báo giá xuất khẩu chưa bao gồm thuế VAT. Để biến các con số thô thành thông tin thị trường có thể so sánh được, KORENA chuyển đổi tất cả dữ liệu thành một tiêu chuẩn duy nhất: Euro trên mỗi mét khối, chưa bao gồm thuế VAT, tương đương giá giao hàng.
Để thực hiện điều đó một cách chính xác, hệ thống tính đến các yếu tố:
- Tỷ giá hối đoái hàng ngày của Ngân hàng Trung ương Châu Âu.
- Các quy định về thuế VAT của từng quốc gia.
- Các yếu tố vận chuyển dựa trên giai đoạn sản phẩm của gỗ.
Chỉ số này cũng giữ cho các phân khúc thị trường khác nhau được tách biệt. Gỗ tròn số lượng lớn, các phiên đấu giá gỗ có giá trị cao và danh sách bán lẻ xuất hiện dưới dạng các danh mục riêng lẻ và không bao giờ bị trộn lẫn với nhau. Một lô đấu giá cao cấp không thể làm sai lệch đường cơ sở.
Sự phân tách chính là mấu chốt: FourA giải quyết việc truy cập web, KORENA giải quyết vấn đề về gỗ. Không bên nào trở thành một chiếc hộp đen mà bên kia phải phụ thuộc vào.
Tại sao tính Minh bạch của Giá Gỗ đột nhiên trở nên Cấp thiết
Các quy định nghiêm ngặt hơn của châu Âu, bao gồm Quy định chống phá rừng của EU (EUDR), đang thúc đẩy thị trường gỗ hướng tới khả năng truy xuất nguồn gốc hoàn toàn và tài liệu nguồn gốc rõ ràng hơn. Tính minh bạch về giá là một nửa còn lại của phương trình đó. Những người trồng gỗ muốn so sánh giá trị khu vực, người mua muốn xác thực báo giá và các sàn giao dịch kỹ thuật số muốn thiết lập mức giá cơ sở đều cần dữ liệu hàng ngày, mang tính địa phương và có thể so sánh được. Không phải là các mức trung bình hàng năm đã lỗi thời. Không phải là các con số địa phương mang tính đơn lẻ.
Đối với một đội ngũ kỹ sư tinh gọn gồm hai người để bao phủ mười quốc gia và hàng trăm định dạng web khó lường, họ không thể lãng phí thời gian để quản lý cơ sở hạ tầng proxy, hệ thống trình duyệt và các giải pháp vượt anti-bot (xem chi phí ẩn của việc tự duy trì scraper để biết phép tính đầy đủ). FourA xử lý lớp request. KORENA có lại thời gian để tập trung vào việc chuẩn hóa loài gỗ, tinh chỉnh OCR, logic định giá và dấu vết kiểm toán (audit trail), những công việc mà chỉ họ mới có thể làm.
Giá gỗ hàng ngày trước đây đồng nghĩa với một cuộc điện thoại cho môi giới khu vực của bạn. Giờ đây, bất kỳ ai cũng có thể tự mình vẽ biểu đồ xu hướng tại timber-index.korena.eu. Mười sản phẩm dạng Index tiếp theo sẽ không có thời gian để xây dựng lớp fetch từ đầu. Đó là canh bạc mà chúng tôi đang đặt cược.
Bạn đang xây dựng một sản phẩm dựa trên dữ liệu web công khai và đã mệt mỏi với việc duy trì các scraper và cơ sở hạ tầng proxy của riêng mình? Bắt đầu với FourA.