Jan-Fokko Stuut

23 juli 2025

Door Jan-Fokko Stuut

E-commerce specialist & UX designer

Slimmere productdata met OCR & AI: haal automatisch waardevolle informatie uit je datasheets

Je hebt een B2B-webshop, maar klanten vinden lastig wat ze zoeken. De zoekfunctie levert niet altijd relevante resultaten op, filters werken matig en bij veel producten ontbreekt het aan duidelijke, klantgerichte beschrijvingen. Terwijl de informatie wel beschikbaar is — alleen zit die vaak verstopt op de verkeerde plek.

In de praktijk betekent dit: technische PDF’s, datasheets of handleidingen die geschreven zijn voor vakmensen, maar niet geoptimaliseerd zijn voor je webshop. Ze zijn meestal niet doorzoekbaar, niet filterbaar en vaak alleen te downloaden. Gevolg? Klanten moeten zelf gaan lezen, vergelijken en interpreteren — iets waar ze vaak geen tijd of zin in hebben.

Je bent niet de enige. Uit onderzoek van Forrester Consulting (2024) blijkt dat veel B2B-bedrijven worstelen met het online beschikbaar maken van hun volledige catalogus. Dit komt vaak door ongestructureerde data, verstopt in digitaal ontoegankelijke documenten.

De sleutel: OCR-technologie als startpunt voor slimmere productinformatie

De échte bottleneck in veel digitale productcatalogi is simpel: je webshop kan niet lezen wat in je PDF’s staat. En daar komt OCR (Optical Character Recognition) om de hoek kijken.

OCR is de technologie die tekst in niet-bewerkbare documenten (zoals gescande datasheets, afbeeldingen of technische tekeningen) automatisch omzet in digitale, doorzoekbare tekst. Wat vroeger handmatig moest worden overgetypt, gebeurt nu automatisch — en razendsnel.

Zonder OCR geen AI. Want voordat AI-modellen hun werk kunnen doen, moet de informatie eerst digitaal toegankelijk zijn. OCR is dus de fundering waarop elke verdere automatisering rust.

Van OCR naar AI: zo werkt het stap voor stap

  1. OCR haalt de ruwe data op
    Je begint met het verzamelen van PDF’s, handleidingen of technische tekeningen. OCR herkent de tekst in deze documenten en zet die om in digitale tekst — zelfs als het om gescande afbeeldingen of complexe tabellen gaat.
  2. AI analyseert de inhoud
    Vervolgens wordt deze ruwe tekst gevoed aan een open source AI-model (LLM). Die herkent automatisch belangrijke productkenmerken, zoals technische specificaties, toepassingsgebieden, unique selling points en klantvragen.
  3. Schoonmaken & structureren
    De output wordt opgeschoond en gestructureerd: overbodige teksten, herhalingen of opmaak worden verwijderd. Wat overblijft, is kernachtige, bruikbare productinformatie — klaar voor je webshop of PIM-systeem.
  4. Automatische verrijking & koppeling
    Tot slot wordt de verrijkte data automatisch gekoppeld aan je bestaande productstructuur. Denk aan filters, categorieën, SEO-beschrijvingen of FAQ’s — alles volledig automatisch gegenereerd.

Een voorbeeld uit de praktijk

Een groothandel gespecialiseerd in HVAC-onderdelen (verwarming, ventilatie en airconditioning) beheerd een assortiment van ruim 12.000 producten, waaronder sensoren, regelkleppen en thermostaten. Elk product heeft wel een datasheet in PDF-formaat, maar de webshop zelf biedt slechts summiere informatie: een productnaam, merk, artikelnummer en een paar afbeeldingen.

Monteurs en installateurs die in de webshop zoeken naar het juiste onderdeel voor hun project, moeten handmatig de datasheets downloaden en doornemen om zaken als werktemperatuur, aansluitmaten of compatibiliteit te achterhalen. Een frustrerende ervaring — zeker als het even snel onderweg moet gebeuren.

Met behulp van OCR en open source LLM’s, kan per product automatisch de relevante informatie uit de datasheet/ PDF gehaald. Denk aan:

Binnen twee weken is ruim 80% van het assortiment verrijkt met gestructureerde data, zonder dat het bedrijf er honderden uren aan kwijt is. De filters in de webshop zijn bruikbaarder, de conversie stijgt en monteurs kunnen onderweg via mobiel snel het juiste product vinden.

Waarom deze aanpak werkt voor groothandels

Deze AI-aanpak is niet alleen snel, maar ook schaalbaar en veilig. Na een korte setup kan zo'n pipeline van OCR en AI grotendeels zelfstandig draaien. Bijvoorbeeld 's nachts, zodat je webshop geen vertraging ondervindt. Je kunt zelfs gebruik maken van lokale of zelfgehoste open source AI-modellen. Dat betekent dat gevoelige bedrijfsdata of intellectueel eigendom niet naar externe systemen wordt verstuurd — iets waar veel B2B-bedrijven terecht kritisch op zijn.

Daarnaast hoef je elk product maar één keer te verwerken. De verrijkte data blijft beschikbaar, ook als je productcatalogus groeit of verandert.

En misschien wel het belangrijkste: je bespaart enorm op handmatige input, zonder concessies te doen aan kwaliteit.

🚀 Samengevat

Slimmere productdata zorgt voor:

Jan-Fokko Stuut
Over de auteur

Jan-Fokko Stuut (E-commerce specialist & UX designer)

23 juli 2025

Jan-Fokko Stuut, sinds 2018 gecertificeerd Scrum Master en Product Owner, daarnaast UX designer met een oog voor positieve en efficiënte gebruikservaring. Met een blik van buiten geeft hij waardevolle inzichten en past hij zijn kennis en ervaring toe op de wereld van e-commerce.