BREED - over de grenzen van informatie

NETWERK VOOR DE INNOVATIEVE INFORMATIEWERKER

Heeft iemand ervaring met het digitaliseren van (bouw)dossiers mbv OCR en vervolgens het opschonen van deze dossiers met behulp van Machine Learning (Arificial intelligence)?

Onze situatie

Ik werk bij een gemeente en ik ben Adviseur proces en informatiemanagement.

In onze archiefruimte staan tientallen meters bouwdossiers. Deze dossiers bevatten documenten die bewaard moeten blijven maar ook documenten die vernietigd moeten worden. Op dit moment zijn we bezig met het handmatig opschonen van deze dossiers.

Ik vraag me af of dit slimmer (sneller) kan.

We beschikking over Optical character recognition (OCR) software genaamd KOFAX om fysieke documenten in te scannen en om de tekst om te zetten in digitale tekst (dus het is dan geen afbeelding meer). Maar we gebruiken dit alleen voor binnenkomende post.

Vraag

Heeft iemand ervaring met het digitaliseren en opschonen van (bouw)dossiers op een geautomatiseerde manier?

Waar ik aan denk ik een aanpak waarbij we alle dossier inscannen dmv OCR en dan door middel van machine learning (Articifial intelligence) ervoor zorgen dat we een splitsing maken tussen wat te vernietigen is en wat bewaard moet blijven.

Wat ik er van weet is dat je een dergelijke 'machine' een hele hoop data kan geven en die dan op basis van algoritmes leert welk bestand bewaard moet blijven en welke vernietigd kunnen worden. Eigenlijk op eenzelfde manier waarop mensen leren. Je moet zo'n machine dus wel heel veel documenten geven en leren wat wat is.

NB 1. Je ontkomt er dan niet aan om te voldoen aan alle criteria t.a.v. vervanging. Vanaf dat moment heb je dus geen fysiek archief meer nodig.

NB2. als ik op internet zoek vind ik vooral bedrijven die alles handmatig gaan opschonen en digitaliseren. Hier ben ik niet naar op zoek. Ik zoek naar een oplossing om dit minder arbeidsintensief (en daarmee hopelijk sneller en goedkoper) te doen.

NB3. Wat machine learning is?

"Deep" machine learning can use labeled datasets, also known as supervised learning, to inform its algorithm, but it doesn’t necessarily require a labeled dataset. Deep learning can ingest unstructured data in its raw form (e.g., text or images), and it can automatically determine the set of features which distinguish different categories of data from one another. This eliminates some of the human intervention required and enables the use of larger data sets.

zie https://www.ibm.com/topics/machine-learning

Vind ik leuk

0 leden vinden dit leuk

▶ Hierop reageren

Berichten in deze discussie

Permalink Antwoord van Yvonne Welings op 10 Januari 2023 op 14.50

Je hebt het over papieren dossiers neem ik aan? Je ontkomt er niet aan deze dossiers te structureren alvorens te digitaliseren. Garbage in, garbage out. Er zijn scanbedrijven, die ook metadateren, daar zou je naar op zoek kunnen gaan. Vervanging en opname in een e-depot is gewoon een keuze. De onvindbaar van informatie zit m.i. meer in het recente digitale tijdperk en dan vooral de informatie-explosie. Informatie staat overal maar ook nergens.

In die zin heb ik wel een voorbeeld voor je en dan met de inzet van AI bij netwerkschijven. Gemeente waar ik voor werk zet die in om dubbelingen op te ruimen op netwerkschijven. Het is vrij arbeidsintensief. Dit is een firma die hierbij ondersteunt: starTXT.ai.

Tip: Start eens met het opstellen van een analyse van het dossier en een goede V-lijst:

Omschrijving stukken	Bewaartermijn
Aanvragen bouwvergunning - Geweigerde - Ingetrokken - Niet ontvankelijk verklaarde	3 jaar 1 jaar 3 jaar
Adviezen - Publieke Werken - Brandweer inzake brandveiligheidsvoorwaarden* - Welstandscommissie, inclusief bijbehorende tekeningen (er staat dan een stempel op de tekeningen) - Schoonheidscommissie, inclusief bijbehorende tekeningen (er staat dan een stempel op de tekeningen) - Dienst Reiniging en Vervoer	10 jaar 10 jaar 10 jaar 10 jaar 10 jaar
Artikel 138-formulieren inclusief alle bijgaande stukken	10 jaar
Bemerkingen	1 jaar
Bestemmingsplanformulieren	10 jaar
Bodemonderzoeken**	10 jaar
Bouwvergunningen - Ingetrokken - Klachten	3 jaar 10 jaar
"Groene" tabstroken	10 jaar
Huisnummering	10 jaar
Subsidie-aanvragen - ter kennisname ingediend - waarbij de gemeente betrokken is	1 jaar 5 jaar
Verklaring van geen bezwaar inclusief bijlagen (komt van de Provincie en is herkenbaar aan de stempel van Gedeputeerde Staten)	10 jaar

Bouwvergunningen ondergeschikt aan het hoofdgebouw ***	Bewaartermijn
Bouwvergunningen (tijdelijke)	Na vervallen belang
Dakramen	Na vervallen belang
Erfafscheidingen	Na vervallen belang
Reclameborden	Na vervallen belang
Schotelantennes	Na vervallen belang
Rioolaanleg / -aansluiting	Na vervallen belang

*** Deze geldt niet voor Monumenten daar is de bewaartermijn: eeuwig.

▶ Beantwoorden

Permalink Antwoord van Yvonne Welings op 10 Januari 2023 op 17.39

Bij een andere gemeente was ik betrokken bij het metadateren van scans bouwvergunningen met de AI software van Simplifai. Ervaringen waren wisselend. Wat ik merk is dat de kennis om analoge archieven te bewerken zeer schaars aan het worden is.

▶ Beantwoorden

Permalink Antwoord van Adriaan Mol op 11 Januari 2023 op 9.09

Wil je gebruik gaan maken van machine learning om te schonen loop je tegen een aantal punten:

1. Je moet een uniforme stijl van bouwdossiers hebben over het geheel. AI is goed met standaard, slecht met uitzondering

2. Je moet je model zelf trainen. Hiervoor is doorgaans je digitale dataset zo omvangrijk dat, wanneer je een werkend model hebt, alles eigenlijk al handmatig hebt gedaan.

3. Zodra je met handgeschreven tekst (HTR) gaat werken is je model lastig trainbaar, door de vele verschillende handschriften van diverse medewerkers door de tijd heen.

AI gaat de goede kant op en is de laatste tijd veel in het nieuws (chatgpt, stable diffusion, etc.) maar het leent zich moeilijker voor archieven. Een grote kostenbesparing ga je niet halen door het fysieke werk van bijvoorbeeld Karmac te beleggen bij een AI engineer.

▶ Beantwoorden

Permalink Antwoord van Rens op 11 Januari 2023 op 9.28

Als je slechts enkele tientallen meters papier hebt, dan ben je inderdaad, zoals Adriaan aangeeft, al door je materiaal heen op het moment dat het algoritme voldoende getraind is. Om het rendabel te maken, zou je wellicht samen op kunnen trekken met andere gemeenten en/of archiefdiensten die bouwdossiers gaan digitaliseren. Want gezamenlijk heb je meer massa. Misschien helpt een uitvraag via de VNG?

Veel gemeenten hebben de bouwarchieven in het verleden gedigitaliseerd, toen machine learning nog niet zo volop in beeld en beschikbaar was als tegenwoordig. Daarom vermoed ik dat er niet al ergens een getraind model op de plank ligt dat je zou kunnen hergebruiken. In mijn gemeente hebben we het destijds in elk geval handmatig gedaan.

▶ Beantwoorden

Permalink Antwoord van Yvonne Welings op 11 Januari 2023 op 10.45

Met Simplifai kwamen bij de evaluatie tot de conclusie dat het in de nabije toekomst wellicht tot arbeidsbesparingen gaat komen, maar het traject zelf leverde die nog niet op.

▶ Beantwoorden

Permalink Antwoord van Olaf Griffioen op 27 Januari 2023 op 8.40

Dank voor je reactie. Ik bedoel inderdaad papieren dossiers.

Klopt, bedrijven die de dossiers handmatig opschonen zijn er voldoende maar de ontwikkelingen op het gebied van AI gaan zo hard dat ik benieuwd was of er al meer mogelijk was.

Yvonne Welings zei:

Je hebt het over papieren dossiers neem ik aan? Je ontkomt er niet aan deze dossiers te structureren alvorens te digitaliseren. Garbage in, garbage out. Er zijn scanbedrijven, die ook metadateren, daar zou je naar op zoek kunnen gaan. Vervanging en opname in een e-depot is gewoon een keuze. De onvindbaar van informatie zit m.i. meer in het recente digitale tijdperk en dan vooral de informatie-explosie. Informatie staat overal maar ook nergens.

In die zin heb ik wel een voorbeeld voor je en dan met de inzet van AI bij netwerkschijven. Gemeente waar ik voor werk zet die in om dubbelingen op te ruimen op netwerkschijven. Het is vrij arbeidsintensief. Dit is een firma die hierbij ondersteunt: starTXT.ai.

Tip: Start eens met het opstellen van een analyse van het dossier en een goede V-lijst:

Omschrijving stukken

Bewaartermijn

Aanvragen bouwvergunning

-          Geweigerde

-          Ingetrokken

-          Niet ontvankelijk verklaarde

3 jaar

1 jaar

3 jaar

Adviezen

-          Publieke Werken

-          Brandweer inzake brandveiligheidsvoorwaarden*

-          Welstandscommissie, inclusief bijbehorende tekeningen (er staat dan een stempel op de tekeningen)

-          Schoonheidscommissie, inclusief bijbehorende tekeningen (er staat dan een stempel op de tekeningen)

-          Dienst Reiniging en Vervoer

10 jaar

10 jaar

10 jaar

10 jaar

10 jaar

Artikel 138-formulieren inclusief alle bijgaande stukken

10 jaar

Bemerkingen

1 jaar

Bestemmingsplanformulieren

10 jaar

Bodemonderzoeken**

10 jaar

Bouwvergunningen

-          Ingetrokken

-          Klachten

3 jaar

10 jaar

"Groene" tabstroken

10 jaar

Huisnummering

10 jaar

Subsidie-aanvragen

-          ter kennisname ingediend

-          waarbij de gemeente betrokken is

1 jaar

5 jaar

Verklaring van geen bezwaar inclusief bijlagen (komt van de Provincie en is herkenbaar aan de stempel van Gedeputeerde Staten)

10 jaar

Bouwvergunningen ondergeschikt aan het hoofdgebouw ***

Bewaartermijn

Bouwvergunningen (tijdelijke)

Na vervallen belang

Dakramen

Na vervallen belang

Erfafscheidingen

Na vervallen belang

Reclameborden

Na vervallen belang

Schotelantennes

Na vervallen belang

Rioolaanleg / -aansluiting

Na vervallen belang

*** Deze geldt niet voor Monumenten daar is de bewaartermijn: eeuwig.

▶ Beantwoorden

Permalink Antwoord van Olaf Griffioen op 27 Januari 2023 op 8.42

Dank voor je reactie.

De bouwdossiers hebben een redelijk standaard opmaak. Bij punt 2 heb je een goed punt, hier zit ook wel mijn twijfel.

Gelukkig hebben we nauwelijks met handgeschreven teksten te maken.

Adriaan Mol zei:

Wil je gebruik gaan maken van machine learning om te schonen loop je tegen een aantal punten:

1. Je moet een uniforme stijl van bouwdossiers hebben over het geheel. AI is goed met standaard, slecht met uitzondering

2. Je moet je model zelf trainen. Hiervoor is doorgaans je digitale dataset zo omvangrijk dat, wanneer je een werkend model hebt, alles eigenlijk al handmatig hebt gedaan.

3. Zodra je met handgeschreven tekst (HTR) gaat werken is je model lastig trainbaar, door de vele verschillende handschriften van diverse medewerkers door de tijd heen.

AI gaat de goede kant op en is de laatste tijd veel in het nieuws (chatgpt, stable diffusion, etc.) maar het leent zich moeilijker voor archieven. Een grote kostenbesparing ga je niet halen door het fysieke werk van bijvoorbeeld Karmac te beleggen bij een AI engineer.

▶ Beantwoorden

Permalink Antwoord van Olaf Griffioen op 27 Januari 2023 op 8.43

Dank voor de tip. Samenwerken zou bij een dergelijk initiatief inderdaad heel nuttig kunnen zijn.

Rens zei:

Als je slechts enkele tientallen meters papier hebt, dan ben je inderdaad, zoals Adriaan aangeeft, al door je materiaal heen op het moment dat het algoritme voldoende getraind is. Om het rendabel te maken, zou je wellicht samen op kunnen trekken met andere gemeenten en/of archiefdiensten die bouwdossiers gaan digitaliseren. Want gezamenlijk heb je meer massa. Misschien helpt een uitvraag via de VNG?

Veel gemeenten hebben de bouwarchieven in het verleden gedigitaliseerd, toen machine learning nog niet zo volop in beeld en beschikbaar was als tegenwoordig. Daarom vermoed ik dat er niet al ergens een getraind model op de plank ligt dat je zou kunnen hergebruiken. In mijn gemeente hebben we het destijds in elk geval handmatig gedaan.