NETWERK VOOR DE INNOVATIEVE INFORMATIEWERKER
Onze situatie
Ik werk bij een gemeente en ik ben Adviseur proces en informatiemanagement.
In onze archiefruimte staan tientallen meters bouwdossiers. Deze dossiers bevatten documenten die bewaard moeten blijven maar ook documenten die vernietigd moeten worden. Op dit moment zijn we bezig met het handmatig opschonen van deze dossiers.
Ik vraag me af of dit slimmer (sneller) kan.
We beschikking over Optical character recognition (OCR) software genaamd KOFAX om fysieke documenten in te scannen en om de tekst om te zetten in digitale tekst (dus het is dan geen afbeelding meer). Maar we gebruiken dit alleen voor binnenkomende post.
Vraag
Heeft iemand ervaring met het digitaliseren en opschonen van (bouw)dossiers op een geautomatiseerde manier?
Waar ik aan denk ik een aanpak waarbij we alle dossier inscannen dmv OCR en dan door middel van machine learning (Articifial intelligence) ervoor zorgen dat we een splitsing maken tussen wat te vernietigen is en wat bewaard moet blijven.
Wat ik er van weet is dat je een dergelijke 'machine' een hele hoop data kan geven en die dan op basis van algoritmes leert welk bestand bewaard moet blijven en welke vernietigd kunnen worden. Eigenlijk op eenzelfde manier waarop mensen leren. Je moet zo'n machine dus wel heel veel documenten geven en leren wat wat is.
NB 1. Je ontkomt er dan niet aan om te voldoen aan alle criteria t.a.v. vervanging. Vanaf dat moment heb je dus geen fysiek archief meer nodig.
NB2. als ik op internet zoek vind ik vooral bedrijven die alles handmatig gaan opschonen en digitaliseren. Hier ben ik niet naar op zoek. Ik zoek naar een oplossing om dit minder arbeidsintensief (en daarmee hopelijk sneller en goedkoper) te doen.
NB3. Wat machine learning is?
"Deep" machine learning can use labeled datasets, also known as supervised learning, to inform its algorithm, but it doesn’t necessarily require a labeled dataset. Deep learning can ingest unstructured data in its raw form (e.g., text or images), and it can automatically determine the set of features which distinguish different categories of data from one another. This eliminates some of the human intervention required and enables the use of larger data sets.
Tags:
Je hebt het over papieren dossiers neem ik aan? Je ontkomt er niet aan deze dossiers te structureren alvorens te digitaliseren. Garbage in, garbage out. Er zijn scanbedrijven, die ook metadateren, daar zou je naar op zoek kunnen gaan. Vervanging en opname in een e-depot is gewoon een keuze. De onvindbaar van informatie zit m.i. meer in het recente digitale tijdperk en dan vooral de informatie-explosie. Informatie staat overal maar ook nergens.
In die zin heb ik wel een voorbeeld voor je en dan met de inzet van AI bij netwerkschijven. Gemeente waar ik voor werk zet die in om dubbelingen op te ruimen op netwerkschijven. Het is vrij arbeidsintensief. Dit is een firma die hierbij ondersteunt: starTXT.ai.
Tip: Start eens met het opstellen van een analyse van het dossier en een goede V-lijst:
Omschrijving stukken |
Bewaartermijn |
Aanvragen bouwvergunning - Geweigerde - Ingetrokken - Niet ontvankelijk verklaarde |
3 jaar 1 jaar 3 jaar |
Adviezen - Publieke Werken - Brandweer inzake brandveiligheidsvoorwaarden* - Welstandscommissie, inclusief bijbehorende tekeningen (er staat dan een stempel op de tekeningen) - Schoonheidscommissie, inclusief bijbehorende tekeningen (er staat dan een stempel op de tekeningen) - Dienst Reiniging en Vervoer |
10 jaar 10 jaar
10 jaar
10 jaar
10 jaar |
Artikel 138-formulieren inclusief alle bijgaande stukken |
10 jaar |
Bemerkingen |
1 jaar |
Bestemmingsplanformulieren |
10 jaar |
Bodemonderzoeken** |
10 jaar |
Bouwvergunningen - Ingetrokken - Klachten |
3 jaar 10 jaar |
"Groene" tabstroken |
10 jaar |
Huisnummering |
10 jaar |
Subsidie-aanvragen - ter kennisname ingediend - waarbij de gemeente betrokken is |
1 jaar 5 jaar |
Verklaring van geen bezwaar inclusief bijlagen (komt van de Provincie en is herkenbaar aan de stempel van Gedeputeerde Staten) |
10 jaar |
|
|
Bouwvergunningen ondergeschikt aan het hoofdgebouw *** |
Bewaartermijn |
Bouwvergunningen (tijdelijke) |
Na vervallen belang |
Dakramen |
Na vervallen belang |
Erfafscheidingen |
Na vervallen belang |
Reclameborden |
Na vervallen belang |
Schotelantennes |
Na vervallen belang |
Rioolaanleg / -aansluiting |
Na vervallen belang |
*** Deze geldt niet voor Monumenten daar is de bewaartermijn: eeuwig.
Wil je gebruik gaan maken van machine learning om te schonen loop je tegen een aantal punten:
1. Je moet een uniforme stijl van bouwdossiers hebben over het geheel. AI is goed met standaard, slecht met uitzondering
2. Je moet je model zelf trainen. Hiervoor is doorgaans je digitale dataset zo omvangrijk dat, wanneer je een werkend model hebt, alles eigenlijk al handmatig hebt gedaan.
3. Zodra je met handgeschreven tekst (HTR) gaat werken is je model lastig trainbaar, door de vele verschillende handschriften van diverse medewerkers door de tijd heen.
AI gaat de goede kant op en is de laatste tijd veel in het nieuws (chatgpt, stable diffusion, etc.) maar het leent zich moeilijker voor archieven. Een grote kostenbesparing ga je niet halen door het fysieke werk van bijvoorbeeld Karmac te beleggen bij een AI engineer.
Met Simplifai kwamen bij de evaluatie tot de conclusie dat het in de nabije toekomst wellicht tot arbeidsbesparingen gaat komen, maar het traject zelf leverde die nog niet op.
Dank voor je reactie. Ik bedoel inderdaad papieren dossiers.
Klopt, bedrijven die de dossiers handmatig opschonen zijn er voldoende maar de ontwikkelingen op het gebied van AI gaan zo hard dat ik benieuwd was of er al meer mogelijk was.
Yvonne Welings zei:
Je hebt het over papieren dossiers neem ik aan? Je ontkomt er niet aan deze dossiers te structureren alvorens te digitaliseren. Garbage in, garbage out. Er zijn scanbedrijven, die ook metadateren, daar zou je naar op zoek kunnen gaan. Vervanging en opname in een e-depot is gewoon een keuze. De onvindbaar van informatie zit m.i. meer in het recente digitale tijdperk en dan vooral de informatie-explosie. Informatie staat overal maar ook nergens.
In die zin heb ik wel een voorbeeld voor je en dan met de inzet van AI bij netwerkschijven. Gemeente waar ik voor werk zet die in om dubbelingen op te ruimen op netwerkschijven. Het is vrij arbeidsintensief. Dit is een firma die hierbij ondersteunt: starTXT.ai.
Tip: Start eens met het opstellen van een analyse van het dossier en een goede V-lijst:
Omschrijving stukken
Bewaartermijn
Aanvragen bouwvergunning
- Geweigerde
- Ingetrokken
- Niet ontvankelijk verklaarde
3 jaar
1 jaar
3 jaar
Adviezen
- Publieke Werken
- Brandweer inzake brandveiligheidsvoorwaarden*
- Welstandscommissie, inclusief bijbehorende tekeningen (er staat dan een stempel op de tekeningen)
- Schoonheidscommissie, inclusief bijbehorende tekeningen (er staat dan een stempel op de tekeningen)
- Dienst Reiniging en Vervoer
10 jaar
10 jaar
10 jaar
10 jaar
10 jaar
Artikel 138-formulieren inclusief alle bijgaande stukken
10 jaar
Bemerkingen
1 jaar
Bestemmingsplanformulieren
10 jaar
Bodemonderzoeken**
10 jaar
Bouwvergunningen
- Ingetrokken
- Klachten
3 jaar
10 jaar
"Groene" tabstroken
10 jaar
Huisnummering
10 jaar
Subsidie-aanvragen
- ter kennisname ingediend
- waarbij de gemeente betrokken is
1 jaar
5 jaar
Verklaring van geen bezwaar inclusief bijlagen (komt van de Provincie en is herkenbaar aan de stempel van Gedeputeerde Staten)
10 jaar
Bouwvergunningen ondergeschikt aan het hoofdgebouw ***
Bewaartermijn
Bouwvergunningen (tijdelijke)
Na vervallen belang
Dakramen
Na vervallen belang
Erfafscheidingen
Na vervallen belang
Reclameborden
Na vervallen belang
Schotelantennes
Na vervallen belang
Rioolaanleg / -aansluiting
Na vervallen belang
*** Deze geldt niet voor Monumenten daar is de bewaartermijn: eeuwig.
Dank voor je reactie.
De bouwdossiers hebben een redelijk standaard opmaak. Bij punt 2 heb je een goed punt, hier zit ook wel mijn twijfel.
Gelukkig hebben we nauwelijks met handgeschreven teksten te maken.
Adriaan Mol zei:
Wil je gebruik gaan maken van machine learning om te schonen loop je tegen een aantal punten:
1. Je moet een uniforme stijl van bouwdossiers hebben over het geheel. AI is goed met standaard, slecht met uitzondering
2. Je moet je model zelf trainen. Hiervoor is doorgaans je digitale dataset zo omvangrijk dat, wanneer je een werkend model hebt, alles eigenlijk al handmatig hebt gedaan.
3. Zodra je met handgeschreven tekst (HTR) gaat werken is je model lastig trainbaar, door de vele verschillende handschriften van diverse medewerkers door de tijd heen.
AI gaat de goede kant op en is de laatste tijd veel in het nieuws (chatgpt, stable diffusion, etc.) maar het leent zich moeilijker voor archieven. Een grote kostenbesparing ga je niet halen door het fysieke werk van bijvoorbeeld Karmac te beleggen bij een AI engineer.
Dank voor de tip. Samenwerken zou bij een dergelijk initiatief inderdaad heel nuttig kunnen zijn.
Rens zei:
Als je slechts enkele tientallen meters papier hebt, dan ben je inderdaad, zoals Adriaan aangeeft, al door je materiaal heen op het moment dat het algoritme voldoende getraind is. Om het rendabel te maken, zou je wellicht samen op kunnen trekken met andere gemeenten en/of archiefdiensten die bouwdossiers gaan digitaliseren. Want gezamenlijk heb je meer massa. Misschien helpt een uitvraag via de VNG?
Veel gemeenten hebben de bouwarchieven in het verleden gedigitaliseerd, toen machine learning nog niet zo volop in beeld en beschikbaar was als tegenwoordig. Daarom vermoed ik dat er niet al ergens een getraind model op de plank ligt dat je zou kunnen hergebruiken. In mijn gemeente hebben we het destijds in elk geval handmatig gedaan.
© 2024 Gemaakt door Marco Klerks. Verzorgd door