29 nov 2021 1 reactie
Bij het verzamelen van informatie voor het beantwoorden van Wob-verzoeken is detecteren van duplicaten een belangrijk onderdeel om veel dubbel werk te besparen. Het blijkt dat de informatie die verzamelt wordt bij het afhandelen van grotere Wob-verzoeken tussen de 40%-60% duplicaten bevat, met name als er veel communicatie informatie wordt opgevraagd die in bronnen zit zoals e-mail. Er zijn zelfs uitschieters waarbij van de verzamelde informatie maar liefst 68% een duplicaat is. Belangrijk dus om duplicaten goed te herkennen zodat er geen extra tijd en middelen wordt besteed aan de verwerking en beoordeling hiervan.
Wat is een duplicaat?
Het is belangrijk om een onderscheid te maken tussen exacte duplicaten en bijna-exacte duplicaten. Met een exact duplicaat bedoelen wij een document dat precies hetzelfde is als een ander document van hetzelfde bestandstype. Bijvoorbeeld twee Microsoft Word documenten met dezelfde inhoud maar een andere bestandsnaam.
Een bijna-exact duplicaat is een document waarbij de inhoud bijna gelijk is aan de inhoud van een ander document, dit zijn bijvoorbeeld verschillende versies van hetzelfde document met kleine veranderingen, of hetzelfde document maar dan als PDF en als Microsoft Word document.
Hoe herken je een exact duplicaat?
Om duplicaten te herkennen met de computer heb je verschillende methodes die gebruikt worden. Voor exacte duplicaten wordt in het algemeen gebruik gemaakt van een hash berekening van een document of bestand. Een hash berekenen over een document of bestand is het uitvoeren van een algoritme om een unieke digitale vingerafdruk oftewel hashcode te maken. Deze hashcode wordt vastgelegd als een reeks van tekens en deze is uniek. Er zijn verschillende typen hashcodes zoals MD5, SHA-1 en SHA-256. Een voorbeeld van een MD5 hashcode van een bestand is d41d8cd98f00b204e9800998ecf8427e. MD5 is misschien wel de bekendste hashcode maar deze wordt inmiddels als onveilig beschouwd (net als SHA-1) en veelal wordt nu of SHA-256 of SHA-512 toegepast. Indien de hashcodes van verschillende documenten of bestanden gelijk zijn, dan zijn de documenten of bestanden ook identiek aan elkaar.
Duplicaten bij het afhandelen van Wob verzoeken - Binnenlands Bestuur
Je moet lid zijn van Waardering en Selectie om reacties te kunnen toevoegen!