In verband met een kostenberekening ben ik op zoek naar kengetallen van  een meter gedigitaliseerd archief. De ene meter is de andere niet, of je een meter pdf's hebt of een meter TIFF's maakt nogal een verschil.

 

Wie heeft dit soort berekeningen weleens uitgevoerd en wil ervaringen delen ? Mag ook anoniem.

Misschien moet de vraagstelling wel zijn hoeveel gigabytes of terabytes leveren alle blaadjes papier in een meter archief  per soort bestandsformaat op met een gemiddelde van 300 dpi ?

 

In een artikel van De Ree uit juli 2013 worden de volgende kengetallen genoemd:

Een meter gedigitaliseerd archiefmateriaal is ongeveer 20 gigabyte,  een kilometer archief bijgevolg 20 terabyte.

 

 

Weergaven: 2861

Hierop reageren

Berichten in deze discussie

Is het eigenlijk nog interessant om dit te "weten". De digitale "kosten factoren" wijzigen per maand.

Maar hier een "getal" in ons RMA en dus voorlopig het E-depot, met digital born en vervangen archiefbestanden bij elkaar = medio 2015:

1,9 Terrabyte en er zitten rond de 1,8 miljoen documenten in (inclusief enkele films) aantal meters? geen idee.

Je weet die van ons al waarschijnlijk Yvonne, maar misschien voor anderen interessant.

Gemeente van ongeveer 200.000 inwoners

0,55 Terabyte aan te bewaren informatie (1,63TB te vernietigen; de rest heb ik nog niet kunnen inventariseren, er schijnt in totaal 400TB aan opslag te worden gebruikt, het merendeel voor software e.d.).

Wij archiveren officieel "nog niet digitaal"... best knap met een halve terabyte aan te bewaren digitale informatie.

@Henk: is die 1,9 allemaal te bewaren, want dan lijkt het alsof ik nog een hoop gemist heb? (Of jij werkt bij een 4x grotere organisatie -Amsterdam?-, of werkt al 4x langer digitaal?)

@Mike, dankjewel, inderdaad had ik het cijfer al gehoord en dat was voor mij de directe aanleiding om de vraag te stellen. Ik denk dat iedere organisatie behoefte heeft aan kengetallen op dit gebied.

Via de mail ontving ik nog een opgave van Wouter Brunner,

600 meter papieren archief, zwart-wit gescand maar met kleurherkenning, pdf, 300 dpi, inclusief groot formaat tekeningen zou ruim 300 GB bedragen.

@Mike je hebt de juiste vraag. We zijn net gestart met het proces vernietigen in een digitale wereld. Dat is meer dan deleten van enige bestanden. Eerst hebben we retrospectief spectieve trendanalyse Door het SIO laten vaststellen. Nu moeten er euries beschikbaar komen.

@Henk en @Mike, is het geen illusie om te denken dat je in een digitaal tijdperk kunt vernietigen, denk aan het bonnetje van de staatssecretaris Teeven ?

Indien we niet volledig kunnen vernietigen zullen de boetes hoog zijn en dat is geen illusie maar huidige realiteit

Het mag dan wel een illusie zijn om het elke plek en alle juiste 000100011001-combinaties te vernietigen, we kunnen in ieder geval wel (proberen) om de bestanden/documenten te vernietigen op de plekken waar ze behoren te staan. Als er dan nog talloze kopiën rondzwerven, gaan we daar niet veel aan doen. Maar dat deden we honderd jaar geleden ook niet: iedereen vragen of er nog ergens kopietjes rondzwerven.

Neemt niet weg dat het aan te raden is om in kaart te brengen waar een document zich (officieel gezien) nog meer bevindt, zoals in back-ups of oude, afgesloten systemen. Aangezien het voorbeeld van Teeven nu heeft gespeeld, betekent niet dat alle data van 10+ jaar geleden nog steeds beschikbaar is.

@Mike klopt, dat deden we 100 jaar geleden inderdaad niet :-)

In eerste aanleg zou ik het dossier/document wat zowel in het DMS/RMS en/of V-Schijf en/of backoffice systeem voorkomt willen aanpakken.

Beste Yvonne,

Op mijn werk zijn we bezig met een pilot voor het digitaliseren van een groot papieren archief. Hierbij liepen we ook  aan tegen een vergelijking tussen digitaal en papier betreffende de kosten.

Omdat ik er niet uitkwam ben ik maar gaan rekenen. Als eerste heb ik een archiefdoos (model amsterdamse doos) volgestopt met papier. Als ik de doos helemaal vol stopte met kopieerpapier vers uit het pak (niet gekreukeld en bijna geen lucht tussen de vellen) Dan kreeg ik ongeveer 1120 vel in de doos. In de praktijk zal dit minder zijn omdat er altijd nog omslagen, bindmiddelen, lucht en andere objecten in een doos kunnen zitten. 
Als uitgangspunt kies ik voor 1000 vel in een doos.

Verder ga ik ervan uit dat elk vel dubbelzijdig gescand wordt dus 2000 scans per doos.

In praktijk zijn deze getallen lager omdat niet elke doos helemaal vol zit en niet alles dubbelzijdig gescand gaat worden(sommige scanners negeren bijvoorbeeld de witte kant van een enkelzijdig gebruikt vel).

Als ik me niet vergis gaan er 8 Amsterdamse dozen in een meter dus 16.000 scans per meter voor een dubbelzijdig losbladig archief. 

In een eerder project heeft mijn werkgever een meer dan 1KM aan papieren (A4 papier) archief op dossierniveau ingescand naar het PDF/A formaat. Na het scannen zijn de PDF bestanden door een OCR proces gehaald en ze bevatten dus doorzoekbare en selecteerbare tekst.  

Uit dit archief heb ik van een krappe 100 dossiers de grootte in Megabytes en het aantal pagina's in een Excel bestand genoteerd, vervolgens heb ik de gemiddelde grootte in Megabytes en  Kilobytes per pagina berekend. Elke pagina in de PDF was 1 scan.

Mijn berekening kwam op ongeveer 35 Kilobyte per scan.

De benodigde opslag is dus 35 * 16000 = 560000 Kilobyte = 546,875 Megabyte per meter.

De TIFF bestanden van het scanproces waren overigens een stuk groter dan de PDF bestanden maar omdat die na het scan- en ocrproces niet meer nodig waren kan ik daar geen berekeningen meer mee doen.

De hierboven berekende getallen zijn rudimentair maar geven in elk geval een goede indruk.  

Ons document management systeem bevat overigens +/- 600.000 documenten van 1 of meerdere pagina's en verschillende versies per document. Dat is ongeveer 3 Terrabyte = of 3072 Gigabyte [GB]

Dit is allemaal digital-born of ingescand archief. Helaas kan ik hier niet de omrekening maken naar meters of scans omdat ik niet weet hoeveel pagina's er in de documenten zitten  en hoeveel versies elk document heeft.

 

 

@Tom, bedankt voor je uitgebreide toelichting.

Interessant om te zien dat Tom's berekeningen zeer goed aansluiten bij onze ervaringscijfers.

Een erg goed voorbeeld, Tom. Bedankt voor de uitwerking. Wat ik me wel afvraag: waren de scans in kleur, grijswaarden, z/w of een combinatie (je geeft immers aan een gemiddelde genomen te hebben)?

Antwoorden op discussie

RSS

© 2024   Gemaakt door Marco Klerks.   Verzorgd door

Banners  |  Een probleem rapporteren?  |  Algemene voorwaarden