Door: Leon van Oosterom cdia+
In januari 2008 is onder nummer WJZ/2008/452 (8218) een nieuwe beleidsregel van kracht geworden ten aanzien van digitale substitutie van originele documenten. Deze beleidsregel omschrijft ondermeer waaraan de digitale documenten moeten voldoen.
Als resultaat daarvan zien wij de trend dat, wanneer wordt overgegaan op het digitaal vastleggen van papieren documenten, wordt voorgeschreven dat documenten in kleur ongecomprimeerd dienen te worden gescand en opgeslagen. Vanuit de aanvragen die wij gepubliceerd zien worden, blijkt er in het veld nogal wat onbekendheid te zijn over de verschillende fileformaten en de consequenties van bepaalde keuzes. Hieronder treft u de alinea aan van de betreffende regeling die daarover gaat en daaronder enige afwegingen die wij graag ter discussie willen stellen..
___________________________________________________________________
Beleidsregel van de Minister van Onderwijs, Cultuur en Wetenschap van 22 januari 2008, nr.
WJZ/2008/452 (8218),
Minimale technische specificaties bij digitale vervanging
De hieronder opgenomen technische specificaties gelden als minimum in de zin van de Beleidsregel
digitale vervanging archiefbescheiden.
Parameters
Voor gedrukte tekst worden de volgende parameters gebruikt:
- indien kleur relevant is1: 300dpi met bitdiepte 24;
- indien grijstinten relevant zijn: 300 dpi met bitdiepte 8;
- indien kleur en grijstinten niet relevant zijn: 300 dpi met bitdiepte 1.
1 Scanning geschiedt in kleur, tenzij scanning in zwartwit geen informatieverlies oplevert. Indien in kleur wordt gescand, wordt geadviseerd om het digitale beeld op te slaan in een gestandaardiseerd, apparaatonafhankelijk kleurenprofiel, bijvoorbeeld sRGB IEC 61966-2-1:1999.
Bestandsformaat
A. Ten aanzien van het bestandsformaat wordt gebruik gemaakt van zogenoemde open standaarden2.
2 Dit zijn standaarden die via een formeel en open proces binnen een erkend standaardisatieorgaan (bijvoorbeeld ISO, NEN, W3C) tot stand komen. Voorbeelden van open standaarden zijn TIFF (waarbij ‘uncompressed baseline TIFF v6’ de voorkeur geniet) en PDF/A (ISO 19005-1).
B. Indien bij het scanproces gebruik wordt gemaakt van een tussenformaat, dan mag geen
kwaliteitsverlies optreden bij de omzetting van het tussenformaat naar het uiteindelijke formaat3.
3 Een omzetting van TIFF als tussenformaat naar JPEG als eindformaat is ongewenst, omdat die omzetting gepaard gaat met kwaliteitsverlies.
_____________________________________________________________________
Een aantal feitelijkheden:
PDF/A
Op dit moment wordt gewerkt met de ISO standaard ISO-19005-1 voor het aanmaken van PDF/A-1 bestanden. Deze is gebaseerd op de PDF versie 1.4 generatie.
Een PDF/A-1 bestand kan opgebouwd worden met gebruikmaking van onder andere:
1. Tiff groep 4 zwart/wit bestanden
2. Tiff v6 ongecomprimeerde bestanden
3. Jpeg formaat bestanden
4. JBIG formaat bestanden
5. PNG formaat bestanden
Dat wil dus zeggen dat de keuze voor PDF/A, niet automatisch betekend dat de kleurinformatie in een scan verliesloos of met verlies (lossy vs. Lossless) wordt vastgelegd. Een PDF/A kan zowel met ongecomprimeerde als met gecomprimeerde bestanden worden aangemaakt.
De volgende generatie PDF/A (PDF/A-2) zal gebaseerd zijn op de PDF generaties 1.5, 1.6 en 1.7 onder meer inhoudende dat tevens JPEG2000 als compressie worden geaccepteerd.
Overwegingen
Een A4 formaat pagina in 24 bits kleur en als tiff v6 opgeslagen bestand heeft een bestandsgrootte van 25Mb.
Datzelfde bestand maar dan opgeslagen met een JPEG compressie of een JPEG2000 compressie zal een bestandsgrootte opleveren van tussen de 250 Kb en 1,5 Mb, afhankelijk van de gekozen compressiesterkte.
Beheer & distributie
Wanneer een archief dient te worden omgezet naar digitaal is het dus van belang te weten dat opslag conform het advies van de regeling mogelijk een te grote belasting gaat vormen voor de opslag-, beheer- en distributiefaciliteiten van de gebruiker.
Immers een dossier van 50 pagina’s A4 is zo rond de 1,2 Gigabyte en een archief van 10 meter levert al snel een totaal bestandsvolume op van bijna één terabyte, Nog erger wordt het als in het archief technische tekeningen opgeslagen liggen. Een A0 formaat tekening op zichzelf heeft al 400 Mb nodig als ongecomprimeerde tiff.
Een dergelijke belasting is voor de meeste netwerken toch een probleem. Bij een middelgrote archiefcollectie van 500 meter dient rekening gehouden te worden met een benodigde schijfcapaciteit van bijna 50 Terabyte alleen al voor de primaire opslag.
Het opvragen van dossiers met een dergelijke bestandsgrootte is ook met de hedendaagse netwerksnelheden niet echt gebruikersvriendelijk. Wanneer de opvraging middels internetverbinding wordt uitgevoerd, of wanneer van e-mail gebruik moet worden gemaakt, wordt het geheel onwerkbaar.
Scanners
Daarnaast speelt als het goed is ook de kostenoverweging een rol. Hedendaagse scanners zijn in staat om kleurenscans te maken met snelheden van 130 vel per minuut of meer, tenminste als de bestanden worden weggeschreven in zwart/wit, of met een Jpeg of Jpeg 2000 compressie. Heel anders wordt dat als de bestanden in tiff v6 ongecomprimeerd dienen te worden opgeslagen. De verwerkingssnelheid daalt dan naar 10 tot 30 vel per minuut. Het spreekt voor zich dat dit van invloed is op de “kale” scanprijs.
Databases & back-up
Extra aandacht verdienen ook databases waar de images als “blob” worden ingebed. Dit is een techniek waar de images samen met de beschrijvende metadata in de databases worden opgeslagen. Databases waar alleen de metadata wordt opgeslagen zullen niet snel te groot worden om met back-up routines te worden veiliggesteld. Databases voorzien van “blobs” kunnen echter makkelijk te groot worden om gedurende de nachtelijke uren door middel van een back-up veilig gesteld te worden. Wanneer dat het geval is zal in de regel gekozen worden voor de zogenaamde “incremental back-up” dit is een back-up techniek waarbij alleen de ontstane wijzigingen worden bijgehouden. Mocht echter op een gegeven moment een “recovery” uitgevoerd moeten worden op basis van die techniek, dan is het van belang te onderzoeken in welk tijdsbestek een dergelijke “recovery” kan worden uitgevoerd.
Kwaliteit
Praktisch gezien zouden de bovenstaande feiten moeten leiden tot de conclusie dat het niet onverstandig zou zijn om wel degelijk kleurcompressie toe te passen. Kwaliteitstechnisch is er niet zo veel op tegen om een zekere mate van compressie toe te staan. Bij veel documentsoorten is de kleurechtheid tenslotte niet het meest belangrijk, doch gaat het om zaken als informatiebehoud. Het zou derhalve een goede zaak zijn om de beleidsregel aan te vullen met de mogelijkheid om de gescande documenten op te slaan met een vastgestelde maximale kleurcompressie zodat zowel kwaliteit als hanteerbaarheid gegarandeerd worden.
Je moet lid zijn van BREED - over de grenzen van informatie om reacties te kunnen toevoegen!
Wordt lid van BREED - over de grenzen van informatie