BREED - over de grenzen van informatie

NETWERK VOOR DE INNOVATIEVE INFORMATIEWERKER

Data of datacollecties (warm en koud)?

In een artikel op infostor.com http://bit.ly/1yvYo1a

stelt Henry Newman voor om te stoppen met praten over data en te beginnen met het begrip datacollecties.

Wat betekent het bijvoorbeeld als een dataprofessional zegt dat hij ‘koude’ opslag wil?

Dit is de opslag van data buiten het domein van servers met dynamische en ‘hete’ opslag; oude data wordt apart gezet omdat deze niet meer of niet vaak geraadpleegd wordt, maar toch beschikbaar moet zijn. Servers staan in stand-by en verbruiken minder stroom (Stijn Grove op Blogit) - http://www.blogit.nl/koude-data-opslag

Henry Newman pleit voor duidelijke definities en/of het uitdrukken in percentages van de totale opslag omdat het totaal of de som aan toegankelijkheid van wat data tot koude data maakt op dit moment voor verschillende mensen een verschillende betekenis heeft.

Zijn voorstel is om datacollecties onder te verdelen in verschillende gradaties (met een knipoog):

1. De Poolcollectie; deze data wordt waarschijnlijk nooit gebruikt en niet naar gevraagd, maar je weet maar nooit… Bijvoorbeeld: maximaal 5 TB (terabyte) op een totale datahoeveelheid van 1 PB (petabyte).

2. De IJzig Koude collectie: af en toe vraag naar, maar niet vaak gebruikt, bijvoorbeeld maximaal 20 TB op een totaal van 1 PB

3. Koude collectie: Data waar met een bepaalde mate van regelmaat vraag naar is. 50 TB op een totaal van 1 PB

4. Frisse of Waterkoude collectie: regelmatige raadpleging. Bijvoorbeeld 100 TB op 1 PB

Over de namen, uitleg en hoeveelheden kun je discussiëren maar Henry Newman wil het maar eens in de groep gooien om ‘koude’ opslag in de toekomst beter te kunnen definiëren.

Is dit soort dataterminologie zinloos of verduidelijkt het wel degelijk wat voor soort data we bedoelen?

2 belangrijke kanttekeningen:

De collecties zijn gebaseerd op grote hoeveelheden data, bekeken vanuit de dataopslagindustrie en berekend voor een periode van 1 jaar.

Als andere kanttekening kun je plaatsen dat hij feitelijk meer uitgaat van de beschikbare of toegankelijke hoeveelheid en minder van de context waarom data in een bepaalde categorie valt. Het kan ook zo zijn dat de Poolcollectie wellicht groter is dan de IJzig Koude collectie omdat de context of het doel van de data anders is.

Verder is het maar weer hoe je het bekijkt; als data vanuit een dynamische omgeving in een e-depot terecht zou komen, wordt de data van de overbrenger een stuk kouder en de data bij de nieuwe zorgdrager warmer.

Wanneer ik de begrippen via Henry Newman en Stijn Grove door zou vertalen vanuit Nederlandse archiefbegrippen komen we in de buurt van het volgende :),

Dynamisch wordt hete data (op eigen servers / cloud*)

Semi-statisch wordt warme data (op eigen servers)

Statisch wordt koude data. Deze data is overgebracht naar een andere beheerder/zorgdrager en staat op andere servers.

*In geval van een cloudleverancier waar hete en warme data staat, verandert de status wanneer de cloudleverancier data naar andere servers verplaatst die geen onderdeel uitmaken van de dynamische ondersteuning voor de bedrijfsprocessen van hun opdrachtgever en waarvan de handeling van wijziging/verplaatsing opgenomen moet worden in een SLA om het verschil aan te geven.

Voor de volledigheid meld ik hier de databegrippen die de Rijksoverheid en het Centraal Bureau voor de Statistiek gebruikt.

Dataoverheid.nl spreekt van datasets bij open data http://www.rijksoverheid.nl/opendata

en het CBS spreekt over dataverzamelingen - http://www.cbs.nl/nl-NL/menu/methoden/dataverzameling/default.htm

Vind ik leuk

0 leden vinden dit leuk