Het Stadsarchief wordt in toenemende mate geconfronteerd met born-digital of digitaal vervaardigd materiaal. Dit geldt zowel voor overheidsarchief als particulier archief. In plaats van een bananendoos van zolder leveren particuliere archiefvormers steeds vaker archiefmateriaal op een harde schijf aan. De hoeveelheid documenten, vaak zonder duidelijke samenhang en veelzeggende bestandstitels, maken het moeilijk voor een archivaris om zich wegwijs te maken. Het Stadsarchief onderzoekt daarom nieuwe technieken en methodes die kunnen worden ingezet om de instroom van digitaal vervaardigd materiaal te verwerken. In dit kader begon Gijs Aangenendt, master student Digitale Geesteswetenschappen, eind 2021 aan een onderzoekstage naar de techniek Topic Modeling. In deze blog meer over de resultaten van het onderzoek.
Waarom Topic Modeling?
Met behulp van Topic Modeling kan een archivaris de verborgen thematische structuur achter een grote verzameling documenten achterhalen, zonder eerst elk document één voor één te hoeven lezen. Het algoritme van de techniek analyseert de inhoud van de documenten en genereert zogeheten topics, lijsten met woorden die statistisch gezien vaak in de buurt van elkaar voorkomen. De topics representeren de verborgen thema’s binnen het archief en kunnen de archivaris ondersteunen in aanbrengen van een ordening.
Hoe werkt het?
Topic Modeling begint met het samenstellen van een corpus, een verzameling documenten die enige samenhang vertonen. Tijdens de onderzoeksstage is geëxperimenteerd met 66 documenten uit het archief van de voormalige nachtclub Trouw Amsterdam.
Verder lezen bij de bron
Je moet lid zijn van BREED - over de grenzen van informatie om reacties te kunnen toevoegen!
Wordt lid van BREED - over de grenzen van informatie