Taaltechnologen Radboud geven oude data een nieuw leven
Geesteswetenschappers die nog opnames of grote tekstbestanden hebben liggen die ooit als basis dienden voor hun onderzoek: stof die oude data af, want de taal- en spraaktechnologen van de Radboud Universiteit weten er raad mee. Sinds 1 januari runnen zij een landelijke datacuratieservice, die interessante ‘oude’ data bruikbaar maakt voor nieuw onderzoek.
Interviews die zijn afgenomen voor bijvoorbeeld taalkundig of historisch onderzoek, grote tekstbestanden, verzameld door historici of letterkundigen: her en der in Nederland ligt onderzoeksmateriaal te verstoffen. En dat terwijl dat materiaal interessant kan zijn voor nieuw onderzoek, weet spraaktechnoloog Henk van den Heuvel.
Oplappen
Van den Heuvel is sinds 2009 betrokken bij het Europese project CLARIN dat zich toelegt op het inrichten van een digitale onderzoeksinfrastructuur voor de geesteswetenschappen. De Nederlandse tak van CLARIN richt zich op nieuwe, maar ook op bestaande dataverzamelingen en die hebben vaak enig opknapwerk (datacuratie, in vaktermen) nodig voordat ze voldoen aan alle eisen. ‘Soms zijn er transcripties van interviews zoekgeraakt, soms is de beschrijving van het materiaal onvoldoende, vaak zijn audio- of video-opnames niet goed te doorzoeken.’
Veteranen
Van den Heuvel en collega’s hebben eerder voor CLARIN-NL een ‘curatieklus’ geklaard met het Interviewproject Nederlandse Veteranen. Het Veteraneninstituut had audio-opnames van interviews met 250 veteranen, ruim 500 uur aan materiaal. De Nijmeegse taal- en spraaktechnologen, specialisten in automatische spraakherkenning, hebben die doorzoekbaar gemaakt op talloze steekwoorden.
Bruikbaar maken
CLARIN-NL verstrekt geld aan onderzoeksvoorstellen, maar kan niet alle projecten honoreren, terwijl er vaak wel interessant materiaal achter ligt. Om dat bestaande materiaal in ieder geval bruikbaar te maken, heeft CLARIN-NL nu een datacuratieservice (kortweg DCS) opgericht, die vanaf januari gevestigd is bij het Centre for Language and Speech Technology (CLST) van de Radboud Universiteit. CLST is in de loop der jaren betrokken geweest bij het maken van een groot aantal corpora waaronder het Corpus Gesproken Nederlands. Inmiddels heeft het centrum een zekere faam in het aanleggen en ontsluiten van grote dataverzamelingen.
Opsporen
De datacuratieservice heeft tevens als opdracht meegekregen, vertelt Van den Heuvel, om zelf interessante verzamelingen op te sporen. Voorlopig alleen uit de geesteswetenschappen, later volgen mogelijk de sociale wetenschappen. ‘Onderzoekers die mooi materiaal hebben liggen, roep ik op om zich bij ons te melden. We geven hun data graag een nieuw leven.’/ Anja van Kessel
Gunt u uw oude data een nieuw leven? Mail dan naar Henk van den Heuvel ([email protected]) of Nelleke Oostdijk (projectleider DCS) ([email protected])