Spraakherkenning in onderzoek

13 november 2012 door Esther van Popta

In onderzoek worden veel gegevens verzameld via gesprekken met respondenten. De verwerking van deze gesprekken kost echter veel tijd. Zou ICT hier niet kunnen helpen? In deze blogbijdrage sta ik stil bij de huidige stand van zaken van spraakherkenningtechnologie . Ik heb hiervoor gebruik gemaakt van informatie die ik heb gekregen van Arjan van Hessen (UTwente).

Herkenningspercentage

Om te bepalen in hoeverre het interessant is om gebruik te maken van spraakherkenningssoftware is het relevant om te weten in hoeverre er een hoog herkenningspercentage te halen is. Arjan van Hessen geeft aan: “Op dit moment kun je in ideale gevallen een herkenningspercentage halen van 96% a 98%. Dit zijn dus 2 a 4 woorden fout op de 100 gesproken woorden. De computer herkent de frequente woorden en heeft meer moeite met zeldzame woorden. Hiervoor is het belangrijk dat de tekst rustig ingesproken wordt op een computer met een goede headset in een rustige omgeving. En de software moet getraind zijn op je stem”. Dit zijn nogal wat voorwaarden en de vraag is of het de moeite waard is om deze investering te doen.

Wat wil de onderzoeker?

Voordat je deze afweging goed kunt moet je je echter eerst afvragen of je wel een letterlijke weergave van de gesproken tekst wilt hebben. Wil je werkelijk een letterlijke transcriptie van hetgeen er gezegd werd? Soms is dat nodig en moet het dus, maar meestal wil je een leesbare samenvatting en dus moet de menselijke intelligentie gebruikt worden om er een leesbaar iets van te maken. De tweede vraag is: wat wil je ermee doen? Een variant op het genereren van een letterlijke transcriptie is het bieden van de mogelijkheid om te zoeken naar bepaalde passages in de opgenomen gesprekken. Ik begrijp dat er verschillende onderzoekers zijn die dit veel interessanter vinden dan de letterlijke weergave van de gesprekken.

Demo’s

Op de UTwente wordt al een paar jaar onderzoek gedaan naar het doorzoekbaar maken van gesproken interviews. Arjan stuurde mij twee demo’s: Zie bijvoorbeeld een demo waarbij je kunt zoeken in de journaals van de afgelopen 2 weken: http://hmi.ewi.utwente.nl/showcases/Broadcast-news-demo. Een andere toegankelijke demo is die van Kamp Buchenwald: 39 oude mannen werden geïnterviewd over hun ervaring in het concentratiekamp Buchenwald. Alle interviews zijn door de spraakherkenner gehaald en doorzoekbaar op het Internet gezet. Kijk maar eens op: http://hmiapps.ewi.utwente.nl/buchenwald/home.jsf en zoek op honger of bang.

Software

Kortom, spraakherkenning werkt goed onder goede omstandigheden maar het allerbelangrijkste is je af te vragen wat je met de tekst wilt doen. Heb ik een volledige transcriptie nodig en is dat zo belangrijk dat het opnemen en naspreken van alles dat gezegd werd door een ervaren na-spreker de moeite waard is. Mocht je besluiten om met spraakherkenningssoftware aan de slag te gaan dan is deze betaalbaar te verkrijgen via surfspot: Dragon Naturally Speaking versie 11. Lees hier de ervaringen van Jose de Kruijf (UU) met deze software.