27.000 Recepten vinden in 8 miljoen krantenberichten: Geesteswetenschappen op het snijvlak van taaltechnologie en big data.

van Erp, M. (Speaker)

Activity: Talk or presentationSocietal

Description

Recepten zijn een populaire websitecategorie. Sommige websites zijn gespecialiseerd in trendy, hedendaagse recepten, andere zijn juist weer gericht op de traditionele keuken. Websites missen vaak echter de breedte en chronologie. omdat ze een product zijn van het heden of het recente verleden. Kranten vormen een belangrijke bron voor inkijkjes in het dagelijkse leven van vroeger, en publiceerden vaak ook recepten. Deze kunnen ons meer inzichten geven in eetgewoontes en meningen over eten door de tijd. Nu is het echter zo dat deze recepten bij het digitaliseringsproces van kranten niet specifiek zijn aangemerkt, en je kunt ze ook niet zo maar vinden door ‘recept’ als zoekwoord in te typen, omdat je dan ook doktorsrecepten terugkrijgt, en je mist de recepten waar het woord ‘recept’ niet in voorkomt.
In deze presentatie zal ik uitleggen hoe we systemen ontwikkelen die recepten kunnen herkennen, structureren en classificeren uit de Delpher krantencollectie van de Koninklijke Bibliotheek. Ik zal ingaan op specifieke uitdagingen voor het werken met data die via OCR is gedigitaliseerd, wat deze technologieën kunnen betekenen voor geesteswetenschappelijk onderzoek en hoe ze ingezet kunnen worden voor andere domeinen.
Period21 Mar 2019
Degree of RecognitionNational