Ahotsak-eko corpusa: Ahozko Tradiziozko Corpusa

Corpus ataleko logoa Ahotsak Ahozko Tradiziozko Corpusa izendatu dugun proiektu honen helburua da ahozko materialean oinarritutako euskarazko corpus linguistiko bat osatzea. Euskal Herriko Ahotsak proiektuan zehar egindako transkripzioetan oinarrituz, 1900-1950 bitartean jaiotako euskaldunen bat-bateko hizkera naturalaren ezaugarriak bildu nahi ditu.

Hizlarien lekukotasunak oinarri hartuta, ondorengo informazioa jasoko dugu:

  • lema bakoitzaren aldaerak;
  • aldaeren eta lemen banaketa geografikoa;
  • datu estatistikoak.

Kasu guztietan, bildutakoaren transkripzio-zatia eta bideoa kontsultatzeko aukera ere eskaintzen da.

Zergatik eta zertarako euskarazko ahozko corpus bat?

Euskararen kalitatea eta erabilera sustatzeko, nahitaezko dugu eredua eta bidea erakutsiko diguten adibideak eta lanabesak izatea. Beharrezko erreminten artean euskarazko corpusak daude, ahal dela libreak eta denon esku izango direnak, eta gure aurrekoek erabilitako euskara zein den erakutsiko digutenak; euskarazko hitz eta aditzen erabilera zehaztuko diguten datu-baseak. Euskarak esparru berrietara zabaldu nahi badu datozen urteotan, behar-beharrezkoa dugu jakitea orain arteko euskaldunek nola erabili izan duten euskara. Horretarako erreminta paregabeak dira corpusak eta corpus horietan oinarritutako lan-tresnak.

Gaur egungo hizkera aztertzen duten corpus handiekin batera (Lexikoaren Behatokia, Web-corpusen ataria edo Egungo Testuen Corpusa), une honetan euskarazko corpus historiko nagusi bi ditugu, sarean eta publiko, orain arte euskarazko hitzen erabilera zein izan den jakiteko:

Lehenengoan XX. mendeko 6500 testu zati biltzen dira, eta beraien erauzketa egiten da. Guztira 4.658.036 hitz daude jasota. Proiektua amaituta dago eta ez da gehiago haziko. Bigarrenean 2000-2005 tartean argitaratutako 235 liburu eta prentsako hainbat pasarte daude jasota. Guztira 25 milioi hitz daude kontsultagai. Proiektua zabalik dago oraindik. 

Batean zein bestean, gure idazleek hitz bakoitza non, nola eta noiz erabili izan duten ikusi dezakegu. Maiztasuna, aldaera, kokapena, eta abar.

Aurreko bi horien balioa begibistakoa da, baina biak ere biak idatzizko corpusetan oinarrituta daude. Ez digute esaten, hortaz, gure aiton-amonek, gure arrantzale eta baserritarrek mendez mende nola hitz egin duten. Euskara jator eta bizia duten euskaldun elebakar horiek nola hitz egiten dute? Nola josten dituzte esaldiak? Nola erabiltzen dituzte aditzak? Eta zein aldaera? Eta nolako intonazioa ematen diote bakoitzari?

Hori guztia jakiteko ezinbestekoa da ahozko corpusetan oinarritutako lanabes bat izatea, Euskal Herri osoko hizkeretan eta grabazioetan oinarritutakoa, guztion ereduak erakutsiko dizkiguna, gure nagusien jarduna plazaratuko duena, eta idatzizko adibidearekin batera, irakurritako hori entzuteko (eta hiztuna berriketan ikusteko) aukera emango diguna, gaur egun ikusentzunezko fitxategiek eta Internetek eskaintzen dituzten baliabide amaigabeei esker. Hutsune hori betetzera dator Ahotsak Ahozko Tradiziozko Corpusa.

Lanean ari gara

Corpusen azterketa lan astun eta luzea da beti, eta ahozko corpusen kasuan bikoiztu edo hirukoiztu egiten da, hainbat arrazoigatik, besteak beste, jasotako ahotsa paperera eraman behar delako aztertu ahal izateko, eta ondoren, paperean dagoen hori, nolabait, eredu jasoarekin lotu beharko delako. Adibide bat jartze aldera: "mendi" hitza ehunka forma ezberdinetan azalduko zaigu: mendiya, mendidxe, mendittik, mendiñ, mendien... Aldaera guzti horiek elkarren artean lotu behar dira aplikazio baten bidez, eta horixe da proiektu honetan aurkezten dugun aplikazioaren eta lanaren oinarria, ahoz jasotako testuen transkripzioak lematizatu, etiketatu, eta ondoren hiztegi bat lantzea.

Hori da, labur-labur esanda, proiektu honen funtsa: Ahozko corpus batean oinarrituta, transkripzioak etiketatu, lematizatu, eta informazio hori guztia bilaketa-sistema baten bidez hiztegia kontsultagai jarriko digun datu-basea. Gainera, kontsultatu dugun hori, hiztunaren ahotan entzuteko aukerarekin (hitzaren erabilerarekin batera, ahoskera eta intonazioa aztertzeko aukerarekin), aplikazio hori soinu/bideo fitxategiekin lotzen delako.

Guzti horretarako sistema semi-automatiko bat garatu dugu, eskuzko lana ere eskatzen duena, eta dagoeneko hasi gara tresna horren lehenengo emaitzak jasotzen.

Oraindik ere Beta fasean gaude, lematizazio fase esperimentala garatzen eta eskuzko zuzenketak egiten (ahozko lagin batean ez dagoelako lan automatikorik egiterik). Webgunean aurkituko dituzun datuak eta emaitzak, beraz, ez dira inola ere behin betikoak. Saio esperimental baten emaitza gisa ulertu eta erabili behar dira. Corpus irekia da, gainera, etengabe ari baikara transkripzio gehiago egiten eta materiala aztertzen. Erauzketa prozesua etengabe martxan dago, egunero gehitzen baitira hainbat transkripzio berri Ahotsak-eko Corpusean (eskualde, herri eta hiztun berrienak) eta etenik gabe aztertzen dira horiek guztiak.

Gipuzkoako aldundia Kutxa Eusko Jaularitza Bizkaiko aldundia