Letra karaktereen banaketa euskarazko ahozko corpus batean

2017ko urt. 25a, 10:08

Zeintzuk dira euskaraz gehien erabiltzen ditugun letra edo hizkiak? Zein da euskaldunok maiztasun handienarekin darabilgun kontsonantea? Ahotsaken bildu dugun ahozko corpusa aztertu dugu (2 milioi hitz) eta hemen dituzue datu guztiak. Laburbilduz: A da letrarik ugariena (totalaren %16,53); N kontsonanterik usuena (%8,53); eta F gutxien darabilguna (%0,21).

Azken orduotan Twitterren izan den mezu-truke baten harira ekin diogu azterketa txiki honi. Izan ere, herenegun argitaratu zen Reddit agerkarian hor goian duzuen mapa, izenburu honekin: Most common consonant in European official languages. Europako hizkuntzarik gehienetan N omen da kontsonanterik erabiliena; hizkuntza erromaniko gehienetan, aldiz, S.

Euskararik ez da azaltzen mapa horretan, baina bai Simia.net webguneko beste zerrenda honetan, non Wikipediatik ateratako testu-lagin bat erabilita ondorioztatu duten hauexek direla euskaraz gehien erabiltzen diren letrak: A, E eta I bokalak eta N, R eta T kontsonanteak.

Hori ikusirik, ahozko corpus batek eman ditzakeen emaitzak ezagutzeko gogoa piztu zaigu. Izan ere, idatzizko testuek eta ahozko jardun libreko ekoizpenak badituztelako zenbait ezberdintasun nabarmen. Horregatik, Euskal Herrian dugun ahozko corpusik handiena arakatu dugu, Ahotsakeko transkripzioetan oinarritzen dena (2 milioi hitzekin), eta gure hizlarien lekukotasunak aztertu ditugu galdera berdina eginez: zeintzuk dira euskaraz gehien erabiltzen ditugun hizkiak?

Hauexek dira emaitzak:

1	a	1.690.125	16,53%
2	e	1.283.693	12,56%
3	i	893.344	8,74%
4	n	872.151	8,53%
5	t	818.316	8,00%
6	r	656.143	6,42%
7	o	575.009	5,62%
8	u	494.350	4,84%
9	z	473.314	4,63%
10	k	462.947	4,53%
11	b	387.782	3,79%
12	d	269.096	2,63%
13	l	260.066	2,54%
14	g	226.067	2,21%
15	s	221.891	2,17%
16	h	212.442	2,08%
17	x	109.341	1,07%
18	m	107.678	1,05%
19	p	85.475	0,84%
20	j	62.083	0,61%
21	y	22.881	0,22%
22	f	21.474	0,21%
23	c	11.302	0,11%
24	v	4.136	0,04%
25	q	2.802	0,03%
26	w	28	0,00%
		10.223.936,00	%100,00

Kontuan izan, jakina, ahozko corpus baten datuak direla, baina idatzira ekarri eta gero aztertu ditugula (transkripzioetatik), eta horrek bere eragina duela, noski. Gainera, soinu batzuk falta dira zerrenda horretan, ez direlako karaktere bakarrekoak (batez ere, TZ, TS, eta TX; baita TT, DX eta besteren bat ere).

Azterketa xume bat eginez, hauexek lirateke ateratzen ditugun ondorio nabarmenenak:

Letrarik erabilienak 3 bokal dira: A, E eta I (hiruren artean totalaren %37,8 dira). Bokal ireki bat, tarteko bat eta itxi bat.
Kontsonanterik erabiliena N da (%8,53) eta oso hurrean du T (%8); pixkat atzerago R (%6,42). Sudurkari bat, herskari bat eta dardarkari bat.
Laugarren kontsonantea Z da. Hau ere beste kontsonante-mota batekoa, txistukaria.
Hain "euskalduna" den K atzerago dator. Totalaren %4,5 besterik ez da. (gogoratzen duzue Angel Erroren zutabe gogoangarria?)
Teorian, bederen, aitzineuskaraz erabiltzen ez ziren (edo gutxi erabiltzen ziren) kontsonanteak behe-behean datoz: M, P eta F. Azken horixe da, F, gure corpusean gutxien agertzen den soinua (erabat anekdotikoak diren C, V, Q eta W kenduta).
Horien gainetik dago X; ahozko corpus batean idatzizkoan baino askoz gorago azalduko dena, dela bustidurengatik (isilik vs. ixilik; txorizo vs. txorixo,...) dela epentesiengatik (mendiXa, txikiXa,...).
Ziurrenik, beste hizki batzuk idatzizko testuetan baino gutxiago agertuko dira ahozko jardunean, hitz egitean ahozkatzen ez ditugulako (batez ere, G eta R). L, aldiz, idatzizko corpusean baino gehiago azaldu zaigu; baita Z ere.

Beste datu gutxi batzuk ere atera ahal izan ditugu azterketa txiki honetan. Adibidez, hitzen batez besteko luzera 5,07 karakterekoa dela. Edozelan ere, hitzen %41 batez besteko horretatik behera dago eta 1-5 karaktere bitarte dituzte. Euskarazko idatzizko testuetan, oro har, 7 karaktere dira hitzen batez besteko ohikoena. Ahozko gure corpusean, aldiz, dexente txikiagoa da batez besteko hori (5,07), ahozko jardun librearen ezaugarriekin lotura zuzena daukana.

Corpusean jaso dugun hitzik luzeena, 22 karaktereko bat, 'errekonoziduteagaittik'.

Esan bezala, hau corpus jakin baten azterketa besterik ez da. Jakin badakigu, erabilitako corpusaren ezaugarriek eragin nabarmena izan dezaketela emaitzetan, eta gure kasuan ere horrela da, jakina. Hasteko, euskalki guztiak ez daude neurri berean bilduta. Bestalde, transkripziorako hartutako erabakiek ere izan dezakete eraginik (hona hemen gureak). Edozein modutan delarik ere, hortxe gure corpusa eta jasotako datuak.

...........

Oh.: Eskerrik beroena Codesyntaxeko Urtzi Odriozolari eta Josu Azpillagari corpusaren kalkulu eta azterketa egitearren.

Iruzkindu

Erantzuna emateko, sartu ahotsak.eus-eko komunitatera.

Letra karaktereen banaketa euskarazko ahozko corpus batean

Iruzkindu

Euskal Herriko Ahotsak proiektua babestu nahi?