Euskararen egunean eguneko erabileraren berri izateko eta hizkuntza-teknologiek ekartzen dizkiguten erronkei aurre egiteko, corpus handiago eta orekatuago baten beharraz jabetuta zegoen Akademia. Hutsune hori betetzeko, Euskararen Erreferentzia Corpusa egitasmoa jarri zuen abian orain dela lau urte.
Euskaltzaindiak Euskararen Erreferentzia Corpusa (EEC) aurkeztu du gaur Bilbon. Andres Urrutia euskaltzainburuak corpus berria erreferentzia-corpusa dela esan du, irekia eta kolektiboa: “Erreferentzia–corpusa da, alegia, oreka baten bila doana, hizkuntzaren nondik norako zehatzak eta orekatuak bildu nahi dituena, arlo desberdinetako laginak bilduz, egungo euskararen isla emanez. Irekia ere bada, orain arteko materialak bildu dituena eta geroago ere zabaltzen joango dena, eragile eta material berriekin. Eta, nola ez, kolektiboa da, Euskaltzaindiak Euskal Herriko 68 erakunde pribatu eta publikoekin batera egin duelako, hedabide nagusiekin eta gizarte-eragile askorekin batera”.
EECren zimenduak aspaldi jarri ziren, Miriam Urkia euskaltzain oso eta Euskaltzaindiaren Hiztegia egitasmoko arduradunak gogoratu duen moduan, “Euskaltzaindia XX. mendeko 80. hamarkadan hasi zen corpusak lantzen, aitzindaria izan da euskal corpusgintzan. Orotariko Euskal Hiztegiaren corpusa eta Mendeko Euskararen Corpus Estatistikoa ondu zituen aurrena. Ondoren, xxi. mendean sartuaz batera, Lexikoaren Behatokia corpus monitorea osatu zuen. Haingabe Euskaltzaindiak ez zituen izango, esate baterako, Euskaltzaindiaren Hiztegiko hitzak, adierak, erabilera-markak eta horien testuinguruak adierazteko adibideak”. Hala ere, euskararen egunean eguneko erabileraren berri izateko eta hizkuntza-teknologiek ekartzen dizkiguten erronkei aurre egiteko, corpus handiago eta orekatuago baten beharraz jakitun zegoen Akademia, eta orain dela lau urte, hutsune hori betetzeko Euskararen Erreferentzia Corpusa (EEC) abian ipini zuen.
EECren helburu nagusia “analisi linguistikorako, ikasketa automatikorako edo hizkuntza-ikerketetan hipotesiak baliozkotzeko tresna funtsezkoa da, baina baita hizkuntza-, literatura- edo ikerketa-helburuetarako corpus estandar edo erreferente gisa erabil litekeena ere. ‘Egungo’ egoera islatzen duen neurrian, hizkuntzaren irakaskuntzan jarduten dutenek, zuzentzaileek… erabilgarri izango dute EEC, lexiko- (orokorra zein terminologikoa) eta gramatika-zalantzak argitzeko, eta, jakina, corpus handi horietarako eredu egokiak balioztatzeko ere bai”, nabarmendu du Urkiak.
Horren haritik, euskaltzainburuak ECC corpus orekatua dela adierazi du, eta horretan sakondu nahi izan du, “EEC egiterakoan kontuan izan ditugu oreka eta adierazgarritasuna. Egungo euskararen erabilera islatzeko helburuarekin, garrantzitsuak dira gaien aniztasuna mantentzea, euskalki guztietako adibideak eta testu-iturri desberdinetako (liburuak, aldizkarik, sarea…) edukiak biltzea, eta publiko mota guztiei zuzendutako testuak (gazteak, publiko orokorra, espezialistak) kontuan izatea”.
EECren diseinua eta erreferentzialtasun
Hizkuntza-corpusa datu-bilduma handi bat dela azaldu du Akademiak, “egituratua, erabilera errealetan oinarritua eta linguistikoki prozesatua, hizkuntzaren atal baten erakusgarri legez erabiltzen dena. Eta erreferentzia-corpusa deritzo, hizkuntza baten garai zehatz baten ahalik eta erakusgarririk xeheena —eta aldi berean zabalena— izateko sortu den corpusari”.