Ia ehun milioi testu-hitz Euskaltzaindiaren ‘Lexikoaren Behatokia’ corpusean

Akademiak, batez ere, hiztegia aztertzeko eta lan arauemailea egiteko erabiltzen du corpus hau. 

Euskaltzaindiak Lexikoaren Behatokia eguneratu du eta guztira 98.060.414 testu-hitz dauzka orain. Egitasmoaren helburua da XXI. mendeko euskararen corpus zabala eta eguneratua osatzea. Horretarako material ugari biltzen da: egunkarietako albisteak, aldizkari orokorretako testuak, herri-aldizkari batzuenak, literaturan eta saiakeran ondutako testuak, hezkuntzako materiala, eta administrazioko materiala…

Corpus etiketatua eta automatikoki lematizatua da, eta horrek modua ematen du hizkuntzaren erabilera hurbiletik jarraitzeko.

Gainera, testu-hitzak bilatzeko hainbat aukera eskaintzen du Lexikoaren Behatokiak. Hiru dira nagusiak: bilaketa arrunta, bilaketa aurreratua eta konparazio-bilaketa (formen artekoa, urtez urtekoa). Horiez gain, bilaketa gidatuak egiteko laguntzailea dago.

Lexikoaren Behatokia

Akademiaren arabera,gaur egun, corpusak ezinbestekoak dira edozein ikerketa egiteko”. Hiztegia aztertzeko eta lan arauemailea egiteko lana ere corpusetan oinarritu behar da, eta halaxe egin du Euskaltzaindiak azken urteotan. Testu klasikoak Orotariko Euskal Hiztegiaren (OEH) corpusean ditu bilduta eta XX. mendeko lagin aski adierazgarria XX. mendeko corpus estatistikoan. Bi iturri horiek izan ziren Hiztegi Batua egiteko oinarri nagusiak.

XXI. mendeko beharrei erantzuteko, baina, Lexikoaren Behatokia abian jarri zuen Euskaltzaindiak 2008an, “hizkuntzaren bilakaera hurbiletik jarraitu beharra baitago, hitz eta adierazmolde berriak ezagutzeko, arauak zenbateraino betetzen edo urratzen diren jakiteko eta, hori guztia ezagututa, arauak finkatzeko, bai eta hizkuntzaren erabilera sakonago ezagutzeko, gramatika edo estilistika aldetik, erregistroen ezaugarriak aztertzeko edo ikuspegi soziolinguistikotik ikertzeko nahiz edukien ideologia, historia eta abar aztertzeko”.

Horrek guztiak badakar corpusgintzan lanean jarraitzea. Euskaltzaindiaren ametsa ereduzko corpus handi, orekatu, lematizatu, etiketatu eta linguistikoki anotatua izatea da, eta badu esperantza amets hori hezurmamitzeko.

Bitartean, Lexikoaren Behatokia izeneko egitasmoan dihardu lanean. Egitasmo horretan, EHUko Donostiako Informatika Fakultateko IXA taldea, Elhuyar Fundazioa eta UZEI ditu bidelagun Euskaltzaindiak. Corpusa elikatzen duten testuak eskuratzeko, berriz, Akademiak hitzarmenak sinatu ditu hainbat argitaratzailerekin.

Zabaldu: