GAITU el banco público de voces en euskera en auzolan
El proyecto Gaitu es una importante iniciativa pública en la que está trabajando Euskarabidea para crear un banco de voces en euskera. Su objetivo es reunir el mayor número posible de voces para entrenar a las máquinas y poder interactuar con ellas en euskera a través de diversas aplicaciones y herramientas digitales.
Gaitu (Common Voice) es un proyecto común de las instituciones públicas de todo el territorio donde se habla euskera. La iniciativa se enmarca dentro del protocolo general de colaboración para el fomento del euskera ‘Hiruko Ituna’, firmado por el Gobierno Vasco, Euskararen Erakunde Publikoa-Office public de la Langue Basque y el Gobierno de Navarra.
Esta propuesta responde a la necesidad de hacer frente a uno de los principales retos a los que se enfrenta el euskera en la actualidad: capacitar a la inteligencia artificial para que las personas vascohablantes puedan interaccionar con las máquinas en su lengua.
La interacción con máquinas a través del habla es cada vez más habitual en los servicios que recibimos telefónicamente cuando llamamos al Ayuntamiento, al Centro de Salud, o cuando damos un parte al seguro, por ejemplo.
Cada día utilizamos también herramientas digitales con las que nos comunicamos a través de la voz, como los asistentes Alexa de Amazon, Asisstant de Google, Siri o Cortana. Esto hoy en día es ya algo habitual y cada vez lo será más.
A las máquinas se las ha entrenado para que entiendan las lenguas mayoritarias, y para ese entrenamiento han sido necesarios grandes bancos de voces, gracias a los cuales las máquinas han aprendido a reconocer la voz humana. Ahora el reto es entrenarlas para que también reconozcan y utilicen lenguas no tan extendidas, como el euskera.
Un proyecto colaborativo
Un banco público de voces en euskera es imprescindible para que las empresas de tecnología que quieran desarrollar aplicaciones en euskera, tal y como hacen en las lenguas mayoritarias, puedan tener acceso a él.
Como explica Javier Arakama, el nuevo director-gerente de Euskarabidea-Instituto Navarro del Euskera, para ese banco público de voces se necesita la implicación de la comunidad vascohablante: “La creación de un banco de voces no es algo que puedan hacer las administraciones públicas.
Esta iniciativa se llevará a cabo gracias a la participación de la comunidad vascohablante, de forma colectiva y altruista: en auzolan. Cuantas más y más diferentes sean las voces que se consigan, mayor nivel de comprensión en euskera conseguirán las máquinas. El papel de las instituciones es animar a la ciudadanía a participar en este proyecto.”
Este auzolan masivo está dirigido a todas las personas euskaldunes, de cualquier edad, de entornos urbanos y rurales, hablantes de diferentes dialectos o de euskera estándar. Este proyecto se llevará a cabo en todo el territorio del euskera: en la Comunidad Autónoma Vasca, Iparralde y Navarra.
Como explica Mikel Galar Idoate, ingeniero técnico en Informática de Gestión e ingeniero informático, profesor de la UPNA y experto en Inteligencia Artificial, “para poder usar una lengua en el ámbito de las nuevas tecnologías es fundamental entrenar a las máquinas y para eso es necesario que puedan acceder a un gran número de textos y voces. Por eso, la puesta en marcha de este banco de voces es una noticia muy buena para el desarrollo del uso del euskera en el campo de la Inteligencia Artificial.”
Quienes deseen participar tanto grabando sus voces como validando grabaciones de otras personas, podrán hacerlo en la página gaitu.eus.
▶ ZER EGIN BEHAR DU AHOTS EMAILE IZAN NAHI DUENAK?
Ahotsa eman nahi dugunok gaitu.eus webgunean egin ahal izanen dugu. Benetako jendeak nola hitz egiten duen makinei erakusten laguntzeko ekimena da eta parte hartzaileek bi eginkizun izanen dituzte aukeran: Batetik, idatzita proposatutako esaldi bat irakurri beharko dugu ozenki, grabatzen dugun bitartean. Behin eginda beste esaldi bat proposatuko zaigu eta gauza bera errepika dezakegu. Eta hau nahi adina aldiz errepika dezakegu. Beste aukera, beste hiztun batek grabatutako esaldi bat balioztatzea da. Horretarako, entzuteko proposatuko digute eta gure egitekoa esaldian jartzen duena eta aditzen duguna ontzat ematea izanen da. Ongi badago, ongi dagoela adieraziz, eta zuzena ez bada, ez dela egokia ohartaraziz. Hau ere nahi adina aldiz errepika dezakegu.
▶ MIKEL GALAR IDOATE
“Makinekin gure hizkuntza propioan komunikatu ahal izatea abantaila handia da”
Mikel Galar Idoate iruindarra Kudeaketa Informatikako Ingeniari Teknikoa, Informatika Ingeniaria eta NUPeko ikerlaria da. Adimen Artifizialarekin lotutako hainbat proiekturekin ari da lanean gaur egun.
Ze Berri?.- Zer garrantzi du eta izanen du ahotsak makinekin komunikatzerakoan?
Mikel Galar.- Adimen artifizialak datu asko behar ditu ikasteko. Pertsona desberdinak hizketan, adin guztietakoak eta hizkera desberdinetakoak behar dira ahots aniztasuna lortzeko. Hizkuntza desberdinetako benetako ahotsik grabatuko ez bagenu, azkenean bukatuko genuke ordenagailuekin soilik ingelesez eta hizkuntza nagusietan hitz egiten.
Z.B.- Etorkizunean ahotsa bidezko komunikazioa izanen da oinarria?
M.G.- Bai. Orain arte teklatu eta saguarekin komunikatzen ginen gehienbat ordenagailuekin. Orain hasi gara Google eta Siri bezalako asistente birtualekin ahotsez elkarri eragiten, baina hau nahiko mugatua izan da orain arte. Azken bolada honetan, aldiz, Chat GPT zabaldu zenetik hasi gara ikusten nola hitz egin ahal dugun ordenagailuarekin eta gauza asko eskatu. Orain, adibidez, Power Point edo Word batean argazki bat txertatu nahi baduzu eta ez badakizu nola egin, teknologia honekin aski izango duzu ahotsez adieraztea zer egin nahi duzun eta berak esango dizu nola egin edo zuzenean egingo dizu. Duela urtebete ez genuen imajinatzen hain azkar joango zenik. Makinekin gure hizkuntza propioan komunikatu ahal izatea abantaila handia da.
Z.B.- Nolakoa da euskararen egoera alor honetan?
M.G.- Oraindik asko dago egiteko. Itzultzaile neuronala adibidez oso ongi dago, baina ezin da konparatu ingelesezko edo gaztelaniazko itzultzaileekin, hizkuntza hauetan askoz testu gehiago dagoelako interneten. Horretan datza kontua, makinak entrenatzeko testu eta ahots piloa behar dira. Zenbat eta gehiago, orduan eta hobeki. Chat Gptk ez daki zero, baina oraindik ez du euskaraz hitz egiten ingelesez edo gaztelaniaz bezain ongi. Gure hizkuntzaren presentzia areagotu behar da sistema hauek euskaraz ere erabili ahal izateko.
Z.B.- Nola baloratzen duzu Gaitu (Common voice) proiektua?
M.G.- Berri oso ona da halako datu base bat eratzea. Asko lagunduko du euskara hobeto garatzen Adimen Artifizialaren alorrean. Oso garrantzitsua da.