El secretario general de Política Lingüística presenta el nuevo Corpus Documental del Gallego Actual (CORGA)
La versión ampliada de esta herramienta lingüística elaborada por el Centro Ramón Piñeiro para la Investigación en Humanidad incorpora cerca de 32 millones de palabras, de las que algo más de 400.000 son me las fuere diferentes
El secretario general de Política Lingüística, Valentín García, presentó esta mañana en rueda de prensa el nuevo Corpus Documental del Gallego Actual (CORGA). La versión ampliada de esta herramienta lingüística elaborada por el Centro Ramón Piñeiro para la Investigación en Humanidades (CRPIH) -dependiente de la Consellería de Cultura, Educación y Ordenación Universitaria- incorpora cerca de 32 millones de palabras, de las que algo más de 400.000 son me las fuere diferentes.
Segundo señaló el secretario general durante su intervención ?la nueva versión ampliada del CORGA ponen la disposición de la comunidad científica y de la ciudadanía en general nuevas posibilidades para el estudio y la investigación lingüística en una apuesta por las tecnologías de la información y de la comunicación, y por los recursos tecnológicos en gallego, tal y como señala el Plan General de Normalización de la Lengua Gallega?.
Participaron en la presentación, amais de García Gómez, los directores del CORGA, Guillermo Rojo y María Sol López, y los responsables de la coordinación lingüística e informática del proyecto, los investigadores de la Universidad de Santiago de Compostela Eva Domínguez y Mario Barcala, respectivamente.
Corpus de Referencia del Gallego Actual
El CORGA es un corpus documental desarrollado en el CRPIH e integrado por distintos tipos de textos -periódicos, semanarios, revistas, ensayos y textos de ficción (novela, relato corto y teatro)- que abarca temporalmente desde el año 1975 hasta la actualidad y que está codificado en el estándar XML (extensible Markup Language).
La nueva versión ampliada ?la 1.7, disponible en la red en la dirección http://corpus.cirp.es/corga? consta de casi 32 millones de palabras, de las que algo más de 400.000 son me las fuere diferentes. Sobre este conjunto de formas ortográficas es posible consultar palabras o expresiones en general, por tipos de texto, épocas, áreas temáticas o cualquier combinación de los parámetros anteriores. Además, se disponen de un sistema de consulta de la nómina de autores y obras que permite buscar que obras o autores están en el corpus, saber que número de palabras totales y documentos corresponde a la busca realizada o que cantidad de palabras contiene el CORGA en una cierto área temático, período de tiempo etc.
Herramientas tecnológicas avanzadillas
El CRPIH trabaja también en la mejora de varias herramientas que posibilitan las consultas más avanzadillas y propician dar un salto cualitativo en las posibilidades de busca sorteando las limitaciones impuestas por las consultas por forma ortográfica. Así, se finalizó el subcorpus de entrenamiento periodístico y de narrativa que utiliza el Etiquetador-Lematizador del Gallego Actual (XIADA) -constituido en la nueva versión ampliada por algo más de 600.000 me las fuere ortográficas (correspondientes a casi 750.000 elementos gramaticais)-, que está la disposición gratuita de la comunidad investigadora en la versión 2.6 del Corpus de Referencia del Gallego Actual etiquetado (CORGAetq) en la dirección http://corpus.cirp.es/corgaetq.