Español en América

abril 3, 2011

Qué es un corpus: II

Filed under: Lengua española — Mercedes @ 5:16 pm

CREA y CORDE:
Son dos corpus construidos por la RAE que suministran una amplia información sobre la lengua escrita y oral. El objetivo de estos contenedores de “palabras” no es otro que el de poner a disposición de investigadores, estudiosos y aficionados a la lengua española una herramienta informática que permita realizar trabajos, formular hipótesis, comprobar datos, concordancias y/o coocurrencias, verificar el uso, la aparición y/o desaparición de sintagmas, locuciones o combinaciones, e infinidad de comprobaciones necesarias para ver la evolución de nuestra lengua.
Lo anterior no pretende ser exhaustivo; la gran ventaja de estos corpus, a parte de su gratuidad es el elevado número de formas de que constan y que representan una “muestra amplia del español” en sus variedades castellana y americana.
El gran inconveniente es la lentitud académica de su puesta al día.
En nuestros posts insistimos en la necesidad de la permanente actualización del CREA. El CORDE es una buena muestra de la lengua hasta 1975 y estimamos que cualquier incorporación es necesaria, pero en lo referente al CREA, la necesidad de añadir nuevos textos orales y escritos es imprescindible. Y más desde la aparición de Internet que provoca una variación constante y muy rápida de unidades léxicas, en concreto de neologismos, casi siempre colocaciones o locuciones que necesitan de una actualización si se quiere para estudiar los procesos de aparición, evolución, fijación y lexicalización.
Algunas instituciones pretenden impedir estos procesos neológicos con recomendaciones, correcciones y realizando propuestas de sustitución de los casi siempre anglicismos que se incorporan a nuestra lengua por el uso de los medios de comunicación.
La página web de la RAE proporciona información contradictoria sobre las fechas de “actualización” del CREA. Mientras que en el segundo párrafo declara: “…el CREA cuenta hasta ahora (mayo de 2008) con algo más de 160 millones de formas. Se compone de una amplia variedad de textos escritos y orales, producidos en todos los países de habla hispana desde 1975 hasta 2004”. Alguien lo interpreta como si los textos introducidos alcanzan hasta la fecha de 2008, mientras que el autor entiende que el corpus “llega” hasta el 2004 y que hasta el 2008 se seguían incorporando obras pero hasta la fecha del 2004.
Lo cierto es que en nuestras habituales y constantes consultas al CREA, no encontramos formas introducidas más allá del 2004. Contradice la opinión de Gómez Font que mantiene su idea de que el CREA dispone de textos hasta el 2008.
Si insistimos y recalcamos la imprescindible actualización del CREA hasta la fecha de hoy es porque el español del 2011 ha variado de manera extraordinaria en los siete años transcurridos desde el 2004.
Desde estas humildes páginas proponemos a la RAE la creación de un tercer corpus que se extienda desde el 2005 hasta la fecha, abril del 2011. Y un cuarto corpus a partir del 2011 que se vaya actualizando.
La razón de construir nuevos corpus no es otra que la necesaria comprobación de la variación diacrónica de la lengua.
Las diferencias entre el español de los siglos XVI y, por ejemplo, XVIII son escasas. Sin embargo, en tres o cuatro años la variación de nuestra lengua es impresionante. Este es el motivo de ir creando compartimentos o nuevos corpus más reducidos para efectuar comparaciones en la evolución diacrónica en períodos muy breves.
También la RAE en su exposición del CREA explica su composición; 90% de lengua escrita y el resto oral. Del 90%, 49% son libros, otro 49% prensa y el 2% final está constituido por folletos, blogs, emails, etc.
Se compone cronológicamente en períodos de cinco años, el último desde el 2000-2004.
Desde el prisma geográfico se compone salomónicamente por el español peninsular y por el español americano.
Las consultas o búsquedas:
• Combinaciones de palabras
• Frecuencias de aparición
• Uso de locuciones, palabras y sintagmas.
• Proporciona datos de fechas, países, etc.

El CORDE o corpus diacrónico del español comprende las formas desde el amanecer de nuestra lengua hasta el final de 1974, fecha en la que el CREA toma el relevo.
Comprende 250 millones de palabras hasta abril de 2005, siendo el objetivo alcanzar los 300 millones de formas.
Las denominadas “marcas textuales” se han incorporado a los textos introducidos tanto en el CREA como en el CORDE, según el SGML (Standard General Markup Language) que es un procedimiento internacionalmente aceptado para la construcción, recuperación de la información y la interconexión con otros corpus.

Parte III

Anuncios

Dejar un comentario »

Aún no hay comentarios.

RSS feed for comments on this post. TrackBack URI

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Crea un blog o un sitio web gratuitos con WordPress.com.

A %d blogueros les gusta esto: