Español en América

abril 1, 2011

Qué es un corpus: parte I

Filed under: Lengua española — Mercedes @ 7:05 pm

La humanidad se mueve por modas y, es evidente que los corpus están a la moda.
Son pasajeras, van y vienen, pero la unión de textos e informática impone sus leyes que no son otras que la efectividad y la extracción de innumerables datos por la vía rápida.
El concepto de corpus viene de lejos y nosotros lo definimos como “un contenedor de formas (las viejas palabras)”.
Los corpus pueden ser oral, escritos y mixtos. No vamos a entrar en los problemas que suscitan la utilización de corpus en lo referente a su estatuto jurídico y los permisos que se necesitan para usar determinados textos que son propiedad intelectual de sus autores y que son complicados y alejados de nuestro propósito que es su conocimiento, la investigación y el empleo para la realización de actividades escolares en las clases de español lengua materna y segunda.
El uso de textos requiere la autorización expresa de sus autores siempre que no haya transcurrido el plazo legal transcurrido desde el fallecimiento de sus propietarios.
Entendemos que el empleo de textos aún sin el permiso explícito de sus dueños no es necesario en casos como la investigación o destinados a actividades no comerciales como pueden ser trabajos o estudios en una clase de lengua española.
Otra caso bien distinto pudiera ser la confección de manuales a partir de un corpus sin e consentimiento de sus propietarios intelectuales.
Todavía más complicado es el supuesto de corpus orales extraídos a partir de conversaciones de menores de edad, incluso obtenidos para la realización de tests como pueden ser los que se utilizan para obtener el “vocabulario usual” de un grupo de alumnos. Para estos casos, incluso si el objetivo es una investigación, se requiere el consentimiento expreso de los padres o tutores.
Dejamos de lado, los problemas legales que pueden concitar las investigaciones y trabajos sobre corpus para centrarnos en el concepto.
Cuando se constituye o mejor dicho se “construye” un corpus, se hace con una finalidad lingüística.
¿Cuáles son los fines de un corpus?
Al ser un corpus un “contenedor de palabras”, al fijar los objetivos de una determinada tarea, es preciso construir el corpus de acuerdo con su finalidad. Por ejemplo si queremos redactar un diccionario de términos financieros, partiremos de textos de diarios específicos de ese lenguaje de especialidad como pueden ser los que se editan en la actualidad. Como el objetivo es un diccionario “actual” que sirva para hoy y para el futuro, necesitaremos diarios actuales y los que se vayan editando en el proceso de construcción de nuestro glosario de los negocios.
Por supuesto que si el diccionario es “en papel” a los pocos días de su edición quedará desfasado, por lo que cada vez más los diccionarios tradicionales de tinta y papel, se sustituyen por los “en línea” disponibles para cualquier usuario que tenga una conexión a Internet.
Por esta razón, las palabras “clave” son cuando hablamos de corpus, Internet, Informática y textos concretos y su actualización permanente.
El español como todas las lenguas naturales se encuentra en continua variación desde el punto de vista léxico, con una incorporación de miles o decenas de miles de nuevas formas individuales, compuestas o combinaciones más o menos fijadas, y/o en proceso de lexicalización por su propio movimiento y por la incorporación de neologismos, anglicismos en su mayor parte, galicismos y como chinismos (vocablo inventado por nosotros) procedentes de la innovación, ciencia o patente de nuevos productos tecnológicos o culturales.
El aluvión que se nos viene encima desde la perspectiva léxica es de tal magnitud que requiere una investigación para determinar su cuantía más o menos exacta.
El fenómeno de las colocaciones léxicas, casi todas las recientes innovadas es de tal cuantía que supera la confección de diccionarios y, provoca que sea más necesaria que nunca la actualización de corpus.
Es, como vemos deducido por los párrafos anteriores, una de las características o quizás mejor expresado, la actualización constante de los corpus con textos actuales que representen lo mejor posible la variación de la lengua, o, el segmento de la lengua a que se refiere el objetivo del corpus que trabajamos o investigamos.
La construcción de diccionarios sean destinados para determinadas finalidades, como pueden ser el aprendizaje, la traducción o sencillamente la consulta, necesitan de una masa enorme de “palabras” para que representen de la manera más adecuada la muestra con la que vamos a trabajar.
La Real Academia de la Lengua española construye dos corpus uno, que pensamos que está acabado, el CORDE o corpus diacrónico que es un contenedor de XXX millones de palabras y que empieza en el albor del español para terminar en una fecha reciente, 1975 y, el CREA o corpus de Referencia del Español Actual que empieza donde termina el CORDE y se extiende hasta 2004, fecha última en la que nuestros trabajos sobre determinadas concordancias del español, parece que termina. No coincide con las manifestaciones de la Academia en el sentido de que el CREA se extiende hasta el 2008. Sea lo uno o lo otro, lo cierto es que los investigadores que trabajamos casi a diario con este corpus, el CREA, echamos en falta su actualización DIARIA.
Como expresamos anteriormente, se necesita un corpus actual, actualísimo que sea una muestra del español. El fenómeno Internet y la velocidad que imprime a la lengua producen un efecto de antigüedad en cualquier corpus que pretenda ser una muestra del español.
Además, los datos que proporciona los corpus de la Academia son muy precisos en lo que se refiere que facilita de la forma, locución o colocación solicitada una parte del contexto donde se encuentra, su autor, la fecha y a que “trocito” del corpus CREA o CORDE pertenece.
Afortunadamente con una excelente visión de la realidad de la lengua española, los textos que corresponden a la prensa son bastante “nutridos”, no en vano son los medios los que hoy en día modelizan la lengua, innovan y fijan determinadas combinaciones.
Es la prensa escrita y en menor medida los restantes medios, y en el futuro su preponderancia sobre la lengua será aún mayor, la que producirá la normalización del español. La prensa digital a ambos lados del Atlántico se puede leer lo mismo en una playa del Caribe, que en las Montañas Rocosas o en la urbe de Pekín. El lector es una persona ávida de información en español que posee un portátil, una tableta o un móvil o cualquier dispositivo que se vaya creando en el futuro y es como todo consumidor, exigente en la calidad. Por tanto, el producto informativo o de contenidos a quién va dirigido, necesita de una lengua lo más unificada posible porque la lengua y su objetivo no es otro que la comunicación con mayúsculas.
Vemos que la actualización de los corpus es, depende desde el prisma desde el que lo contemplemos o una necesidad o un objetivo.
Comprobamos que también para que la investigación o trabajo sobre el que actuamos necesitamos una muestra amplia, muy extensa y que represente el trozo de la lengua que vamos a estudiar.
Internet, la lengua, la finalidad de nuestro trabajo, la potencia informática son las “palabras clave” con las que vamos a trabajar en los corpus. Todo ello mezclado con los conceptos de actualización y muestra amplia conforman las bases de nuestra explicación sobre los corpus.
El software:
Sin aplicaciones informáticas precisas y fiables pocas cosas podríamos hacer con los corpus.
Exceptuamos sencillos trabajos de iniciación o introducción a la investigación de corpus como pueden ser los microrrelatos cuya finalidad sea una clase de iniciación a la lengua en la que las dimensiones del corpus sobre el que actuamos permiten un listado de “palabras” manual o una lematización también a mano por su escaso tamaño y porque permite a los profesores expresar conceptos sencillos como qué es un lema, sus flexiones o buscar una concurrencia. También porque el uso mixto de estos corpus hiperbreves facilita en clases de lengua el empleo de conjugadores verbales disponibles en Internet (como el onoma.es) y el trabajo conjunto con diccionarios en línea y conjugadores o lematizadores.
En definitiva, que para algunos trabajos sencillos en las clases de lengua española segunda o materna no se precisa un software sino sencillamente una conexión a Internet, un o unos portátiles y la introducción de los alumnos a las TIC con ejercicios motivadores de conjugación, lematización o búsqueda de locuciones y colocaciones.
El software permite desde “listados de palabras” del corpus sobre el que aplicamos nuestra informática, hasta la búsqueda de concurrencias que es uno de los casos más frecuentes, o por lo menos, el que más utilizamos en nuestros trabajos.
No vamos a entrar en aplicaciones informáticas dirigidas a la traducción porque nuestra finalidad como profesores-periodistas es la enseñanza de la lengua y de una manera específica en el léxico y su combinatoria. Nos alejaremos de buscar soluciones como pueden ser los enfoques necesarios para descubrir el funcionamiento de un “sintagma preposicional”.
El concepto de frecuencia en los corpus:
Nuestros trabajos en este blog sobre la frecuencia que tratamos en toda su extensión y que su origen se debe a Juilland, A., es otra de las bases de los corpus. La estadística es una ciencia que como los corpus se extiende a todas las demás ciencias y presta un considerable refuerzo a los trabajos sobe la lengua.
Los datos que extraemos de los corpus son de naturaleza estadística, se clasifican o agrupan, se cuentan y al final se reducen a cifras que solemos comparar con otras muestras o corpus o bien con otros trabajos en nuestra lengua o en otra romance para verificar si nuestras investigaciones y conclusiones nos llevan a buen puerto.
En estas estadísticas, el concepto de frecuencia es trascendental.

Anuncios

Dejar un comentario »

Aún no hay comentarios.

RSS feed for comments on this post. TrackBack URI

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Blog de WordPress.com.

A %d blogueros les gusta esto: