Español en América

marzo 9, 2010

Lingüística de corpus: lexico vs. gramática

Filed under: Lengua española — Mercedes @ 7:09 pm

Qué es un corpus

Un corpus es una colección de palabras entendidas como las formas separadas por dos espacios en blanco. Suelen ser conjuntos de palabras o de enunciados escogidos por su autor con una finalidad determinada. Pueden ser también colecciones de textos en sentido amplio.

La mayor parte de las veces el objeto es comparativo y / o contrastivo.

Por supuesto que los corpus se pueden utilizar con fines gramaticales y léxicos.

Los corpus empezaron a ponerse de moda a partir de los años sesenta. La elaboración era manual y laboriosa, de manera que con la aparición de la informática se resolvió el problema del tiempo y de su elevado coste financiero.

Si seguimos el principio de la TST de que la producción de textos en su origen es el Significado lo primero y el deseo o la necesidad de expresar una idea o un concepto; el siguiente paso es elegir entre la multitud de léxico o redes léxico-semánticas existentes en el lexicón del locutor las necesarias para formular ese Significado; el tercer paso es la composición morfosintáctica en la que los lingüistas no se ponen de acuerdo, en el sentido de que mientras unos sostienen la automaticidad del acto de locución, los otros proponen que es el locutor el que elige la formulación sintáctica. Finalmente el locutor en función de la formalidad o no de la comunicación o bien articula en el supuesto del habla o escribe.

El caballo de batalla radica en la automaticidad o no de la actividad cerebral en el sentido, que entiendo que en el caso de los locutores nativos evidentemente es automática y en la enseñanza de las lenguas en gran medida se puede prescindir de la gramática.

El caso de los locutores no nativos es diferente puesto que al ser sus estructuras del lexicón diferentes para una segunda o tercera lengua, tienden a traducir o reproducir la sintaxis de la primera lengua que dominan, de forma que para ellos el conocimiento del léxico no es suficiente y requieren de la incorporación en la enseñanza de estructuras gramaticales.

Vemos que para los nativos la enseñanza de la gramática es implícita a la facultad que poseen de la lengua materna, necesitando, sin embargo, del aprendizaje del léxico para aumentar el dominio de la lengua.

Por ello, la enseñanza de colocaciones (semifrasemas), los frasemas de la TST que los podemos llamar expresiones, locuciones, proverbios, idiotismos, refranes, dichos, frases hechas o como queramos, siempre y cuando estas combinaciones sean fijas y opacas, es necesaria también en el caso de los alumnos nativos de primaria, ESO y bachillerato.

Por supuesto, que en el caso del aprendizaje del español o de segundas lenguas para estudiantes jóvenes o adultos la parte fundamental de la Metodología es el léxico en todas sus formas, tal como lo entiende la TST, es decir la incorporación de frasemas y semifrasemas, dando –repito- la prioridad al léxico sobre la gramática, y en los primeros niveles, explicando el léxico sin gramática.

El concepto tradicional de gramática se olvida de la formulación por los locutores de forma natural de la lengua, en la que el acto de comunicación es un flujo de lexias que se unen automáticamente, entendiendo que la sintaxis no es algo pensado sino que fluye. En principio, repito, los locutores nativos no precisan de la gramática para expresar sus significados. Es algo implícito, pero los locutores cuando una proposición no se corresponde con la sintaxis lo reconocen también de forma automática: eso no es correcto.

En todas las lenguas ocurre lo mismo y los hablantes son capaces de reconocer lo erróneo de lo que no lo es.

Las ventajas de los corpus:

Los corpus que componen los lingüistas-informáticos pueden llegar a contar muchos millones de palabras. El FRANTEXT cuenta con 180 millones de palabras e  incluso el British National Corpus sobrepasa los mil millones de formas.

Estos corpus sirven para componer diccionarios, entre ellos el que más me gusta como saben mis lectores es el Trésor de la Langue Française que incorpora en cada entrada multitud de citas de autores con sus fechas, sinónimos, etimologías, en fin instrumentos completos para profesores de lengua para los estudiantes y para los lingüistas que resolvamos nuestras dudas que tenemos como seres mortales que somos.

Los corpus sirven para extraer colocaciones y comprobar su frecuencia en los textos.

Corpus los hay y de todos los colores. En la actualidad se componen para las lenguas de fines específicos, corpus de la salud, financieros o del turismo que permiten a los lingüistas y traductores especializarse en determinadas ramas de las ciencias.

Cada paso que se da en el estudio por parte de Universidades y empresas que procesan los corpus y el tratamiento del lenguaje natural se verifica la prevalencia del léxico sobre la gramática. La consecuencia es la prioridad en todos los niveles de aprendizaje de la lengua es la incorporación del léxico en todos sus formas considerando todo tipo de unidades léxicas entendiendo como tales las que poseen un único significado.

En este sentido son vitales los diccionarios de colocaciones que después de unos decenios sin contar con ellos, gracias a la colaboración entre universidades e instituciones oficiales, empiezan a proliferar siendo de gran ayuda para los profesores de lengua materna o segunda, y, por supuesto para los alumnos.

Del estudio de los corpus se podría deducir que es posible construir una o varias gramáticas a partir de estas colecciones de textos, en las que se descubrirían las formulaciones sintácticas que se repiten. Pero dadas las limitaciones de la enseñanza de la gramática, ¿pueden tener interés estas gramáticas obtenidas a partir de los corpus?

Los corpus reflejan la realidad gramatical de la lengua de forma sincrónica en el momento estudiado y muchas veces permiten a través de la frecuencia descubrir algunas dudas que las gramáticas tradicionales no resuelven, como muchos casos del siempre difícil tema del empleo de las preposiciones que ni gramáticos ni locutores nativos pueden ilustrarnos. Acudiendo a los corpus de textos literarios podríamos decir que del caso estudiado la frecuencia que más se repita, debería ser la correcta.

Anuncios

1 comentario »

  1. Excelente e inspirador artículo.

    En el Molino estamos desarrollando un corpus, Plankton, (www.plankton.es) para su uso computacional. Necesitamos una ingente cantidad de textos ya que pensamos hacer análisis sintácticos y necesitamos muchos, pero muchos textos.

    Además y creo que también es imprescindible, queremos que estén etiquetados, es decir que sepamos que tipo de palabra está en cada posición. Para ello estamos desarrollando un lexicón etiquetado, Ashmera (www.ashmera.com).

    Esperamos que esta construcción, que desarrollamos porque nos hace falta y no la hemos encontrado, sea útil a otros estudiosos de la lengua,

    Esperamos superar los números aquí expuestos y dejar por tanto al español como la lengua con más recursos para ser estudiada.

    En cuanto a los últimos párrafos… habrá que esperar un tiempo, pero quizá encontremos un modelo que nos permita conocer las estructuras correctas desde el punto de vista de la estructura del sistema y no desde el punto de vista de la frecuencia. Quizá en un año empecemos a tener respuestas.

    Muy positivo el blog y con gran información de calidad y rigor. ¡Enhorabuena!

    Comentario por ebaste — marzo 10, 2010 @ 10:32 am | Responder


RSS feed for comments on this post. TrackBack URI

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Blog de WordPress.com.

A %d blogueros les gusta esto: