Español en América

mayo 24, 2013

A vueltas con el concepto de frecuencia léxica

Filed under: Lengua española — Mercedes @ 6:04 pm
Tags: , ,

Si damos vueltas a los conceptos no es por amor al arte sino por una necesidad real en las aulas y es nada menos qué léxico enseñar y cuál es su orden.
La introducción de las matemáticas en las aplicaciones lingüísticas no viene de muy lejos. Las modas no atañen sólo al vestido, los perfumes o al deporte sino que como oleadas de ideas contribuyen a refrescar las lenguas naturales.
El difunto Steve Jobs gurú de Apple y de la Informática comentaba que la confluencia de ciencias y letras supone un considerable aporte al mundo de Internet, de las nuevas tecnologías y, por supuesto de las lenguas naturales.
Es en ese cruce de caminos donde se encuentran las oportunidades de crecimiento de las economías y de los negocios en este comienzo del siglo XXI.
Las empresas que triunfan se apoyan no sólo en aplicaciones o modelos matemáticos como puede ser el famoso algoritmo de búsquedas de Google sino que la lingüística de corpus valida los trabajos de traductores, los diccionarios y constituye la punta de lanza de la innovación en lengua y tecnológica.

La frecuencia en la lingüística española ha sido y es el patito feo, un recurso olvidado quizás porque a diferencia de lo que sucede en países francófonos o anglófonos donde los matemáticas dominan la modelización de lenguas y las aplicaciones a diferentes ramas del conocimiento, en España los filólogos copan el panorama del conocimiento de lenguas quedando ingenieros e informáticos en la trastienda.
Son los lingüistas que resaltan la trascendencia de la semántica los más opuestos a la influencia de la frecuencia en los hechos y aplicaciones de la lengua.
Desde el británico Ullmann que en el ya lejano (1951:294), en The Principles of Semantics, sostenía la idea de que nunca la cantidad puede eclipsar la calidad refiriéndose la cantidad a la frecuencia.
En aquella época los corpus no revestían el carácter electrónico que tienen ahora y su dimensión era reducida convirtiéndose la lingüística sobre corpus en una auténtica pesadilla al realizarse a mano cualquier operación.
La potencia del hardware y del software permiten construir corpus de grandes dimensiones en formato electrónico en los que muy a pesar de Ullmann la cantidad si tiene importancia.
Otra idea que se implanta con firmeza tanto en la construcción de corpus como en el desarrollo de aplicaciones lingüísticas es la de modelos basados en el uso.
Es el enfoque comunicativo que los pone de moda donde la autenticidad impone el uso.

Y es precisamente el uso y la repetición de estructuras léxicas y gramaticales que necesita de la cantidad y, su homóloga la frecuencia para describir los fenómenos lingüísticos asociados al uso.
Si el concepto de corpus ha tenido una connotación lingüística pura en lo que se refiere a un desarrollo científico de fenómenos en exclusiva léxicos y gramaticales, esa tendencia va cambiando hasta implantarse la idea de corpus como fenómeno cognitivo y comunicativo.
No tenemos más alternativa que relacionar los conceptos de corpus, constructivismo y frecuencia para comprobar que son las bases y/o herramientas para la construcción de metodologías para la enseñanza de Segundas Lenguas.
Algunos autores separan el concepto cognitivo de los corpus de una idea en que va ligada al uso de la lengua – su valor comunicativo – y a la repetición de sus estructuras.
Estos autores con los que no estamos de acuerdo en la totalidad de su exposición manifiestan que la repetición de estructuras nuevas como las colocaciones léxicas se van introduciendo en lo que denominan entrenchment que se refiere a la repetición de un sintagma o unidad léxica que se implanta en la lengua. Equivale a decir algo conocido como que la repetición produce una lexicalización en el caso de unidades léxicas polixemáticas.
Existiría una relación entre este denominado lenguaje en uso y las estructuras sintácticas donde la frecuencia de cada ocurrencia jugaría un papel importante.

Para muchos lingüistas resulta paradójico que siendo el concepto de frecuencia un concepto matemático y sobre todo empírico, de su aplicación a los “hechos lingüísticos” puedan resultar conclusiones válidas.
La frecuencia se debate entre sus defensores próximos a las ciencias exactas y al trabajo con grandes corpus donde se descubren situaciones de la lengua que gracias al concepto se pueden explicar por la “repetición” o el “uso” y sus detractores que niegan cualquier valor.
Gracias al Data-Driven Learning (DDL) y el software de los concordancers , investigadores como Gabrielatos (2005) descubren que ciertas reglas gramaticales con determinadas excepciones, al contemplar en grandes corpus su uso, resulta que las excepciones superan a los ejemplos que soportan las reglas. Frecuencias y corpus caminan de la mano estrechamente unidos y si también se relaciona de manera íntima la frecuencia al léxico, investigaciones como las de Gabrielatos ponen de manifiesto que corpus, frecuencias y gramática pueden ser también compañeros de viaje en esta difícil tarea de la enseñanza de lenguas.

La necesidad de la frecuencia para el estudio del léxico y sus unidades
En trabajos en los que analizamos unidades polixemáticas restringidas como colocaciones y locuciones comprobarán que verificamos su empleo, su semántica o el uso de cada acepción, acudiendo a los corpus de la Academia, el CORDE y el CREA de manera que su frecuencia de aparición nos produce valiosas conclusiones.
El interés no se restringe al estudio teórico o la descripción de conceptos por placer sino lo trascendente es la aplicación de ideas y conocimientos a la didáctica de la lengua sea materna o segunda.
El concepto de frecuencia es cuantitativo porque la aparición de una forma o sintagma se puede medir y adjuntarle un número. Para explicar las aplicaciones de la frecuencia a la enseñanza de lenguas precisamos explicar las ideas de flexión en el caso de verbos y la derivación.

General Service List (GSL) y Academic Word List (AWL)
Si frecuencia, léxico y corpus podemos considerarlas como palabras clave en cualquier estudio sobre el léxico, en el campo de la lingüística aplicada británica nos encontramos con aportaciones puestas a disposición de los docentes de listas donde es central el concepto de frecuencia.
En el ámbito del ESL son conocidas las investigaciones de West, M. (1953) y su General Service List en el que publica los 2.000 lemas más frecuentes de un corpus construido entre 1936 y 1953.
En 2000 Coxhead publica una lista de 570 word families que denomina Academic Word List extraída de un corpus de escritos académicos y cuyos lemas NO pertenecen al General Service List de West.
Precisamos lo que califica Coxhead como word families es un concepto que va más allá del clásico lema de un diccionario y consiste en agrupar en torno a un head word o lema central de la familia sus derivados morfológicos. Como ejemplo ponemos a communicate que sería el head word y su familia sería communicable, communicated, commmunicates, communicating, communication, communications, communicative, communicatively y uncommunicative.

Coxhead desde su primera AWL formada por ocho sublist en las que incluye las 570 word families, pasa a confeccionar una New AWL en 2008 Con 10 sublist y 600 word families.
Tanto la lista de West que incluye los 2.000 lemas más frecuentes del inglés de 1953 y que tiene una referencia para los docentes sobre qué léxico enseñar como la lista de Coxhead con términos académicos a la hora de redactar escritos del mismo orden, tienen un elevado interés a efectos de la enseñanza.
Gilner, L. publica en 2011 un compendio de diversas General List editadas por otros investigadores y comparándolas con la inicial de West:

Nation and Hwang (1995) compared the GSL with word-lists extracted from the Lancaster-Oslo- Bergen (LOB) corpus (Johansson, 1978) and Brown corpus (Francis & Kucera, 1978). The LOB (British English) and Brown (American English) corpora are made up of about 1,000,000 running words each. Both corpora are equally divided into 15 subsections by genre such as reporting, religion, general fiction, and science. The LOB and Brown word-lists were obtained by taking the most frequent words that appeared in 10 or more subsections (range) in each corpus. The final LOB word-list consisted of 1,810 items and the Brown word-list of 2,410 items. Note that, in this study, the GSL contained 2,147 items.

Si comparamos las tres listas veremos que hay 1.331 lemas comunes que cubren el 78,3% del corpus LOB; los 2.147 lemas del GSL modificado por Brown cubren el 82,3 % del corpus LOB.
Gilner representa en una tabla las comparaciones de las listas de word families extraídas de los corpus dos a dos siendo el LOB con 1.469 comunes con el GSL cubren el 81,16% mientras que de la comparación del LOB con el Brown posee 1.581 word families comunes completando el 87,84% del léxico.
Mencionamos el BNC, British National Corpus, el más conocido del inglés con 100 millones de formas y del que Nation en 2004 extrae 14.000 word families en listas cada una de mil lemas. Gilner&Morales en 2008 construyen un corpus de 1.157.493 running words y realizan comparaciones con los lemas de Nation del BNC y la lista de 2.000 lemas del General Service List de West.

Gilner toma los 1.000 lemas primeros de cada lista y los aplica a su corpus. En el caso del BNC cubren el 80,43% del corpus y la lista de West cubre el 80,02%; mientras que si aplicamos los segundos mil word families de ambas listas, en el caso del BNC – Nation cubren un 7,65% más sobre el corpus de Gilner& Morales y, con la lista de West un 6,71% suplementario.
De la comprobación de la investigación de Gilner se comprueba que el aprendizaje de unidades léxicas a partir de los 1.000 primeros lemas consigue aumentar la comprensión del texto de manera no muy significativa. De lo anterior se deduce la necesidad por los aprendices de segundas lenguas del conocimiento urgente de los primeros mil lemas, precisando que en el caso del inglés no coinciden con exactitud con el concepto lingüístico de lema sino que se refiere a la idea de word families.

1 comentario »

  1. Estimada Mercedes, recientemente he conocido la lista de Coxhead de vocabulario acad’emico. Imparto contenidos de ciencias sociales en nivel de primer anyo de universidad en grupos de ingl’es y espanyol. La lista de Coxhead resulta muy ‘util para mis estudiantes en el grupo de ingl’es (EMI). Me pregunto si se ha realizado algo similar para el vocabulario de uso acad’emico espanol a partir de corpus en nuestra lengua. Ser’ia muy ‘util para las clases de alumnado de primer anyo de universidad cuya L1 es el espanyol. Muchas gracias por el art’iculo.
    Pd. disculpa la ausencia de tildes

    Comentario por PalomaFR — agosto 22, 2016 @ 9:05 pm | Responder


RSS feed for comments on this post. TrackBack URI

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Blog de WordPress.com.

A %d blogueros les gusta esto: