Español en América

mayo 10, 2010

Corpus del español de Mark Davies

Filed under: Lengua española — Mercedes @ 12:05 pm
Tags: , ,

Este profesor de la Universidad americana de Brigham publica en la red un corpus del español de 100 millones de palabras, consistentes en textos desde el siglo XIII hasta el siglo XX.

Existen muchos corpus del español entre ellos el más destacado es el CREA de la Real Academia de la Lengua, corpus del español actual, con más de 154 millones de palabras. El otro corpus de la RAE es el CORDE, el diacrónico con más de 236 millones de palabras.

El objetivo número uno de los corpus es el léxico y, nuestra finalidad es la enseñanza léxica a alumnos en primer lugar de español L2 y, cada vez más a los estudiantes de L1, por la situación dramática en la que se encuentra el vocabulario de los jóvenes que siguen en España las enseñanzas obligatorias.

Recalco que nuestra meta es la enseñanza del léxico y en estas páginas hemos dado ideas, fórmulas, metodología para ello.

Los ingleses y franceses que nos llevan varios cuerpos de distancia en cuanto a la enseñanza de ELE y muchos más si nos referimos al caso concreto del Léxico, tienen a mano diversos manuales y diccionarios, a parte de una Metodología bastante precisa que varía levemente en función de las diferentes escuelas lingüísticas.

Mark Davies además de su “corpus del español” publica un Diccionario de Frecuencias que es un excelente instrumento para la enseñanza del léxico y sobre todo, para su graduación.

La graduación en el aprendizaje del léxico es la madre de la ciencia y la herramienta de la que disponen los profesores para elegir qué palabras se deben enseñar en cada nivel.

Para graduar textos de estudio y trabajo, y para escoger esas palabras clave necesarias para que los alumnos vayan paso a paso incrementando su léxico en cada nivel A1, A2, o siguientes, la idea central ya expuesta es, la frecuencia.

Y la frecuencia es un concepto estadístico que no lingüístico pero que es la esencia de la graduación y de la elección del léxico en cada momento, en cada lección y en cada Ficha Léxica que elaboremos.

Mark Davies en 2006 publicó esa herramienta imprescindible para la enseñanza del léxico que es el “A frequency Dictionary of Spanish, core vocabulary for learners”

Está publicado en la editorial Routledge de Nueva York.

En estas páginas mis recomendaciones son sinceras y no motivadas por ningún interés comercial. En el caso de este Diccionario de Frecuencias del español, está dirigido exclusivamente a alumnos ingleses – o americanos- puesto que cada entrada numerada (por orden de frecuencia) lleva su traducción bastante precisa al idioma de Shakespeare. Algunos pequeños errores en la traducción se pueden comprender y corregir, pero nada comparable con los innumerables fallos, por ejemplo, del Diccionario Oficial de la Real Academia Española.

El profesor Davies propone avanzar en la enseñanza de acuerdo con la frecuencia de las palabras (la misma propuesta de esta humilde bloguera desde hace mucho tiempo).

Profesores y alumnos trabajan en ese incremento léxico de acuerdo con la frecuencia.

El profesor norteamericano resalta que su libro es útil para ambos grupos, profesores y alumnos, en principio, según mi modesta opinión, el Diccionario de frecuencias de Davies es muchísimo más útil para los profesores que para los alumnos, porque les permite escoger las palabras necesarias para cada oportunidad y nivel.

El Diccionario consta de 5.000 palabras aunque Davies en esas formas ha incluido algunas como pájaro y pajarito, que entiendo que el segundo pajarito debería estar en el nido y no en el Diccionario…

Mis lectores conocen mi opinión sobre cómo deben de ser estos Diccionarios de Frecuencias y que no tendrían que incluir las flexiones sino solamente los LEMAS.

Pero no le vamos, ni podemos echar una bronca a este Doctor en lengua española, mucho más experto que los que habitamos en estas tierras de garbanzos españolas y que desde que se produjo el último diccionario de frecuencias en 1964 nadie había movido un dedo en ese sentido. En efecto, Chang-Rodriguez y Juilland (el inventor del concepto de frecuencia aplicado a los corpus y al léxico) publicaron un ya desfasado diccionario con textos anteriores a 1950.

Los lectores han entendido que en estos diccionarios de frecuencias la puesta al día es esencial, porque el léxico que usamos habitualmente está en constante cambio y, por tanto, los profesores tenemos que elegir léxico y corpus actualizados a lo que se habla hoy. Mañana será otro cosa, otros corpus y otras las palabras que usaremos.

El detalle del Diccionario de Mark Davies:

Cada “entrada” del diccionario posee diversas informaciones:

La información número uno, es el del “ranking” en la frecuencia de uso del LEMA, es decir, los LEMAS van numerados por orden de frecuencia, el número uno es el LEMA que más aparece en el corpus elegido que es de 20 millones de palabras (no coincide exactamente con el “corpus del español “del mismo autor y que se puede trabajar en línea (http://www.corpusdelespanol.org/x.asp  )

–         La información si el LEMA es sustantivo, verbo, adjetivo,

–         La traducción al inglés

–         Un ejemplo de “Word in context” (por supuesto en español)

–         Dónde el LEMA es más usual:

  • “spoken”
  • Fiction-texts
  • Non-fiction texts

 

El autor intercala cada cierto número de páginas del Diccionario de frecuencias antes descrito, lo que el llama “thematically-related vocabulary), o familias de palabras de diversos temas (foods, illness, clothing, transportation, etc). Estos grupos temáticos de palabras, cincuenta LEMAS para cada familia, los clasifica en orden de mayor a menor frecuencia, asignándoles el número de referencia.

Davies critica estas agrupaciones de palabras que se enseñan como vocabulario temático, en el sentido de que es preciso eliminar de la enseñanza algunas que aparecen alejadas de los rankings de uso.

Así en la familia de “animales”, el ranking lo encabeza caballo, con el puesto nº 780 y el último de la lista de los cincuenta bichos es gaviota que se sale del Diccionario de los “5.000”, con el número asignado de 7.978.

En esta familia, de las cincuenta palabras del grupo, sorprende que algunas como águila (5.027), el simpático mosquito (5.206), la rana (6.137), o la tortuga, el zorro, el cisne, la ballena o el murciélago no se encuentren dentro de la clasificación.

Por supuesto, que la frecuencia de cada LEMA depende del corpus elegido y si consideramos otros textos, las frecuencias cambiarán. Pero según los trabajos de Juilland con la lengua francesa comentados en este blog, las diferencias no deberían ser tantas.

Mi comentario no debe entenderse como crítica al Diccionario, sino únicamente como sorpresa de que el mosquito no esté en la lista de los 5.000 LEMAS más frecuentes de la lengua castellana. Será porque a Davies no le pican los mosquitos…

Si volvemos al detalle de este muy práctico Diccionario, que no se entiende porqué razón no se utiliza con mayor profusión en las clases de español para extranjeros en España, la parte central de la enseñanza del léxico, repito, es la elección de qué léxico tenemos que escoger los profesores para cada nivel y en qué orden. La clave es la numeración del Diccionario de Davies que desde el número uno al cinco mil, nos da la pista de qué escoger.

En la confección de los minicorpus o Microrrelatos que proponemos para las clases, en concreto para su redacción, si el nivel de nuestras clases es el muy frecuente de nivel básico, o inicial A1, es evidente que tendremos que empezar con los LEMAS primeros del Diccionario.

Los profesores de ELE saben mejor que yo, que el eje central de cualquier enunciado es el verbo, por lo que tendremos que ir escogiendo verbos desde los primeros números de frecuencia.

Si los profesores se deciden a usar el libro de Davies, se darán cuenta que en las primeras posiciones de frecuencias están preposiciones, adverbios, conjunciones, etc, que son los comodines de la lengua, necesarios para formar y unir sintagmas.
Las preposiciones aparecen en los primeros puestos y esto nos revela cuán importantes son, y qué imprescindible es su enseñanza en el primer nivel A1 de la lengua, y no sólo las preposiciones en sí mismas, sino su uso, el uso preposicional que tan difícil y complicado es en cada lengua.

Y las transposiciones de una lengua a otra –nuestras referencias en el lexicón para aprender otras lenguas- no sirven de nada o de muy poco en el caso preposicional.

Recuerdo mi pelea que nunca llego a entender porque al traducir “en París” no es correcto “à Paris” sino “Dans Paris”. ¿Por qué? Sólo Dios lo sabe y el uso también.

La clave de un buen control de la lengua es el uso de las preposiciones, entre otras cosas porque aparecen cada dos por tres.

Se puede seguir comentando el Diccionario de Davies, pero lo más importante es que lo usen y a través de las frecuencias de los LEMAS, redacten sus propios textos.

Les recomiendo, que mientras tanto utilicen el Corpus del Español del mismo autor. Prueben con colocaciones y expresiones y comprobarán, como, por ejemplo, con “meter la pata” o “luna llena “los resultados obtenidos.

Luego vayan al CREA y realicen la misma búsqueda. Verán porque algunos emigran a las Universidades americanas y porque otros se quedan bajo el paraguas de la Realísima Academia. Y con la pasta-plata que se gastan.

En la siguiente legislatura voy a proponer que el presupuesto de la RAE se lo den a Mark Davies para continuar sus investigaciones.

Los resultados a la vista están.

2 comentarios »

  1. ¡Magnífico post! Nada que añadir ni que comentar. Tomaremos muy en cuenta todos estos comentarios al desarrollar plankton y sobre todo ashmera. Ya te pediremos consejo y opinión.

    Un saludo desde el Molino y ánimos para seguir con este monumental trabajo.

    Eduardo

    Comentario por Eduardo — mayo 11, 2010 @ 7:24 am | Responder

  2. Gracias por toda la información. Coincido en el homenaje a los hispanistas extranjeros, de los que tanto hemos aprendido. Este diccionario de frecuencias lo he trabajado un par de veces en niveles intermedios con resultados no del todo exitosos. La primera reacción era de curiosidad. Pero la selección de esas palabras, en el contexto mexicano, no siempre refleja el vocabulario que aquí se usa más. También está el problema de las bases de datos usadas por Davies, que si no recuerdo mal son de origen textual.
    En fin, más allá de mi capacidad para sacarle jugo, me pareció una idea estupenda. Lo voy a incluir en mi blog de recursos ELE (¡Ya lo tenía olvidado!).
    Saludos,
    Sergio

    Comentario por Sergio Reyes — septiembre 27, 2010 @ 12:30 am | Responder


RSS feed for comments on this post. TrackBack URI

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Crea un blog o un sitio web gratuitos con WordPress.com.

A %d blogueros les gusta esto: