Español en América

mayo 21, 2011

Corpus: construcción

Filed under: Lengua española — Mercedes @ 10:02 am

Hemos visto en estas páginas el interés de y por los corpus y la multitud de datos que obtenemos sobre la lengua al manejarlos.
El concepto estadístico de frecuencia es la idea central en buena parte de los trabajos en relación con los corpus.
Mencionamos que el tamaño es otra variable importante y, que en general, cuanto mayor sea, las conclusiones que obtengamos tendrán mayor validez.
La lingüística aplicada a los corpus tiene diversas ramas que traen de cabeza a informáticos y lingüistas, la principal es la traducción.
A la vista están los “traductores” automáticos que se ofrecen en línea y que casi siempre producen unos resultados que divergen de la realidad y del objetivo pretendido que es conseguir un texto de calidad en la lengua meta que sea coincidente con el de la lengua origen.
Si queremos pasar un rato divertido un fin de semana aburrido, no necesitamos leer obras de teatro de Jardiel Poncela, sino irnos a la web y traducir cualquier texto. Y luego a partirse de risa.
Si los “traductores” se mejoran poco a poco luchando con la polisemia y la ambigüedad de las lenguas, nuestro objetivo primordial es la aplicación del estudio de los corpus a la enseñanza de la lengua sea materna o extranjera.
Para cumplir con las premisas requeridas por el enfoque comunicativo, el primer requisito es acudir a textos auténticos, es decir, cumplir con el principio de la autenticidad.
Necesitamos textos auténticos y actuales que sean muestran representativas del habla de hoy.
¿Cuáles son esos textos auténticos?
Ni más ni menos que textos periodísticos sean del “pelaje” que sean.
Si vamos a dar un curso de español de los negocios, utilizaremos diarios digitales financieros de los que se publican gratis en la red una media docena. Incluimos el Wall Street Journal en su edición española que ofrece una información muy técnica aunque casi siempre los textos proceden de la traducción (no automática) dejando en algunas ocasiones giros y combinaciones que no se corresponden con la corrección deseada.
Si vamos a trabajar con alumnos extranjeros que pretender aprender el español general, en este caso los periódicos digitales sean del español que sean, son correctísimos y adecuados.
Nuestra opinión sobre la lengua a enseñar y, me refiero a qué variedad será la elegida y, sin ánimo de polémica, nuestra posición es la de la “variedad estándar peninsular” por un motivo central que no es otro que su universalidad. La globalización a que nos somete Internet exige precisamente esa universalidad.
Con rarísimas excepciones la jerga periodística coincide con gran exactitud con la variedad antes mencionada.
Pueden comprobarlo si leen “El Universal” de Caracas, “El Tiempo” de Bogotá, “Clarín” de Buenos Aires, “El Nuevo Herald” de Miami o “El Mundo” de Madrid.
Antes nos referimos a los de información financiera que solemos emplear a parte del “Wall Street Journal”, “El Economista.es” y “Expansión.com”.
Cómo se “construye” un corpus a partir de textos periodísticos extraídos de Internet:
El “lenguaje” común de los Corpus es el XTML que coincide con el empleado en la redacción de los diarios digitales en Internet.
Disponemos antes de empezar nuestro trabajo de construir nuestro propio corpus de ficheros Word que pretendemos utilizar también o incorporar al corpus en el que vamos a trabajar.
Por tanto, podemos iniciar nuestro corpus en un fichero de Word o bien directamente abriendo un XTML.
La forma de operar es idéntica:
Vamos a imaginar que necesitamos un glosario o relación de términos financieros para impartir un curso de español de los negocios. Elegimos un diario en la red, por ejemplo, “Expansión.com” y desde la portada conseguimos algún texto e nuestro interés y de actualidad: la reestructuración de la deuda griega, la política de tipos de interés o la falta de liquidez de los bancos.
Elegido el texto o mejor si son varios, en principio cuanto mayor sea la dimensión mejor y más completo será nuestro glosario.
Con el cursor de nuestro ordenador “seleccionamos” el texto escogido. Normalmente permanecerá la “selección” efectuada en color “azul”; a continuación presionamos la tecla “control” (ctrl.) y la letra “c” (control C).
Vamos a nuestro fichero Word en el lugar que pretendemos “añadir” el texto seleccionado y presionamos las teclas “control” y “v” (control V).
El texto del diario digital se añadirá a nuestro fichero y con estas sencillas operaciones empezaremos a construir un corpus de diarios digitales.
“Limpieza” del texto:
Al seleccionar un determinado texto sin pretenderlo transportamos a nuestro fichero Word, imágenes, enlaces, etc., de manera que habrá que limpiarlo eliminando las imágenes, enlaces.
Se trata de homogeneizar el texto puesto que al final del recorrido a nuestro corpus limpio y con el “resplandor” que exige la Academia, le vamos a aplicar un o unos programas informáticos en función de lo que pretendamos obtener.
En la “limpieza” dejaremos el texto con el mismo tipo de letra, la que sea, por ejemplo, “Times new roman”, quitaremos las cursivas y las “negritas”; lo mismo que el tamaño de las letras puesto que los titulares de los periódicos suelen tener una dimensión mayor que la del texto propiamente dicho.
Limpiado el texto quedará listo para aplicarle el software apropiado.
Los programas informáticos suelen ser “de pago” y cuanto mayor sea nuestra pretensión, más caros serán.
Algunas universidades ponen a disposición de los usuarios programas sencillos gratuitos para obtener, por ejemplo, un listado de las palabras que constituyen el corpus.
La relación de “palabras” se suele editar en “Excel”.
Otros programas algo más complicados “lematizan” el corpus, es decir, los simplifican pasando las flexiones de un mismo verbo a su infinitivo.
Se trata de conseguir la frecuencia de “comer” o de “estar” porque para redactar un diccionario, glosario o manual el criterio suele ser el de utilizar los verbos más frecuentes.
En función de lo que queramos, de nuestro objetivo académico, utilizaremos un software determinado.
Recomiendo acudir a Google para buscar el programa gratuito que más se adapte a nuestras necesidades.

Dejar un comentario »

Aún no hay comentarios.

RSS feed for comments on this post. TrackBack URI

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Crea un blog o un sitio web gratuitos con WordPress.com.

A %d blogueros les gusta esto: