Español en América

mayo 20, 2013

Construcción y archivo de corpus

Filed under: Lengua española — Mercedes @ 7:08 pm

Formato de construcción y archivo de Corpus

En estas páginas de corpus, léxico restringido y fanáticos del empleo de las TICs el objetivo es la enseñanza de lenguas de manera que cualquier trabajo que comencemos debe ser puesto bajo ese prisma.
La recomendación es antes de empezar cualquier diseño, detenernos unos instantes y reflexionar.
En el caso de nuestra herramienta digital preferida la construcción de corpus alentamos a los docentes a su utilización.

Como nos califican de exagerados en cuanto a ciertas insistencias e inclinaciones por lo digital dejando de lado, por ejemplo, a la Gramática, también en la aventura de los corpus se nos tacha de cierta insistencia no en vano desarrollamos cursos sobre Aplicaciones de los Corpus a la enseñanza de Segundas Lenguas y construimos nuestros propios corpus hecho insólito que sólo realizan contadas universidades.
Transcribimos lo que el gurú de los corpus, el difunto Sinclair, J. escribía en 1991:

Thirty years ago when this research started it was considered impossible to process texts of several million words in length. Twenty years ago it was considered marginally possible but lunatic. Ten years ago it was considered quite possible, but still lunatic. Today it is very popular.
Nunca nos han calificado de lunáticos…

Nuestra inclinación (no podemos llamarla lunática) por las lenguas de especialidad y, en concreto del Español de los Negocios para cuya enseñanza hemos creado una metodología exclusiva a través de la construcción de corpus y de la realización de tareas encadenadas que alojamos en una plataforma Moodle.
En lo referente al formato que utilizamos en la construcción de Corpus seguimos las recomendaciones de los principales gurús de los corpus y que oscilan desde formatos muy conocidos como el WORD hasta el más común o XML.

La facilidad de traspasar los corpus desde uno a otro formato nos hacen inclinarnos por el WORD como base de nuestra construcción lo que no impide que realicemos copias a otros formatos.
Como indicamos la construcción de un corpus siempre se realiza bajo uno u varios objetivos que pueden ser comunicativos (casi nunca), cognitivos (muy pocas veces) y lingüísticos (el 99,99% de las veces).
Nuestra intención en el caso que nos ocupa es la creación, diseño e impartición de un Curso del Español de los Negocios en una Universidad bajo un currículum predeterminado. Los alumnos son NO Nativos, tienen un nivel de Español del B1 y se pretende al mismo tiempo que aprenden el Syllabus el aumento de su nivel de español a un B2. Las horas de clase semanales son cuatro con un total de 160 horas.

Elegimos como formato de construcción inicial el WORD de Microsoft; después confeccionaremos un manual de enseñanza de conceptos de Negocios, Financieros, de Economía y del mundo de la Empresa en formato Pdf (tiene su explicación aunque en principio puede parecer sorprendente). Pasaremos el WORD al XML y realizaremos sencillas investigaciones con la ayuda del Lextutor y, en concreto sus programas Corpus Builder, Stripper, Concordancer y Frequency.

Partimos de un corpus del Español de los Negocios iniciado en abril de 2011 y extraído de diarios digitales disponibles gratuitamente en Internet. Son periódicos electrónicos en español de España y de América de información financiera entre los que destacamos El Economista, The Wall Street Journal en su edición en español, Libertad Digital, El País, El Mundo, Expansión y en menor medida Clarín, El Confidencial, El Universal, El Nuevo Herald, entre otros.
La primera extracción la acumulamos en formato WORD y vamos realizando copias de seguridad. Seguimos las indicaciones de Wynne, (2004) pasamos nuestro Corpus también al formato XML para archivarlo. La opción que indica el investigador de la U. de Oxford en el sentido de depositarlo en una institución que puede preservar los derechos intelectuales nos parece procedente en el supuesto de que el corpus alcance un tamaño superior y sea susceptible de ponerlo a disposición de la comunidad investigadora; dado que el tamaño de nuestro corpus del Español de los Negocios que denominamos Corpus CEN es de unos cuatro millones de formas nos parece irrelevante su depósito.

En concreto Wynne, M. (2004) en Developing Linguistic Corpora: a Guide to Good Practice, en Sinclair, J. (2004), Oxford University Press, recomienda almacenar los corpus en la plataforma de libre acceso OLAC (Open Language Archives Community, en http://www.language-archives.org ) que se encarga de defender los derechos intelectuales de los constructores y de divulgarlos en caso de interés para la investigación.
Los lectores están al tanto de los derechos intelectuales de los autores de los textos que componen los corpus y que tienen una duración de 75 años.
En el caso de diarios digitales y otros contenidos disponibles gratis en la web, se pueden copiar y utilizar con fines de enseñanza e investigación.
En el caso de comercialización de un corpus habría que solicitar la autorización de sus propietarios legales y compartir –se supone- los beneficios.
En el caso de corpus destinados a la investigación/enseñanza no es necesaria la autorización de los propietarios intelectuales pero no sería posible la comercialización.

Winne recomienda dado que la mayoría de proyectos de investigación sobre corpus son financiados, su NO comercialización sino la libre puesta a disposición de los investigadores ya que, recomienda, la libertad y gratuidad de utilización supone un punto favorable para conseguir financiación.

Dejar un comentario »

Aún no hay comentarios.

RSS feed for comments on this post. TrackBack URI

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Blog de WordPress.com.

A %d blogueros les gusta esto: