Español en América

abril 11, 2011

Corpus VII: denominaciones

Filed under: Lengua española — Mercedes @ 7:13 pm

Corpus de referencia:
Tiene una dimensión previamente establecida, por ejemplo, 300 millones de formas y una vez terminado no se actualiza. Suelen ser de libre acceso y estandarizados.
Los corpus que se actualizan a diario se denominan Corpus monitor. Ejemplos son el COBUILD y el banco de datos del alemán de la Universidad de Leipzig que se pone al día de manera constante.
Lenguaje de codificación de un corpus:
La construcción de un corpus exige la elección de un lenguaje. En principio hay que superar las barreras ortográficas que en el español son sobre todo procedentes de las “tildes”, las famosas eñes que en el lenguaje internacional de codificación que no es otro que el SGML (Standard Generalized Markup Language) produce inconvenientes. Este lenguaje se apoya cómo no en la lengua inglesa que carece de signos como nuestras “tildes”, y, por supuesto de las eñes. Y en el inglés se usa el “código ASCII plano” que no posee símbolos como los mencionados antes de nuestra ortografía.
El lenguaje SGML lleva acompañado el CES o Corpus Encoding Standard y un paquete de recomendaciones TEI o Text Encoding Initiative.Otros lenguajes son el HTML (Hypertext markup Language) que no es apropiado para la anotación porque los tags son limitados y no sigue la norma que expresa que un tag cerrado sigue siempre a un tag abierto.
El otro lenguaje usado es el XML (Extensible markup language) que es el código más apropiado por que el número de tags puede ser infinito
El objetivo de utilizar un lenguaje común, una codificación y un marcaje también comunes es proporcionar al corpus construido la posibilidad que se pueda intercambiar con otros corpus similares sin necesidad de codificarlos cada vez.
Para la codificación indicamos que el código ASCII es el de empleo más frecuente en la lengua española. Los ejemplos clásicos son los corpus académicos que lo utilizan. Otros sistemas de codificación son el Unicode, JIS, ISO-Latín-1 y UTF-8.
Corpus anotados y no anotados:
Los corpus no anotados son los que conservan su aspecto original en el formato ASCII, sin modificaciones. Como ejemplos el CORDE y el CREA, mientras que un corpus anotado es aquel en el que se han introducido ciertas modificaciones.
Los corpus no anotados también se denominan plain corpus o raw corpus, o corpus “planos” que son “sólo textos” y que en lenguaje vulgar no permiten muchos “malabarismos”. Algunos autores llaman a los corpus no anotados, también “corpus crudos”.
La anotación no es otra cosa que una codificación que permite obtener una información lingüística de tipo semántica, sintáctica o pragmática con la finalidad de conseguir la extracción de datos que nos ofrezcan un conocimiento “profundo” del texto del corpus.
Se incorpora al corpus información tal como la categoría gramatical, las relaciones sintagmáticas como colocaciones, significados, etc. En la mayor parte de los casos la anotación para un corpus pretende obtener, por ejemplo, la extracción de colocaciones y esa será la única anotación.
La anotación consiste en introducir unos “códigos” o “etiquetas” que si se refieren a aspectos lingüísticos se califican como anotación simple o tagging o parsing. Si la anotación se refiere a aspectos no lingüísticos de califica como marcaje, ó mark-up.
Se denomina “proceso de codificación de textos” el que parte desde un texto escrito elegido para formar parte del corpus hasta la “validación” del mismo almacenado ya en forma utilizable electrónicamente.

La primera fase del trabajo de “preparación” consiste en definir la “estructura”.
• Oraciones y párrafos
• Tipo de letra y tamaño
• Título y subtítulos
• Etiquetas/anotaciones
Desde el “texto en papel” el primer paso es transformarlo en formato electrónico (OCR ). A continuación: lectura y corrección y codificación de nivel 1. El siguiente paso es la “elaboración de la cabecera SGML. Se sigue convirtiendo los caracteres que no son los normalizados por el ASCIL, validación y almacenamiento del texto. El paso siguiente es la codificación de nivel 2 y finalmente la Validación y almacenamiento del texto.
Con los textos “en papel” se puede presentar algún problema ya que los caracteres antiguos o algunos signos escritos en español no existen en el Unicode .
Anotación de los corpus:La realizamos por medio de los tags. La finalidad de la “anotación” es completar o enriquecer el texto con “informaciones estructurales”.
Para la anotación se emplean herramientas informáticas con el objetivo, si es posible que una vez anotado el texto pueda recuperarse el original (el texto).
Características de las anotaciones:
los usuarios de los corpus anotados debe estar al corriente que se pueden producir errores; los estándares de anotación son:
TEI, CES, LDC y EAGLES.
Los lenguajes de marcación son los ya mencionados HTML (no apropiado), SGML y XML.
Hemos mencionado “herramientas de anotación”: MMAX disponible en línea en la URL: http://www.eml-research.de/english/research/nlp/download/mmax.php

Dejar un comentario »

Aún no hay comentarios.

RSS feed for comments on this post. TrackBack URI

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Blog de WordPress.com.

A %d blogueros les gusta esto: