sábado, 23 de abril de 2011

GLOSARIO DE TÉRMINOS UTILIZADOS EN RECUPERACIÓN DE INFORMACIÓN



POR: MARCELA PULIDO Y MARILYN PLESTED  
Estos son algunos conceptos que se deben comprender a la hora de realizar cualquier trabajo de indización, análisis de corpus de texto o al  interpretar o analizar  cualquier documento digital 
  • Formato: La forma como la computadora  conviértela información de Bits a información entendible para el  usuario, hay diferentes tipos de formatos para diferentes tipos de información, también se puede dar el caso por ejemplo de que documentos de un procesador de texto  hayan varios formatos deferentes.

  • Tipos de formato:

Se dividen en las siguientes categorías:
v  Formatos de audio: mp3, wav, midi, wma
v  Formatos de video: mpg, avi
v  Formatos de imagen (ráster): jpg, bmp, png, gif
v  Formatos contenedores y compresión: zip, rar, cab, 7z
v  Formatos de documentos: doc, pdf, txt, xml
v  Formatos de diseño gráfico y vectoriales
v  Formatos de base de datos
v  Formatos de fuente
v  Formatos ejecutable, código objeto y librerías: exe, com, dll
v  Formatos scripts: php, py, vbs
  • Codificación: En este contexto de los sistemas informáticos hace referencia a el procedimiento que permite convertir un carácter (carácter entendido como una unidad de información, letra espacio o cualquier símbolo) de un lenguaje a un símbolo de otro sistema de representación.

  • Normas de codificación: Define la forma en que se debe representar el carácter en otro sistema de representación simbólica por ejemplo la norma ASCII, ASCII -2,  UNICODE, estas normas se crean con el fin de que los sistemas comprendan los caracteres para ser representados en el lenguaje natural.

  • Extensión de un archivo: La extensión se puede interpretar como una cadena de caracteres anexada al nombre de un archivo generalmente precedido por un punto, su función principal es diferenciar el contenido del archivo de forma que el sistema operativo sepa como ejecutarlo o interpretarlo, la extensión hace parte del nombre de el archivo y la forma de ejecutarlo.

Algunas de las extensiones más conocidas o comúnmente utilizadas son:

v  .com  Aplicación MS- DOS
v  .Zap  Configuración de instalación de software
v  .exe  Aplicación--  .wmdb  Biblioteca multimedia
  • Extensiones de audio:

          .mp3 Formato de audio digital comprimido   
          .wma  Formato de audio digital comprimido propiedad de Microsoft
  • Estructura de un documento: Características técnicas del documento, formato, organización de datos, paginación etc. Se puede definir como la forma que está compuesto el documento y si sus partes son identificables es decir si tiene una estructura lógica, título contenido final. Se habla por ejemplo de estructurar un sitio web por medio del lenguaje HTML esto sirve para que los buscadores recuperen este sitio.

  • Contenido de un documento: Hace referencia a la información digital implícita dentro del documento de lo que se trata el documento su contenido intelectual

  • Interfaz: Relación hombre maquina al interactuar con un sistema operativo, un sitio web o un programa.