27 de octubre de 2011

CALIDAD DE DOCUMENTOS TEXTO PLANO, DIGITALIZADOS EN FORMATO TIFF JPG PDF

El documento en formato TIFF a profundidad  color permiten una  mayor calidad, lo que permite que el documento sea más legible 

El documento en formato JPG permite una compresión de imágenes independiente de la profundidad del documento, la calidad del texto no es tan buena ya que este formato es mejor utilizarlo para las fotografías 

El documento en formato PDF permite una calidad buena ya que permite la visualización cada línea del documento, permitiendo impresión completa del documento 

LA BASE DE INTEROPERABILIDAD EN LOS SISTEMAS DE INFORMACION DOCUMENTAL.

La creciente globalización que viene teniendo nuestra sociedad, ha dado apertura a muchas de las innovaciones y herramientas más poderosas para el desarrollo humano en sociedad, una de estas herramientas es el  XML (Lenguaje Extensible de Marcas), que es un lenguaje que describe otros lenguajes, lo que  conocemos como metalenguaje, inicialmente creado para los e-bussiness, que necesariamente tienen un intercambio de datos. 
XML se diseño para describir los datos y su estructura, y la forma en que estos pueden ser procesados, bajo un conjunto de reglas específicas, con el fin de dar estructura a la información y puedan ser entendidos  por los humanos y las maquinas. Actualmente es la base para la mejor integración de la mayoría de sistemas de información existentes hasta hoy, esta catalogación se debe a sus propias características, como son lograr trabajar en las redes de forma nativa, utilizando el Internet como su principal ambiente, interoperabilidad, comunicación con otras aplicaciones sean o no similares, costos reducidos, lograr resultados de en corto plazo.
Los documentos XML son un conjunto de caracteres de texto, donde se etiquetan los datos según ciertas especificaciones estandarizadas, lo cual codifican la estructura lógica del documento; La estructura interna  de los documentos XML, es muy sencilla, se compone de Prologo y Cuerpo, el Prologo a su vez esta divido en dos componentes La Declaración XML, que indica a los aplicativos y personas que intervienen en el documento y unas Declaraciones de Procesamiento, permite validar la información, la forma de presentar el documento y comentarios asociados al documento; por otra parte el Cuerpo, es el documento en si, aquí se incluye la distribución lógica del documento (Estructura) y los Contenidos asociados, en la Estructura podemos encontrar Etiquetas, Atributos y Entidades.
Se pueden clasificar los documentos en dos tipos, Documentos bien formados, es cuando un documento esta construido siguiendo los lineamientos generales para la construcción de documento XML y Documento válido, cuando está construido de acuerdo a un modelo o plantilla especificada anteriormente, estas planillas definen el esquema XML.
Dependiendo del uso de XML, se puede dividir en dos grandes grupos que son Sistemas de Gestión Documental y Sistemas Transaccionales. Los primeros están relacionados con los sistemas de información que manejan las bibliotecas y archivos donde la gestión de contenidos es fundamental, y con la gestión global (codificación, almacenamiento y distribución de publicaciones en formato digital) de los recursos de información de una empresa mediante tecnologías WEB, y los segundos están orientados a soportar la operación de la organización, mediante la utilización de soportes documentales, son los que hacen posible las transacciones propias del comercio electrónico entre empresas.

26 de octubre de 2011

TRANSFORMACIONES DE DOCUMENTOS DIGITALIZADOS A FORMATO OCR

● Compare transformaciones de texto lineal, respecto a texto en columnas y texto en tablas.

Algunas palabras del contenido del documento no las identifica ya que la letra es tamaño pequeño y el OCR no alcanza a identificarlo, estas palabras salen con margen de error

● Determine el tiempo necesario para transformar cada uno de estos documentos.

El tiempo utilizado para la transformación de cada documento es de 40 segundos para convertirlos a OCR 

● Evalué la calidad de los resultados

La calidad de los documentos no es la misma que el original, a menos que la letra sea suficientemente legible para que el OCR lo identifique, así mismo las márgenes del documento se distorsiona no quedan justificadas como en el documento original  

● Determine el tiempo gastado para arreglar los problemas de transformación

El tiempo gastado para arreglar los problemas de transformación por hoja es de 20 minutos cada una, arreglando palabras como márgenes para que el documento quede justificado 

EL ARCHIVISTA FRENTE A DOCUMENTOS ELECTRONICOS

Los nuevos soportes llegan al archivo. Ante esta situación, no cabe que los archiveros se planteen si resulta o no oportuno que se reciban.
Simplemente deben hacer lo posible por tratar esa documentación como una más en el archivo, como un componente del patrimonio archivístico moderno que son.
El hecho de que haya cambiado el soporte implica algunas variaciones en las costumbres archivísticas tradicionales: se precisa el uso de máquinas para hacer posible su lectura, se requieren diferentes normas de conservación, e incluso se tendrán que dictar normas sobre el volcado de unos soportes a otros con el fin de preservar la información del deterioro y posibilitar su lectura con las máquinas actuales y no depender de máquinas antiguas.
Los archiveros se preguntan si el cambio de formato papel a formato electrónico va a suponer también un cambio en las teorías tradicionales de la archivística. En el plano intelectual, se preguntan acerca del valor probatorio e informativo de los documentos administrativos. Desde un punto de vista práctico, se preguntan cuánto espacio va a hacer falta para almacenarlos, cuánto va a costar su preservación, con qué frecuencia deben ser transferidos, qué conocimientos tendrán que poseer para manejarlos, y si se dispondrá del equipamiento que permita usarlos.
Respecto a estas consideraciones ya se apuntan algunas desventajas que se avecinan con el cambio:
Alto coste de preservación de los documentos. 
Transferencia de documentos más complicada, porque en un mismo soporte se almacenan muchos documentos, y unos deberían ser transferidos antes que otros. 
Pérdida potencial de información con mayor facilidad, ya que los sistemas informáticos permiten eliminar información de una forma sencilla. 
Obsolescencia y dependencia del software. 
Los documentos electrónicos deben ir acompañados de documentación que explique la naturaleza y estructura de los registros, sobre todo cuando se trata de datos numéricos, por ejemplo las estadísticas. 
Este formato más fácil de manipular y ordenar permite al archivero seleccionar registros que quizá no seleccionaría en formato papel. 
La ordenación de los documentos electrónicos no debe variar de la que se lleva a cabo en papel, con la diferencia de que la ordenación va a ser lógica, no física. Se complica a la hora de organizar las series. 
Por el momento los archiveros tienen que plantearse cómo tratar estos documentos dispuestos en los nuevos soportes y contar con especialistas informáticos para desarrollar técnicas de manejo y preservación.

MARCOS Mari Carmen los archivos en la era digital  ISSN 1386-6710 [en línea] [consultado 23 de octubre de 2011] disponible en http://www.elprofesionaldelainformacion.com/contenidos/1999/junio/los_archivos_en_la_era_digital.html


LA GESTION DE CONTENIDOS

El lenguaje XML hizo su aparición en el año de 1996, con el objetivo de ser un lenguaje de marcas para internet, que distinguiría el contenido, la estructura de los documentos y poder crear documentos que puedan intercambiarse entre sistemas informáticos compatibles, esto debido a la importancia que ha adquirido la WEB en nuestros vidas, ya sea como herramienta académica, laboral, comercial o simplemente personal.
La WEB semántica y los servicios WEB fueron desde 2004 vistos como el futuro del internet de nuestros días, el XML está ligado a la gestión de contenidos, que en  pocas palabras es la necesidad de utilizar tecnologías de la información y sistemas informáticos para el almacenamiento y distribución de información de naturaleza textual.
El lenguaje XML, se ha podido utilizar como formato para el almacenamiento de metadatos y para el intercambio de contenidos, en esta parte se tendrá en cuenta la aplicación final que se le de al formato de gestión de contenidos, resultando dos tipos de gestión de documentos, los persistentes y los transaccionales; los pertinentes son documentos creados bajo el formato XML, utilizando herramientas de edición y se almacenan sin transformación alguna, los segundos son documentos creados para el intercambio de información y sufren transformaciones en su ciclo de vida, hasta el usuario final.
Resulta importante aclarar que la implementación de la gestión de contenidos principalmente en empresas, no implican gastos y costos mayores de los previamente adquiridos en los sitios WEB, como son el personal externo para mantenimiento o capacita citaciones para su utilización, ya que estos integran las herramientas necesarias para su mantenimiento y actualización de cada sitio WEB, ya que generalmente es realizado por las áreas de marketing, mercadeo, comunicaciones, etc.
La gestión de contenidos hace uso de las siguientes tecnologías, paginas dinámicas, bases de datos, metadatos, gestión de flujos de trabajo y mensajería, y la integración de estas aplicaciones.
Las ventajas principales del lenguaje XML, es la distinción que realiza entre contenidos y presentación, la gestión de repositorio de metadatos y la aplicación a procesos de intercambio y transferencia de información, por estas razones la aplicabilidad de él XML a la gestión de contenidos, ha tenido los frutos que día a día vemos en internet, lo cual mejora competitividad empresarial y la calidad de vida de los usuarios de la internet.

LEY 1341 DEL 30 DE JULIO DE 2009

"por el cual se definen principios y conceptos sobre la sociedad de la información y la organización de las tecnologías de la información y las comunicaciones - Tic. se crea la agencia nacional de espectro y se dictan otras disposiciones.  
Está ley determina un marco legal general para la formulación de las políticas públicas que regirán el sector de las Tecnologías de la Información y las Comunicaciones, su ordenamiento general, el régimen de competencia, la protección  al usuario, así como lo concerniente a la cobertura, la calidad del servicio, la promoción de la inversión en el sector  y el desarrollo de estas tecnologías, el uso eficiente de las redes y del espectro radioeléctrico, así como las potestades  del Estado en relación con la planeación, la gestión, la administración adecuada y eficiente de los recursos, regulación,  control y vigilancia del mismo y facilitando el libre acceso y sin discriminación de los habitantes del territorio nacional a la Sociedad de la Información."

Actualicese.com ley 1341 de 30-07-2009 [en linea][consultado 26 de octubre de 2011]disponibel en: 
http://www.actualicese.com/normatividad/2009/07/30/ley-1341-de-30-07-2009/

CRITERIOS DE DIGITALIZACION DE DOCUMENTOS


Para realizar el proceso de digitalización de documentos es necesario tener en cuenta aspectos como:

  •  El almacenamiento de  los documentos se debe general  en dos tipos de archivo,  uno de conservación y otro de consulta, para tal caso se utilizará el formato JPG o TIFF como archivo de conservación ya que,  garantiza el almacenamiento y menor perdida de caracteres y como archivo de consulta se utilizara el formato PDF que  garantiza el acceso y descarga de los documentos.
  • Inicialmente todos los documentos serán digitalizados en formato JPG y/o TIFF con el fin de garantizar el contenido de los documentos en su totalidad, posteriormente serán convertidos en formato PDF para accesibilidad.
  • Los documentos serán digitalizados en tres resoluciones que son 100 DPI, 200 DPI y 300 DPI, con el fin de analizar e identificar las diferencias, sin embargo la resolución idónea es a 200 DPI ya que es un pixel de buena calidad y es almacenable.
  • Los documentos serán digitalizados a color de 24 BITS, porque se tiene en cuenta el RGB que son 8 BITS por canal de color, en este caso tres, el resultado es 24 BITS; posteriormente serán convertidos a Bitonal y escala de grises
  • La fuente de papel utilizada será el cristal de escáner ya que se van a digitalizar documentos en varias aplicaciones y la bandeja alimentadora no garantiza la integridad del documento y todos los documentos son hojas sueltas.
  • Los archivos serán almacenados en todos los formatos comprimido y no comprimidos con el fin de analizar calidad y peso en el archivo 
La


DOCUMENTOS EN XML

Tomada de imagenes Google


XML Lenguaje Extensible de Marcas

Este lenguaje es utilizado para estructurar documentos en forma de árbol, dicho lenguaje se puede comparar con el sistema de clasificación Dewey utilizado en bibliotecas, ya que su función es normalizar los formatos, las estructuras y los contenidos de los documentos, este lenguaje permite el uso eficiente de la información a nivel sintáctico.
XML es considerado como base de la interoperabilidad, utilizando meta lenguaje basado en marcas y etiquetas que sean entendidas por maquinas y por el humano.
Los objetivos de XML Hacer utilizable Internet.

Dar soporte a todo tipo de aplicaciones.
Compatibilidad con SGML
Documentos legibles por humanos.
Diseño de los documentos preparado pero rápido.
Diseño formal y conciso.
Documentos fáciles de crear.
Marcación breve.

XML SE CARACTERIZA POR:

Ofrecer independencia respecto a las aplicaciones (además codifica información Unicode)

Contextualización de la información (Semántica y estructura)
Elementos del documento describen su estructura (modular y lógica).
Garantiza la estructura organizada del documento.
Garantiza validez del documento (Utilización de plantillas)
Posee campos de información y control para las aplicaciones.
Permite enlaces a datos relacionados (Hiperdocumento).
Permite la libertad de formato y medio.

El documento XML posee una anatomía con dos componentes:

EL PROLOGO


Que se divide en:

Declaración XML

Que hace referencia a los aplicativos, la versión, los caracteres y la codificación.

Declaración de procesamiento

Que hace referencia a como validar la información del documento, la instrucciones para su procesamiento y para que se incluyan los comentarios de cada documento.

2. EL CUERPO

Que se divide en:

Estructura

Donde se encuentran

los elementos o etiquetas
Los atributos.
Entidades

Contenidos asociados.

EL DOCUMENTO XML

Existen 2 modalidades

El documento bien formado
El documento valido.

--------------------------------------------------------------------
GÓMEZ DUEÑAS, Laureano Felipe. XML la base de la interoperabilidad en los sistemas de información documental. En: CODICE : Publicación de la Universidad de Lasalle. Programa Sistemas de Información, Jul- Dic 2007, Vol.3, no 002, p. 105-127

CONCEPTOS BASICOS DE DIGITALIZACIÓN

Qué es un Pixel?

Es un mapa de la imagen digital, en forma de cuadricula de puntos o elementos de la figura. A cada pixel se le asigna un valor tonal: negro, blanco, escala de grises o color, y está representado en código binario, es decir por ceros y unos.[1]

Qué es la Resolución?

Es el detalle que puede observarse en una imagen, sirve para ver que tan nítida es una imagen, cuan mayor es la resolución, mayor es el detalle o calidad visual de la imagen.[2]

Qué es la Dimensión de píxel?

La dimensión del pixel, es la medida horizontal y vertical de una imagen, expresada en pixeles, se calcula multiplicando el ancho, la altura por el dpi.[3]

Qué es un DPI?

Pixels-per-inch (píxeles por pulgada), es la unidad de medida de la resolución de una imagen, hace referencia a la cantidad de puntos que entran en una pulgada.[4]

Qué es la Profundidad de Bits?

Es la cantidad de bits que se utilizan en cada pixel, la profundidad de bits se da en blanco y negro o bitonal, escala de grises y color, para cada uno varía la cantidad de bits que usa.[5]

Qué es RGB?

En ingles es Red, Green, Blue (Rojo, Verde, Azul), se refiere a los colores primarios, por el cual es posible representar un color mediante la mezcla de los tres colores luz primarios por adición.[1]

Para la mezcla de estos colores se usa la síntesis aditiva de color, que consiste en la emisión luz directamente de una fuente de iluminación de algún tipo, en este proceso por lo general se usa luz roja, verde y azul, para la reproducción de mas colores.[2]

Cuántos colores se pueden establecer con RGB?

El conjunto de todos los colores se puede representar en forma de cubo. Cada color es un punto de la superficie o del interior de éste. La escala de grises estaría situada en la diagonal que une al color blanco con el negro.[1]

Qué es y cómo se calcula el tamaño de un archivo de Imagen?

el tamaño hace referencia al tamaño digital de un archivo de imagen, se calcula en kilobytes (K), megabytes (MB) o gigabytes (GB), es proporcional a las dimensiones en pixeles de la imagen, es decir las imágenes con mas pixeles muestran mejor los detalles en un tamaño de impresión determinado.[1]

El tamaño de la imagen se calcula de dos maneras:

Se calcula multiplicando el área de superficie (altura x ancho) de un documento a ser escaneado, por la profundidad de bits y el dpi2. Debido a que el archivo de imagen se representa en bytes, que están formados por 8 bits, se divide esta cifra por 8.

Fórmula 1: (altura x ancho x profundidad de bits x dpi2) / 8

Si se proporcionan las dimensiones de píxel, se multiplican entre sí y por la profundidad de bit para determinar la cantidad de bits presentes en un archivo de imagen.[2]

Fórmula 2: (dimensiones de píxel x profundidad de bits) / 8

Qué es y para qué sirve la compresión de imágenes?

La compresión de imágenes es la reducción del volumen de información, con el objetivo de transportar la información en la menor cantidad de espacio posible.[1]

Las imágenes digitales tienden a ser muy pesadas, lo que hacen que ocupen una mayor cantidad de espacio en el disco, la compresión se usa para facilitar el almacenamiento, procesamiento y transmisión de la información.[2]



[1] http://es.wikipedia.org. En línea [ Termino de búsqueda: Que es la compresión de imágenes], [Fecha de Consulta: Noviembre 17 de 2010]

[2] www.library.cornell.edu/preservation/tutorial-spanish/intro/intro-09.html. En línea [Termino de Búsqueda: Compresión de imágenes], [Fecha de Consulta: Noviembre 17 de 2010]


[1] http://es.wikipedia.org. En línea [ Termino de búsqueda: Que es la compresión de imágenes], [Fecha de Consulta: Noviembre 17 de 2010]

[2] www.library.cornell.edu/preservation/tutorial-spanish/intro/intro-09.html. En línea [Termino de Búsqueda: Compresión de imágenes], [Fecha de Consulta: Noviembre 17 de 2010]



[1] http://help.adobe.com. En línea: [Termino de búsqueda: Que es el tamaño de un archivo de imagen], [Fecha de Consulta: Noviembre 17 de 2010].

[2] www.library.cornell.edu/preservation/tutorial-spanish/intro/intro-09.html. En línea [Termino de Búsqueda: Tamaño de archivo], [Fecha de Consulta: Noviembre 17 de 2010]


[1] www.wikipedia.com. En línea: [Termino de búsqueda: Que es RGB], [Fecha de Consulta: Noviembre 17 de 2010].


[1] www.wikipedia.com. En línea: [Termino de búsqueda: Que es RGB], [Fecha de Consulta: Noviembre 17 de 2010]

[2] www.wikipedia.com. En línea: [Termino de búsqueda: Síntesis aditiva de color], [Fecha de Consulta: Noviembre 17 de 2010].


[1] www.alegsa.com.ar/Dic. En línea [Término de Búsqueda: Que es un Dpi]. [Fecha de consulta: Noviembre 16 de 21010]

[2] www.library.cornell.edu/preservation/tutorial-spanish/intro/intro-09.html. En línea [Termino de Búsqueda: Profundidad de bits], [Fecha de Consulta: Noviembre 16 de 2010]


[1] www.library.cornell.edu/preservation/tutorial-spanish/intro/intro-09.html. En línea [Termino de Búsqueda: Pixeles], [Fecha de Consulta: Noviembre 16 de 2010].

[2] www.wikipedia.com. En línea: [Termino de búsqueda: Resolución de una Imagen], [Fecha de Consulta: Noviembre 16 de 2010].

[3] www.library.cornell.edu/preservation/tutorial-spanish/intro/intro-09.html. En línea [Termino de Búsqueda: Dimensión de Pixeles], [Fecha de Consulta: Noviembre 16 de 2010]