A.L.T.O.  Infinite

 

 

 

¿Qué es OCR?

 

     O.C.R. es el acrónimo Inglés para Reconocimiento Óptico de Caracteres.

     Es decir, es el nombre del proceso que  convierte una imagen escaneada de una página escrita a un formato  de texto  que pueda ser procesado  automáticamente.

     Se utiliza por ejemplo para poder hacer búsquedas en documentos escaneados.

 

¿Qué es ALTO?

 

     Alto es un formato de archivo diseñado para almacenar OCR

     Los archivos ALTO siguen un esquema XML  (https://www.loc.gov/standards/alto/v3/alto-3-1.xsd)

     Este formato es de uso público y libre y está mantenido por la Biblioteca del Congreso de E.E.U.U. lo que garantiza su solvencia y continuidad en el tiempo

     Está diseñado para ser fácilmente compatible con el esquema de metadatos METS.  El archivo METS de un documento puede tener referencias a los archivos ALTO y a los archivos de Imagen (JPEG, TIFF ...)  para que sea fácilmente procesable.

     De esta forma un documento pueda ser cargado fácilmente en bibliotecas digitales y permita a los usuarios buscar texto automáticamente  en las imágenes, copiar partes del texto para referencias, etc.

     ALTO es un formato relativamente nuevo y muchos sistemas software de OCR aún no lo reconocen o lo han implementado muy recientemente.

     Por tanto  es bastante común en muchas bibliotecas, disponer de digitalizaciones de sus documentos e incluso tener OCR, normalmente dentro de un PDF, pero no disponer de los ficheros ALTO.

 

 

 

 

                                      ALTO INFINITE 

 

¿Qué es ALTO Infinite?

 

     ALTO Infinite es un software con licencia a perpetuidad que genera ficheros OCR en formato ALTO a partir de OCR previos en PDF.

     ALTO infinite está diseñado específicamente para los clientes que tienen documentos digitalizados en imágenes Tiff o Jpeg de los que quieren obtener los ficheros ALTO y disponen además de versiones en PDF con OCR de esos documentos.

     Además de ficheros ALTO, ALTO Infinite permite generar ficheros  en formato .txt  estandar.

 

 

¿Cómo se si mis PDF son validos para usar ALTO Infinite?

 

      Si puedes buscar texto de forma automática dentro del PDF, entonces ese PDF tiene OCR.

      ALTO Infinite puede usar cualquier PDF que contenga OCR.

 

 

¿Cómo funciona?

 

     1. Introducir el directorio donde se encuentran los ficheros PDF.

     2. Introducir el  directorio donde se encuentran los ficheros de imagen para los que se quiere generar el ALTO.

     3.  Introducir un directorio de destino para depositar los ficheros de alto.

     4. Generar.

    El programa generará la misma estructura de directorios en el directorio de destino y colocará los correspondientes archivos alto en esos directorios, con los mismos nombres de los ficheros de imagen. Por ejemplo para el PDF:

C:\ArteDigitalG\EjemploAlto\JPEG\biblioteca1\documento1\ prensa_0404.jpg

se generará el archivo:

C:\ArteDigitalG\EjemploAlto\ALTO\ biblioteca1\documento1\ prensa_0404.alto

y así sucesivamente

      Aunque el pdf tuviera las imágenes reescaladas, cosa bastante común para ahorrar espacio, este archivo estará ajustado al tamaño de la imagen. De esta forma la búsqueda coincidirá con la posición exacta de cada palabra en la imagen.

      El programa generará además informes sobre cada archivo generado y de los posibles fallos que ocurrieran en el proceso.

 

 

 

 

                                      ALTO INFINITE +  

 

¿Qué es ALTO INFINITE +?

 

      Si no dispones de los archivos PDF con OCR, pero tienes una licencia de un software que permita generar estos archivos, entonces  ALTO INFINITE +  es tu solución.

     ALTO INFINITE + , llama a tu programa de OCR para que genere de forma correcta los PDF y a partir de ahí llama directamente al motor de ALTO INFINITE para extraer los archivos ALTO de ese PDF.

     ALTO INFINITE +  necesita ser configurado para el software de OCR del que disponga el cliente. Este es un paso que hay que hacer una única vez y puede ser realizado por nuestros técnicos sin coste adicional a la licencia.

     Una vez  configurado, todo es muy sencillo.

 

¿Cómo funciona ALTO INFINITE +?

 

     1. introducir el  directorio donde se encuentran los ficheros de imagen para los que se quiere generar el ALTO.

     2. Introducir  un directorio de destino para depositar los ficheros de alto.

     3. Generar.

    Al igual que con ALTO Infinite, el programa respeta los nombres y estructuras de directorios y genera informes sobre fallos.

 

 

                     CONDICIONES DE LA LICENCIA

 

  • LICENCIA DE USO ILIMITADA
  • INSTALACIÓN POR PARTE DE ARTE DIGITAL 2.012
  • CURSO DE USO DE 2 HORAS
  • GARANTÍA DE UN AÑO
  • SOPORTE  TÉCNICO TELEFÓNICO HORARIO DE OFICINA
  • ACTUALIZACIONES .  Arte Digital 2012 s.l. ira ofreciendo actualizaciones del programa para ajustarse a las últimas versiones del esquema de ALTO  que recomiende la Biblioteca del congreso de Estados Unidos.  Actualmente con la licencia se genera la versión 3.1, que es la última disponible.

 

 

 

   DETALLE  EJEMPLO DE  A.L.TO.

 

<alto:alto xmlns:alto="http://www.loc.gov/standards/alto/ns-v3#" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/standards/alto/ns-v3# http://www.loc.gov/standards/alto/v3/alto-3-1.xsd">
  <alto:Description>
    <alto:MeasurementUnit>pixel</alto:MeasurementUnit>
    <alto:sourceImageInformation>
      <alto:fileName>C:\ArteDigitalG\EjemploAlto\JPEG\num1000354054\00000001.jpg</alto:fileName>
    </alto:sourceImageInformation>
    <alto:OCRProcessing ID="OCRProcessing">
      <alto:ocrProcessingStep>
        <alto:processingDateTime>2016-12-23T10:53:24</alto:processingDateTime>
        <alto:processingAgency>Arte Digital 2012</alto:processingAgency>
        <alto:processingStepDescription>Generación de Alto a partir de OCR de PDF</alto:processingStepDescription>
        <alto:processingSoftware>
          <alto:softwareCreator>Arte Digital 2012</alto:softwareCreator>
          <alto:softwareName>Alto Infinite</alto:softwareName>
          <alto:softwareVersion>1.1</alto:softwareVersion>
        </alto:processingSoftware>
      </alto:ocrProcessingStep>
    </alto:OCRProcessing>
  </alto:Description>
  <alto:Styles>
    <alto:TextStyle FONTSIZE="8" FONTTYPE="serif" FONTWIDTH="proportional" ID="TextStyle1"/>
    <alto:TextStyle FONTSIZE="9" FONTTYPE="serif" FONTWIDTH="proportional" ID="TextStyle2"/>
  </alto:Styles>
  <alto:Layout>
    <alto:Page HEIGHT="2861" ID="Page_0" PHYSICAL_IMG_NR="0" WIDTH="1974">
      <alto:PrintSpace HEIGHT="2810" HPOS="0" VPOS="0" WIDTH="1886">
        <alto:TextBlock HEIGHT="1076" HPOS="65" ID="Block_0_0" VPOS="16" WIDTH="1786">
          <alto:TextLine HEIGHT="14" HPOS="1648" ID="Line_0_0_0" VPOS="16" WIDTH="203">
            <alto:String CONTENT="EDICION" HEIGHT="14" HPOS="1648" STYLEREFS="TextStyle1" VPOS="16" WIDTH="90"/>
            <alto:String CONTENT="DE" HEIGHT="14" HPOS="1752" STYLEREFS="TextStyle1" VPOS="16" WIDTH="29"/>
            <alto:String CONTENT="LUJO" HEIGHT="14" HPOS="1794" STYLEREFS="TextStyle1" VPOS="16" WIDTH="57"/>

Versión para imprimir | Mapa del sitio
© Arte Digital 2012 SL