¿Qué es OCR?
O.C.R. es el acrónimo Inglés para Reconocimiento Óptico de Caracteres.
Es decir, es el nombre del proceso que convierte una imagen escaneada de una página escrita a un formato de texto que pueda ser procesado automáticamente.
Se utiliza por ejemplo para poder hacer búsquedas en documentos escaneados.
¿Qué es ALTO?
Alto es un formato de archivo diseñado para almacenar OCR
Los archivos ALTO siguen un esquema XML (https://www.loc.gov/standards/alto/v3/alto-3-1.xsd)
Este formato es de uso público y libre y está mantenido por la Biblioteca del Congreso de E.E.U.U. lo que garantiza su solvencia y continuidad en el tiempo
Está diseñado para ser fácilmente compatible con el esquema de metadatos METS. El archivo METS de un documento puede tener referencias a los archivos ALTO y a los archivos de Imagen (JPEG, TIFF ...) para que sea fácilmente procesable.
De esta forma un documento pueda ser cargado fácilmente en bibliotecas digitales y permita a los usuarios buscar texto automáticamente en las imágenes, copiar partes del texto para referencias, etc.
ALTO es un formato relativamente nuevo y muchos sistemas software de OCR aún no lo reconocen o lo han implementado muy recientemente.
Por tanto es bastante común en muchas bibliotecas, disponer de digitalizaciones de sus documentos e incluso tener OCR, normalmente dentro de un PDF, pero no disponer de los ficheros ALTO.
ALTO INFINITE
¿Qué es ALTO Infinite?
ALTO Infinite es un software con licencia a perpetuidad que genera ficheros OCR en formato ALTO a partir de OCR previos en PDF.
ALTO infinite está diseñado específicamente para los clientes que tienen documentos digitalizados en imágenes Tiff o Jpeg de los que quieren obtener los ficheros ALTO y disponen además de versiones en PDF con OCR de esos documentos.
Además de ficheros ALTO, ALTO Infinite permite generar ficheros en formato .txt estandar.
¿Cómo se si mis PDF son validos para usar ALTO Infinite?
Si puedes buscar texto de forma automática dentro del PDF, entonces ese PDF tiene OCR.
ALTO Infinite puede usar cualquier PDF que contenga OCR.
¿Cómo funciona?
1. Introducir el directorio donde se encuentran los ficheros PDF.
2. Introducir el directorio donde se encuentran los ficheros de imagen para los que se quiere generar el ALTO.
3. Introducir un directorio de destino para depositar los ficheros de alto.
4. Generar.
El programa generará la misma estructura de directorios en el directorio de destino y colocará los correspondientes archivos alto en esos directorios, con los mismos nombres de los ficheros de imagen. Por ejemplo para el PDF:
C:\ArteDigitalG\EjemploAlto\JPEG\biblioteca1\documento1\ prensa_0404.jpg
se generará el archivo:
C:\ArteDigitalG\EjemploAlto\ALTO\ biblioteca1\documento1\ prensa_0404.alto
y así sucesivamente
Aunque el pdf tuviera las imágenes reescaladas, cosa bastante común para ahorrar espacio, este archivo estará ajustado al tamaño de la imagen. De esta forma la búsqueda coincidirá con la posición exacta de cada palabra en la imagen.
El programa generará además informes sobre cada archivo generado y de los posibles fallos que ocurrieran en el proceso.
ALTO INFINITE +
¿Qué es ALTO INFINITE +?
Si no dispones de los archivos PDF con OCR, pero tienes una licencia de un software que permita generar estos archivos, entonces ALTO INFINITE + es tu solución.
ALTO INFINITE + , llama a tu programa de OCR para que genere de forma correcta los PDF y a partir de ahí llama directamente al motor de ALTO INFINITE para extraer los archivos ALTO de ese PDF.
ALTO INFINITE + necesita ser configurado para el software de OCR del que disponga el cliente. Este es un paso que hay que hacer una única vez y puede ser realizado por nuestros técnicos sin coste adicional a la licencia.
Una vez configurado, todo es muy sencillo.
¿Cómo funciona ALTO INFINITE +?
1. introducir el directorio donde se encuentran los ficheros de imagen para los que se quiere generar el ALTO.
2. Introducir un directorio de destino para depositar los ficheros de alto.
3. Generar.
Al igual que con ALTO Infinite, el programa respeta los nombres y estructuras de directorios y genera informes sobre fallos.
CONDICIONES DE LA LICENCIA
DETALLE EJEMPLO DE A.L.TO.
<alto:alto
xmlns:alto="http://www.loc.gov
<alto:Description>
<alto:MeasurementUnit>pixel</a
<alto:sourceImageInformation>
<alto:fileName>C:\ArteDigitalG
</alto:sourceImageInformation>
<alto:OCRProcessing
ID="OCRProcessing">
<alto:ocrProcessingStep>
<alto:processingDateTime>2016-
<alto:processingAgency>Arte Digital 2012</alto:processingAgency>
<alto:processingStepDescriptio
<alto:processingSoftware>
<alto:softwareCreator>Arte Digital 2012</alto:softwareCreator>
<alto:softwareName>Alto Infinite</alto:softwareName>
<alto:softwareVersion>1.1</alt
</alto:processingSoftware>
</alto:ocrProcessingStep>
</alto:OCRProcessing>
</alto:Description>
<alto:Styles>
<alto:TextStyle FONTSIZE="8"
FONTTYPE="serif" FONTWIDTH="proportional" ID="TextStyle1"/>
<alto:TextStyle FONTSIZE="9"
FONTTYPE="serif" FONTWIDTH="proportional" ID="TextStyle2"/>
</alto:Styles>
<alto:Layout>
<alto:Page HEIGHT="2861"
ID="Page_0" PHYSICAL_IMG_NR="0" WIDTH="1974">
<alto:PrintSpace
HEIGHT="2810" HPOS="0" VPOS="0" WIDTH="1886">
<alto:TextBlock HEIGHT="1076" HPOS="65" ID="Block_0_0" VPOS="16" WIDTH="1786">
<alto:TextLine HEIGHT="14" HPOS="1648" ID="Line_0_0_0" VPOS="16" WIDTH="203">
<alto:String CONTENT="EDICION" HEIGHT="14" HPOS="1648" STYLEREFS="TextStyle1" VPOS="16"
WIDTH="90"/>
<alto:String CONTENT="DE" HEIGHT="14" HPOS="1752" STYLEREFS="TextStyle1" VPOS="16"
WIDTH="29"/>
<alto:String CONTENT="LUJO" HEIGHT="14" HPOS="1794" STYLEREFS="TextStyle1" VPOS="16"
WIDTH="57"/>