Script para extraer las fotos de los cuadrantes de fotos de Seneca

Copio aquí un post que escribí el año pasado en G+:

He creado un pequeño y feo script (habré creado 5 script en toda mi vida XD) para gnu/linux que permite extraer las fotos individuales de los alumnos, a partir del cuadrante de fotos que nos proporciona el sistema seneca. Es un script que he hecho para una necesidad propia, pero creo que puede ser útil para alguien más, asi que por eso lo publico.

Necesitais tener instalado imagemagick. Supongo que en windows con imagemagick y cygwin funcionará, aunque no lo he probado.

Para usarlo, colocais el script junto con el cuadrante de fotos en pdf, renombrado como fotos.pdf y en una terminal ejecutáis bash fotos_seneca.sh y os creará una serie de imágenes jpg con el número de clase del alumno (1.jpg,2.jpg,etc.). Os creará más imágenes que alumnos, por cada uno que falte para rellenar el cuadrante de fotos os creará una imagen en blanco, no lo he controlado, cuando termina los borro y ya está, para mí es suficiente XD.

Lo he probado con una clase que entraba en una sola página, y otra clase en la que tenía dos páginas en el pdf, y a funcionado perfectamente en ambas, se supone que debe funcionar con clases con cualquier número de páginas en el pdf, pero yo, afortunadamente no tengo ninguna clase con más de 40 alumnos (con dos páginas ya tienes 40 alumnos).

Si en algún momento tengo ganas, a lo mejor introduzco algún mecanismo de OCR para reconocer y renombrar cada foto con el nombre del alumno además de su número de orden, he visto que con tesseract se puede hacer de forma sencilla.

Si hacéis alguna modificación al script, por favor comunicarlo para que nos beneficiemos todos.

Espero que le sirva a alguien.

EDITO 7/11/11: He modificado un poco el script, ahora reconoce el nombre del alumno (gracias a tesseract, que debéis tener instalado en el sistema), además de extraer las imágenes de todos los archivos pdf que existan en la carpeta donde se ejecuta el script. Las imágenes individuales tendrán el siguiente nombre nombrepdf_nº de clase_nombre alumno.png Sigue teniendo multitud de problemas, pero como me sirve para mi propósito no creo que pierda tiempo arreglandolos. Estos son los errores conocidos, por ahora:
* No reconoce caracteres fuera del abecedario anglosajón (son sustituidos por _)
* Si después del ultimo alumno, hay casillas en blanco, el script sacará dicha foto en blanco sin nombre, pero con su numero de orden dentro de la clase. (Yo simplemente las borro cuando termina el script)
* Si algún alumno tiene una foto que se sale de las medidas comunes (esto se puede cambiar fácilmente en el script), será recortado y no se verá su foto completa. (De 4 clases, solo me ha ocurrido con un alumno)
* El nombre de los pdf, no debe tener espacios en blanco, tampoco debe haber un pdf que contenga completamente el nombre de otro (ejemplo 4_ESO_A y 4_ESO_AB), sino ocurrirán errores.

A pesar de estos errores, cumple su cometido.

http://pub.300.mg/uTEXCl

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s