Paperless-ngx en escuelas técnicas: legajos, OCR y permisos
Caso anonimizado para ordenar legajos escolares con Paperless-ngx: consumo, OCR, PostgreSQL, permisos, backup y prueba de baja.
Antes, cada legajo viajaba en una carpeta manila; después, cada PDF tuvo fecha, alumno, tipo y permiso. En una escuela técnica agrotecnica del este provincial, certificados, autorizaciones y practicas llegan escaneados, fotografiados o impresos. Paperless-ngx 2.20.15 ordena consumo, OCR, etiquetas y busqueda. Este caso muestra donde vive cada archivo, quién lo lee y cómo se prueba una baja con evidencia diaria.
Dónde se pierde el legajo antes de buscarlo
La cifra que corrige el hábito viene del release: Paperless-ngx 2.20.15 fue publicado el 27 de abril de 2026. En un archivo escolar, la versión importa porque define contenedores, dependencias, cambios de seguridad y tareas de consumo que corren sobre documentos sensibles. Un legajo sin permiso escrito viaja mas rapido que la autorización que deberia cuidarlo. La escala del software abierto da contexto: Octoverse 2025 informo más de 180 millones de desarrolladores y 630 millones de repositorios. Una escuela técnica de Mendoza baja esa escala a fichas medicas, DNI, permisos de salida, practicas y actas. Cada archivo necesita dueño, vencimiento y salida.
El scanner que mezclaba alumnos y anos
El antagonista es el scanner compartido que deja archivos llamados scan_001.pdf en una carpeta comun. La directora ve un archivador metalico con etiquetas escritas a mano y un lector de código de barras pegado con cinta al mostrador. El problema operativo aparece cuando preceptoria encuentra un PDF, pero desconoce alumno, curso, autorización y fecha. El README oficial define a Paperless-ngx como un sistema de gestión documental que vuelve buscables documentos físicos. La configuración permite PostgreSQL mediante PAPERLESS_DBHOST, Redis para tareas y OCR con OCRmyPDF/Tesseract. La administración documenta exporter, importer, sanity checker, indice de busqueda y backup.
Cómo funciona por dentro
El flujo mínimo tiene siete pasos. Primero, mesa de entradas escanea o sube certificado, autorización, nota o constancia. Segundo, el consumidor de Paperless-ngx toma el archivo desde la carpeta de entrada. Tercero, OCRmyPDF y Tesseract leen imagenes y crean texto buscable; Tesseract puede generar PDF con capa de texto. Cuarto, PostgreSQL guarda metadatos, correspondents, tags, tipos, usuarios y permisos. Quinto, el volumen media guarda original, miniatura y archivo PDF/A. Sexto, Redis mueve tareas de OCR, indice y consumo. Septimo, el exporter genera respaldo y el importer prueba recuperacion. Paperless-ngx recibe PDFs e imagenes y entrega busqueda, etiquetas, permisos y documentos archivados. PostgreSQL recibe registros estructurados y entrega consultas por alumno, fecha y tipo. El volumen media recibe archivos grandes. Redis recibe trabajos en cola. El permiso separa carga, lectura por curso, edición de etiquetas, borrado y administración. Si falla OCR, el documento queda visible pero dificil de buscar. Si falla media, la ficha aparece en la base y no abre.
Qué se instala o configura primero
La pila inicial usa Paperless-ngx 2.20.15, PostgreSQL 18, Redis, OCR en espanol, volumen media, HTTPS, grupos por rol, backup con exporter y prueba de importer. El piloto cuesta entre USD 1.000 y USD 3.200, entre ARS 1,42 y ARS 4,54 millones al dólar vendedor oficial de $1.419 informado por Bluelytics. Incluye 300 documentos, cuatro perfiles, etiquetas y recuperacion. El plazo va de tres a cinco semanas. UMSA suele pedir un entregable verificable: lote de legajos, nomenclatura, permisos por curso, busqueda por DNI, archivo de autorización vencida, export completo y restauración en otro host. El costo no incluye escaneo masivo historico, destruccion documental ni dictamen sobre guarda legal. La primera prueba conviene hacerla con diez alumnos y cuatro tipos de documento. Preceptoria carga, secretaria corrige etiqueta, dirección lee todo, un docente consulta solo su curso y un usuario externo queda fuera. La baja se prueba retirando un permiso vencido y dejando auditoría. La segunda prueba revisa retencion. Un documento se marca con fecha de vencimiento, responsable y motivo de baja. El archivo queda oculto para lectura comun, visible para dirección y presente en el export. Si el importer lo recupera con la misma etiqueta y el mismo permiso, el circuito sirve para auditoría interna.
Dónde se rompe y cómo probarlo Primer riesgo: OCR con idioma equivocado.
La señal aparece cuando nombres, acentos o números de DNI quedan mal reconocidos. La prueba carga documentos reales, revisa texto y ajusta PAPERLESS_OCR_LANGUAGE. Segundo riesgo: un grupo con permiso de borrado. La señal es un usuario de lectura que elimina archivos. La prueba intenta borrar con perfil docente y exige rechazo. Tercer riesgo: backup sin media. La señal aparece cuando el importer recupera registros y abre miniaturas rotas. La prueba exporta, borra entorno de ensayo, importa y abre diez archivos. Cuarto riesgo: consumo duplicado. La señal es el mismo certificado asociado a dos alumnos. La prueba revisa hash, fuzzy match y regla de nombres. El archivo escolar sirve cuando muestra alumno, documento, fecha y responsable. Quinto riesgo: busqueda que encuentra demasiado. La señal aparece cuando una palabra del OCR trae fichas medicas y actas sin separar. La prueba crea dos etiquetas sensibles, dos grupos y una consulta por rol. Dirección ve ambos grupos; preceptoria ve solo el curso asignado; un docente recibe cero resultados fuera de su alcance.