Spaces:

jersonalvr
/

traductor

Sleeping

App Files Files Community

JersonRuizAlva commited on Dec 15, 2024

Commit

14d7429

1 Parent(s): 1bcef05

upload

Browse files

Files changed (3) hide show

app.py +513 -0
install_fonts.sh +29 -0
requirements.txt +7 -0

app.py ADDED Viewed

	@@ -0,0 +1,513 @@

+import os
+import json
+import platform
+import locale
+import logging
+import tempfile
+import torch
+from transformers import MarianMTModel, MarianTokenizer
+from langdetect import detect
+import fitz  # PyMuPDF
+from reportlab.pdfgen import canvas
+from reportlab.lib.pagesizes import A4
+from reportlab.pdfbase import pdfmetrics
+from reportlab.pdfbase.ttfonts import TTFont
+import gradio as gr
+import numpy as np
+# Configuración del logger
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+# Definición inicial de los modelos de traducción
+MODELOS_TRADUCCION = {
+    'Inglés a Español': 'Helsinki-NLP/opus-mt-en-es',
+    'Español a Inglés': 'Helsinki-NLP/opus-mt-es-en',
+    'Inglés a Francés': 'Helsinki-NLP/opus-mt-en-fr',
+    'Francés a Inglés': 'Helsinki-NLP/opus-mt-fr-en',
+    'Inglés a Alemán': 'Helsinki-NLP/opus-mt-en-de',
+    'Alemán a Inglés': 'Helsinki-NLP/opus-mt-de-en',
+    'Inglés a Italiano': 'Helsinki-NLP/opus-mt-en-it',
+    'Italiano a Inglés': 'Helsinki-NLP/opus-mt-it-en',
+    'Inglés a Portugués': 'Helsinki-NLP/opus-mt-en-pt',
+    'Portugués a Inglés': 'Helsinki-NLP/opus-mt-pt-en',
+}
+# Mapeo de nombres completos de idiomas a códigos de idioma
+LANGUAGE_MAP = {
+    'english': 'en',
+    'spanish': 'es',
+    'french': 'fr',
+    'german': 'de',
+    'italian': 'it',
+    'portuguese': 'pt',
+    # Agrega más idiomas según sea necesario
+}
+def detectar_idioma_sistema():
+    """
+    Detecta el idioma del sistema operativo utilizando locale.
+    Retorna el código del idioma (e.g., 'en', 'es').
+    """
+    try:
+        # Establecer la configuración regional para evitar DeprecationWarning
+        locale.setlocale(locale.LC_ALL, '')
+        idioma, _ = locale.getlocale()
+        if idioma:
+            idioma = idioma.split('_')[0]
+            idioma_lower = idioma.lower()
+            idioma_code = LANGUAGE_MAP.get(idioma_lower, 'es')  # Predeterminado a 'es' si no se encuentra
+        else:
+            idioma_code = 'es'  # Predeterminado a español si no se detecta
+        logger.info(f"Idioma del sistema detectado: {idioma_code}")
+        return idioma_code
+    except Exception as e:
+        logger.warning(f"No se pudo detectar el idioma del sistema: {e}")
+        return 'es'  # Predeterminado a español en caso de error
+def detectar_idioma_texto(texto):
+    """
+    Detecta el idioma predominante del texto utilizando langdetect.
+    Retorna el código del idioma (e.g., 'en', 'es').
+    """
+    try:
+        idioma = detect(texto)
+        logger.info(f"Idioma detectado del texto: {idioma}")
+        return idioma
+    except Exception as e:
+        logger.error(f"Error al detectar el idioma: {e}")
+        return 'en'  # Predeterminado a inglés si falla la detección
+def actualizar_modelos_traduccion(idioma_origen, idioma_destino):
+    """
+    Actualiza dinámicamente los modelos de traducción disponibles basado en el par de idiomas.
+    Retorna una tupla (clave, modelo_nombre) si existe el modelo, de lo contrario (None, None).
+    """
+    mapa_idiomas = {
+        'en': 'Inglés',
+        'es': 'Español',
+        'fr': 'Francés',
+        'de': 'Alemán',
+        'it': 'Italiano',
+        'pt': 'Portugués',
+        # Agrega más idiomas según sea necesario
+    }
+    clave_origen = mapa_idiomas.get(idioma_origen, idioma_origen.capitalize())
+    clave_destino = mapa_idiomas.get(idioma_destino, idioma_destino.capitalize())
+    clave = f"{clave_origen} a {clave_destino}"
+    modelo = MODELOS_TRADUCCION.get(clave)
+    if modelo:
+        logger.info(f"Modelo de traducción encontrado para {clave}: {modelo}")
+        return clave, modelo
+    else:
+        logger.warning(f"No se encontró modelo de traducción para {clave}")
+        return None, None
+def cargar_modelo_traduccion(origen, destino):
+    """
+    Carga el modelo de traducción basado en los idiomas de origen y destino.
+    Retorna una tupla (tokenizer, model, dispositivo).
+    """
+    clave, modelo_nombre = actualizar_modelos_traduccion(origen, destino)
+    if not modelo_nombre:
+        raise ValueError(f"No hay modelo de traducción disponible para {origen} a {destino}")
+    logger.info(f"Cargando el modelo de traducción: {clave}...")
+    tokenizer = MarianTokenizer.from_pretrained(modelo_nombre)
+    model = MarianMTModel.from_pretrained(modelo_nombre)
+    dispositivo = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    model.to(dispositivo)
+    logger.info(f"Modelo '{clave}' cargado en: {dispositivo}\n")
+    return tokenizer, model, dispositivo
+def traducir_texto(tokenizer, model, textos, dispositivo, batch_size=8):
+    """
+    Traduce una lista de textos utilizando el modelo y tokenizer proporcionados.
+    """
+    traducciones = []
+    for i in range(0, len(textos), batch_size):
+        batch = textos[i:i+batch_size]
+        inputs = tokenizer(batch, return_tensors="pt", padding=True, truncation=True)
+        inputs = {k: v.to(dispositivo) for k, v in inputs.items()}  # Mover inputs al dispositivo
+        with torch.no_grad():
+            traduccion = model.generate(**inputs)
+        traducciones += [tokenizer.decode(t, skip_special_tokens=True) for t in traduccion]
+    return traducciones
+def obtener_rutas_fuentes():
+    """
+    Obtiene las rutas de las fuentes del sistema operativo.
+    """
+    sistema = platform.system()
+    rutas_fuentes = []
+    if sistema == 'Windows':
+        rutas_fuentes = [
+            os.path.join(os.environ.get('WINDIR', 'C:\\Windows'), 'Fonts'),
+            os.path.expanduser('~\\AppData\\Local\\Microsoft\\Windows\\Fonts'),
+            os.path.join(os.path.expanduser('~'), 'AppData', 'Local', 'Microsoft', 'Windows', 'Fonts')
+        ]
+    elif sistema == 'Darwin':  # macOS
+        rutas_fuentes = [
+            '/System/Library/Fonts',
+            '/Library/Fonts',
+            os.path.expanduser('~/Library/Fonts')
+        ]
+    elif sistema == 'Linux':
+        rutas_fuentes = [
+            '/usr/share/fonts',
+            '/usr/local/share/fonts',
+            os.path.expanduser('~/.fonts')
+        ]
+    else:
+        logger.warning(f"Sistema operativo no soportado: {sistema}")
+    return rutas_fuentes
+def cachear_fuentes():
+    """
+    Cachea las fuentes disponibles en el sistema en un archivo JSON.
+    """
+    rutas_fuentes = obtener_rutas_fuentes()
+    fuentes = {}
+    for ruta in rutas_fuentes:
+        if os.path.exists(ruta):
+            for root, dirs, files in os.walk(ruta):
+                for file in files:
+                    if file.lower().endswith(('.ttf', '.otf')):
+                        nombre_fuente = os.path.splitext(file)[0]
+                        path_fuente = os.path.join(root, file)
+                        # Evitar sobrescribir fuentes con el mismo nombre
+                        if nombre_fuente not in fuentes:
+                            fuentes[nombre_fuente] = path_fuente
+    cache_path = os.path.join(tempfile.gettempdir(), 'fuentes_sistema.json')
+    with open(cache_path, 'w', encoding='utf-8') as f:
+        json.dump(fuentes, f, ensure_ascii=False, indent=4)
+    logger.info(f"Fuentes cacheadas en: {cache_path}")
+    return fuentes
+def cargar_fuentes_cache():
+    """
+    Carga las fuentes desde el caché o crea una nueva caché si no existe.
+    """
+    cache_path = os.path.join(tempfile.gettempdir(), 'fuentes_sistema.json')
+    if not os.path.exists(cache_path):
+        logger.info("Cache de fuentes no encontrado. Creando cache...")
+        return cachear_fuentes()
+    with open(cache_path, 'r', encoding='utf-8') as f:
+        fuentes = json.load(f)
+    logger.info("Fuentes cargadas desde el cache.")
+    return fuentes
+def registrar_fuentes(fuentes_sistema):
+    """
+    Registra las fuentes disponibles en ReportLab.
+    Solo registra fuentes .ttf compatibles.
+    """
+    fuentes_registradas = set(pdfmetrics.getRegisteredFontNames())
+    for nombre, path in fuentes_sistema.items():
+        # Verificar si el archivo es .ttf
+        if not path.lower().endswith('.ttf'):
+            logger.warning(f"Fuente {nombre} no es .ttf. Se omite su registro.")
+            continue
+        # Crear un nombre único para la fuente
+        nombre_registro = nombre
+        if nombre_registro not in fuentes_registradas:
+            try:
+                pdfmetrics.registerFont(TTFont(nombre_registro, path))
+                fuentes_registradas.add(nombre_registro)
+                logger.info(f"Fuente registrada: {nombre_registro}")
+            except Exception as e:
+                logger.warning(f"No se pudo registrar la fuente {nombre}: {e}")
+def buscar_fuente_similar(nombre_fuente_pdf, fuentes_sistema):
+    """
+    Busca una fuente similar en las fuentes del sistema.
+    Si no encuentra una, retorna 'Helvetica'.
+    """
+    nombre_fuente_pdf_lower = nombre_fuente_pdf.lower()
+    for nombre, path in fuentes_sistema.items():
+        if nombre_fuente_pdf_lower in nombre.lower():
+            return nombre  # Retorna el nombre registrado en ReportLab
+    logger.warning(f"No se encontró una fuente similar para '{nombre_fuente_pdf}'. Usando 'Helvetica'.")
+    return "Helvetica"
+def ajustar_tamano_fuente(texto, bbox, c, max_width, tamaño_fuente_original):
+    """
+    Ajusta el tamaño de la fuente para que el texto se ajuste al ancho máximo.
+    """
+    width_texto = c.stringWidth(texto, c._fontname, tamaño_fuente_original)
+    if width_texto > max_width:
+        nuevo_tamaño = tamaño_fuente_original * (max_width / width_texto)
+        return max(min(nuevo_tamaño, tamaño_fuente_original), 6)
+    return tamaño_fuente_original
+def extraer_y_traducir_pdf(archivo_pdf, tokenizer, model, dispositivo, idioma_destino):
+    """
+    Extrae el contenido del PDF, traduce el texto y crea un nuevo PDF traducido.
+    """
+    documento = fitz.open(archivo_pdf.name)
+    pdf_traducido_path = os.path.splitext(archivo_pdf.name)[0] + f"_traducido_{idioma_destino}.pdf"
+    fuentes_sistema = cargar_fuentes_cache()
+    registrar_fuentes(fuentes_sistema)
+    # Crear un canvas ReportLab con el tamaño de la primera página
+    primera_pagina = documento.load_page(0)
+    rect = primera_pagina.rect
+    ancho, alto = rect.width, rect.height
+    c = canvas.Canvas(pdf_traducido_path, pagesize=(ancho, alto))
+    textos = []
+    posiciones = []
+    # Extraer todos los textos y sus posiciones
+    for numero_pagina in range(len(documento)):
+        pagina = documento.load_page(numero_pagina)
+        bloques = pagina.get_text("dict")["blocks"]
+        for bloque in bloques:
+            if bloque['type'] == 0:  # texto
+                for linea in bloque["lines"]:
+                    for span in linea["spans"]:
+                        textos.append(span["text"])
+                        posiciones.append((span["bbox"], span["font"], span["size"], numero_pagina))
+    # Traducir texto
+    traducciones = traducir_texto(tokenizer, model, textos, dispositivo)
+    # Dibujar el texto traducido
+    idx_texto = 0
+    total_paginas = len(documento)
+    for numero_pagina in range(total_paginas):
+        pagina = documento.load_page(numero_pagina)
+        rect = pagina.rect
+        ancho, alto = rect.width, rect.height
+        # Ajustar el tamaño de página al tamaño original del PDF
+        c.setPageSize((ancho, alto))
+        # Definir márgenes dinámicos en base al tamaño de la página, ej: 5% de ancho y alto
+        margen_x = ancho * 0.05
+        margen_y = alto * 0.05
+        # Procesar texto de esta página
+        pagina_bloques = pagina.get_text("dict")["blocks"]
+        for bloque in pagina_bloques:
+            if bloque['type'] == 0:
+                for linea in bloque["lines"]:
+                    for span in linea["spans"]:
+                        # Obtener el texto traducido correspondiente
+                        texto_traducido = traducciones[idx_texto]
+                        bbox, font, size, span_pagina = posiciones[idx_texto]
+                        idx_texto += 1
+                        x0, y0, x1, y1 = bbox
+                        # Ajustar coordenadas al sistema de ReportLab (y invertida)
+                        x = x0
+                        y = alto - y1
+                        # Buscar fuente similar
+                        fuente_encontrada = buscar_fuente_similar(font, fuentes_sistema)
+                        # Intentar establecer la fuente encontrada
+                        try:
+                            c.setFont(fuente_encontrada, size)
+                        except:
+                            logger.warning(f"Fuente '{fuente_encontrada}' no registrada. Usando 'Helvetica'.")
+                            fuente_encontrada = "Helvetica"
+                            c.setFont(fuente_encontrada, size)
+                        # Ajustar el tamaño del texto si excede el ancho disponible
+                        max_width = (x1 - x0) - margen_x if (x1 - x0) > 0 else (ancho - 2 * margen_x)
+                        nuevo_tamaño = ajustar_tamano_fuente(texto_traducido, bbox, c, max_width, size)
+                        # Establecer el nuevo tamaño de fuente
+                        try:
+                            c.setFont(fuente_encontrada, nuevo_tamaño)
+                        except:
+                            logger.warning(f"No se pudo ajustar el tamaño de la fuente para '{fuente_encontrada}'. Usando 'Helvetica'.")
+                            fuente_encontrada = "Helvetica"
+                            c.setFont(fuente_encontrada, nuevo_tamaño)
+                        # Dibujar texto
+                        try:
+                            c.drawString(x, y, texto_traducido)
+                        except Exception as e:
+                            logger.error(f"Error al dibujar texto: {e}")
+                            # Intentar con Helvetica por defecto
+                            c.setFont("Helvetica", nuevo_tamaño)
+                            c.drawString(x, y, texto_traducido)
+        # Procesar imágenes
+        imagenes = [b for b in pagina_bloques if b['type'] == 1]
+        for imagen in imagenes:
+            if 'xref' not in imagen:
+                continue
+            try:
+                x0, y0, x1, y1 = imagen["bbox"]
+                ancho_img, alto_img = x1 - x0, y1 - y0
+                img = fitz.Pixmap(documento, imagen["xref"])
+                if img.n > 4:
+                    img = fitz.Pixmap(fitz.csRGB, img)
+                imagen_path = os.path.join(tempfile.gettempdir(), f"imagen_{numero_pagina}.png")
+                img.save(imagen_path)
+                img.close()
+                c.drawImage(imagen_path, x0, alto - y1 - alto_img, width=ancho_img, height=alto_img)
+            except Exception as e:
+                logger.error(f"Error al procesar imagen: {e}")
+                continue
+        c.showPage()
+    c.save()
+    return pdf_traducido_path
+def pdf_preview(file):
+    """
+    Previsualiza la primera página del PDF como una imagen.
+    """
+    try:
+        doc = fitz.open(file.name)
+        page = doc[0]
+        pix = page.get_pixmap()
+        image = np.frombuffer(pix.samples, np.uint8).reshape(pix.height, pix.width, pix.n)
+        if pix.n == 4:
+            image = image[:, :, :3]
+        return image
+    except Exception as e:
+        logger.error(f"Error al previsualizar el PDF: {e}")
+        return None
+def boton_actualizar_fuentes(files):
+    """
+    Actualiza las fuentes del sistema subiendo nuevas fuentes.
+    """
+    try:
+        if files:
+            fuentes_cache = cargar_fuentes_cache()
+            for file in files:
+                if file.name.lower().endswith('.ttf'):
+                    destino = os.path.join(tempfile.gettempdir(), file.name)
+                    with open(destino, 'wb') as f_dest:
+                        f_dest.write(file.read())
+                    nombre_fuente = os.path.splitext(file.name)[0]
+                    fuentes_cache[nombre_fuente] = destino
+                    logger.info(f"Fuente '{file.name}' subida y guardada en {destino}")
+                else:
+                    logger.warning(f"Archivo '{file.name}' no es una fuente .ttf y será omitido.")
+            # Actualizar el caché
+            cache_path = os.path.join(tempfile.gettempdir(), 'fuentes_sistema.json')
+            with open(cache_path, 'w', encoding='utf-8') as f:
+                json.dump(fuentes_cache, f, ensure_ascii=False, indent=4)
+            # Volver a registrar fuentes
+            registrar_fuentes(fuentes_cache)
+        else:
+            cachear_fuentes()
+        return "Fuentes actualizadas exitosamente."
+    except Exception as e:
+        logger.error(f"Error al actualizar fuentes: {e}")
+        return f"Error al actualizar fuentes: {e}"
+def procesar_pdf(archivo_pdf, fuentes_subidas):
+    """
+    Función principal para procesar y traducir el PDF.
+    """
+    try:
+        if not archivo_pdf:
+            return None, "No se ha subido ningún archivo PDF."
+        # Extraer texto para detectar el idioma
+        documento = fitz.open(archivo_pdf.name)
+        texto_completo = ""
+        for pagina in documento:
+            texto_completo += pagina.get_text()
+        idioma_origen = detectar_idioma_texto(texto_completo)
+        idioma_sistema = detectar_idioma_sistema()
+        # Si el idioma de origen y destino son iguales, no realizar traducción
+        if idioma_origen == idioma_sistema:
+            logger.info("El idioma de origen y destino son iguales. No se realizará la traducción.")
+            return archivo_pdf.name, "El idioma de origen y destino son iguales. No se realizó la traducción."
+        # Cargar el modelo de traducción automáticamente
+        tokenizer, model, dispositivo = cargar_modelo_traduccion(idioma_origen, idioma_sistema)
+        # Traducir el PDF
+        pdf_traducido_path = extraer_y_traducir_pdf(archivo_pdf, tokenizer, model, dispositivo, idioma_sistema)
+        return pdf_traducido_path, "Traducción completada exitosamente."
+    except Exception as e:
+        logger.error(f"Error en procesar_pdf: {e}")
+        return None, f"Error en la traducción: {e}"
+def actualizar_fuentes_cache():
+    """
+    Función para actualizar el caché de fuentes.
+    """
+    try:
+        cachear_fuentes()
+        return "Fuentes cacheadas exitosamente."
+    except Exception as e:
+        logger.error(f"Error al cachear fuentes: {e}")
+        return f"Error al cachear fuentes: {e}"
+# Interfaz de usuario con Gradio
+with gr.Blocks(
+    title="Traductor de PDF Multilenguaje",
+    theme=gr.themes.Default(
+        primary_hue="blue", spacing_size="md", radius_size="lg"
+    )
+) as iface:
+    with gr.Row():
+        with gr.Column(scale=1):
+            gr.Markdown("# Traductor de PDF Multilenguaje")
+            pdf_input = gr.File(label="Sube tu PDF", file_types=['.pdf'])
+            # Eliminamos el Dropdown de selección manual del modelo de traducción
+            fuentes_subidas = gr.File(label="Sube fuentes faltantes (opcional)", file_count="multiple", file_types=['.ttf'])
+            actualizar_fuentes_btn = gr.Button("Actualizar Fuentes del Sistema")
+            actualizar_fuentes_output = gr.Textbox(label="Actualización de Fuentes", interactive=False)
+            actualizar_fuentes_btn.click(
+                fn=boton_actualizar_fuentes,
+                inputs=fuentes_subidas,
+                outputs=actualizar_fuentes_output
+            )
+        with gr.Column(scale=1):
+            gr.Markdown("## Vista Previa")
+            preview = gr.Image(label="Vista Previa", visible=True)
+            traducir_btn = gr.Button("Traducir PDF")
+            estado_traduccion = gr.Textbox(label="Estado", interactive=False)
+            traducir_btn.click(
+                fn=procesar_pdf,
+                inputs=[pdf_input, fuentes_subidas],
+                outputs=[gr.File(label="Descargar PDF traducido"), estado_traduccion]
+            )
+            # Vista previa del PDF
+            pdf_input.change(
+                fn=pdf_preview,
+                inputs=pdf_input,
+                outputs=preview
+            )
+# Ejecutar la interfaz de usuario con la opción de compartir públicamente
+iface.launch(share=True)

install_fonts.sh ADDED Viewed

	@@ -0,0 +1,29 @@

+#!/bin/bash
+# Create fonts directory if it doesn't exist
+mkdir -p ~/.fonts
+# Download and install some common Unicode fonts
+# You can customize this list based on your specific language requirements
+# Noto Fonts (Google's comprehensive Unicode font family)
+wget https://noto-website-2.storage.googleapis.com/pkgs/Noto_Sans.zip
+unzip Noto_Sans.zip -d ~/.fonts
+rm Noto_Sans.zip
+# DejaVu Fonts (Comprehensive Unicode font)
+wget https://github.com/dejavu-fonts/dejavu-fonts/releases/download/v2.37/dejavu-fonts-ttf-2.37.zip
+unzip dejavu-fonts-ttf-2.37.zip
+cp dejavu-fonts-ttf-2.37/ttf/*.ttf ~/.fonts/
+rm -rf dejavu-fonts-ttf-2.37*
+# Roboto Fonts (Google's standard font)
+wget https://github.com/google/fonts/raw/main/apache/roboto/static/Roboto-Regular.ttf -O ~/.fonts/Roboto-Regular.ttf
+wget https://github.com/google/fonts/raw/main/apache/roboto/static/Roboto-Bold.ttf -O ~/.fonts/Roboto-Bold.ttf
+# Additional language-specific fonts (optional)
+# Spanish
+wget https://github.com/google/fonts/raw/main/ofl/sourcesanspro/SourceSansPro-Regular.ttf -O ~/.fonts/SourceSansPro-Regular.ttf
+# Rebuild font cache
+fc-cache -fv

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+torch
+Transformers
+langdetect
+PyMuPDF
+reportlab
+gradio
+numpy