tomaseo2022 commited on
Commit
a7947af
1 Parent(s): 0c2e52d

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +7 -7
app.py CHANGED
@@ -1,7 +1,7 @@
 
 
1
  import gradio as gr
2
- import os
3
- os.system("pip instal pdfplumber")
4
- import pdfplumber
5
 
6
  def pdf_to_xml(pdf_file):
7
  try:
@@ -9,10 +9,10 @@ def pdf_to_xml(pdf_file):
9
  if pdf_file is None:
10
  raise ValueError("No se recibió ningún archivo PDF.")
11
 
12
- with pdfplumber.open(pdf_file.name) as pdf:
13
- pdf_text = ""
14
- for page in pdf.pages:
15
- pdf_text += page.extract_text()
16
 
17
  # Aquí iría la lógica para convertir el texto del PDF a XML
18
  # Por ejemplo, puedes usar una librería como lxml para construir un XML
 
1
+ import os
2
+ os.system("pip install PyMuPDF")
3
  import gradio as gr
4
+ import fitz # PyMuPDF
 
 
5
 
6
  def pdf_to_xml(pdf_file):
7
  try:
 
9
  if pdf_file is None:
10
  raise ValueError("No se recibió ningún archivo PDF.")
11
 
12
+ pdf_document = fitz.open(pdf_file.name)
13
+ pdf_text = ""
14
+ for page in pdf_document:
15
+ pdf_text += page.get_text()
16
 
17
  # Aquí iría la lógica para convertir el texto del PDF a XML
18
  # Por ejemplo, puedes usar una librería como lxml para construir un XML