Spaces:

mrsk1883
/

testingspace

Sleeping

App Files Files Community

mrsk1883 commited on Dec 9, 2023

Commit

099e779

1 Parent(s): 45ca8c3

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -40

app.py CHANGED Viewed

@@ -2,7 +2,6 @@ import gradio as gr
 from PyPDF2 import PdfReader
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 from gtts import gTTS
-from io import BytesIO
 import re
 model_name = "ArtifactAI/led_large_16384_arxiv_summarization"
@@ -10,49 +9,42 @@ model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 def extract_first_sentence(text):
-  """
-  Extracts the first sentence from the given text.
-  """
-  sentences = re.split(r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s', text)
-  if sentences:
-    return sentences[0]
-  else:
-    return text
 def summarize_pdf_abstract(pdf_file):
-  """
-  Reads a PDF file, extracts the abstract, summarizes it as the first sentence, and generates audio.
-  """
-  try:
-    reader = PdfReader(pdf_file)
-    abstract_text = ""
-    for page in reader.pages:
-      if "Abstract" in page.extract_text() or "Introduction" in page.extract_text():
-        abstract_text = page.extract_text()
-        break
-    inputs = tokenizer(abstract_text, return_tensors="pt")
-    outputs = model.generate(**inputs)
-    summary = tokenizer.decode(outputs[0])
-    # Extract only the first sentence
-    summary_sentence = extract_first_sentence(summary)
-    # Generate audio
-    speech = gTTS(text=summary_sentence, lang="en")
-    speech_bytes = BytesIO()
-    speech.write_to_fp(speech_bytes)
-    # Return individual output values
-    return summary_sentence, speech_bytes
-  except Exception as e:
-    raise Exception(str(e))
 interface = gr.Interface(
-  fn=summarize_pdf_abstract,
-  inputs=[gr.File(label="Upload PDF")],
-  outputs=[gr.Textbox(label="Summary"), gr.Audio()],
 )
 interface.launch(share=True)

 from PyPDF2 import PdfReader
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 from gtts import gTTS
 import re
 model_name = "ArtifactAI/led_large_16384_arxiv_summarization"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 def extract_first_sentence(text):
+    sentences = re.split(r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s', text)
+    if sentences:
+        return sentences[0]
+    else:
+        return text
 def summarize_pdf_abstract(pdf_file):
+    try:
+        reader = PdfReader(pdf_file)
+        abstract_text = ""
+        for page in reader.pages:
+            if "Abstract" in page.extract_text() or "Introduction" in page.extract_text():
+                abstract_text = page.extract_text()
+                break
+        inputs = tokenizer(abstract_text, return_tensors="pt")
+        outputs = model.generate(**inputs)
+        summary = tokenizer.decode(outputs[0])
+        # Extract only the first sentence
+        summary_sentence = extract_first_sentence(summary)
+        # Generate audio
+        speech = gTTS(text=summary_sentence, lang="en")
+        speech_bytes = speech.save_to_fp(BytesIO())
+        # Return individual output values
+        return summary_sentence, speech_bytes.getvalue()
+    except Exception as e:
+        raise Exception(str(e))
 interface = gr.Interface(
+    fn=summarize_pdf_abstract,
+    inputs=[gr.File(label="Upload PDF")],
+    outputs=[gr.Textbox(label="Summary"), gr.Audio()],
 )
 interface.launch(share=True)