Spaces:

GameScribes
/

Multipurpose-AI-Agent-Development

Paused

App Files Files Community

devve1 commited on Jul 29

Commit

b17fe4d

•

1 Parent(s): 61b7734

Update ppt_chunker.py

Browse files

Files changed (1) hide show

ppt_chunker.py +3 -20

ppt_chunker.py CHANGED Viewed

@@ -22,23 +22,8 @@ from nlp import rag_tokenizer, tokenize, is_english
 class Ppt(PptParser):
     def __call__(self, fnm, from_page, to_page, callback=None):
         txts = super().__call__(fnm, from_page, to_page)
-        callback(0.5, "Text extraction finished.")
-        import aspose.slides as slides
-        import aspose.pydrawing as drawing
-        imgs = []
-        with slides.Presentation(BytesIO(fnm)) as presentation:
-            for i, slide in enumerate(presentation.slides[from_page: to_page]):
-                buffered = BytesIO()
-                slide.get_thumbnail(
-                    0.5, 0.5).save(
-                    buffered, drawing.imaging.ImageFormat.jpeg)
-                imgs.append(Image.open(buffered))
-        assert len(imgs) == len(
-            txts), "Slides text and image do not match: {} vs. {}".format(len(imgs), len(txts))
-        callback(0.9, "Image extraction finished")
         self.is_english = is_english(txts)
-        return [(txts[i], imgs[i]) for i in range(len(txts))]
 def chunk(filename, binary=None, from_page=0, to_page=100000,
@@ -56,18 +41,16 @@ def chunk(filename, binary=None, from_page=0, to_page=100000,
     doc["title_sm_tks"] = rag_tokenizer.fine_grained_tokenize(doc["title_tks"])
     res = []
     ppt_parser = Ppt()
-    for pn, (txt, img) in enumerate(
         ppt_parser(filename if not binary else binary, from_page, 1000000, callback)
     ):
         d = copy.deepcopy(doc)
         pn += from_page
-        d["image"] = img
         d["page_num_int"] = [pn + 1]
         d["top_int"] = [0]
-        d["position_int"] = [(pn + 1, 0, img.size[0], 0, img.size[1])]
         tokenize(d, txt, eng)
         res.append(d)
     return res
     raise NotImplementedError(
-        "file type not supported yet(pptx, pdf supported)")

 class Ppt(PptParser):
     def __call__(self, fnm, from_page, to_page, callback=None):
         txts = super().__call__(fnm, from_page, to_page)
         self.is_english = is_english(txts)
+        return txts
 def chunk(filename, binary=None, from_page=0, to_page=100000,
     doc["title_sm_tks"] = rag_tokenizer.fine_grained_tokenize(doc["title_tks"])
     res = []
     ppt_parser = Ppt()
+    for pn, txt in enumerate(
         ppt_parser(filename if not binary else binary, from_page, 1000000, callback)
     ):
         d = copy.deepcopy(doc)
         pn += from_page
         d["page_num_int"] = [pn + 1]
         d["top_int"] = [0]
         tokenize(d, txt, eng)
         res.append(d)
     return res
     raise NotImplementedError(
+        "file type not supported yet(pptx)")