Spaces:

GameScribes
/

Multipurpose-AI-Agent-Development

Starting on T4

devve1 commited on Jul 30

Commit

fa7e026

•

1 Parent(s): 8b56d6b

Update ppt_chunker.py

Files changed (1) hide show

ppt_chunker.py CHANGED Viewed

@@ -20,14 +20,14 @@ from ppt_parser import PptParser
 from nlp import rag_tokenizer, tokenize, is_english
 class Ppt(PptParser):
-    def __call__(self, fnm, from_page, to_page, callback=None):
         txts = super().__call__(fnm, from_page, to_page)
         self.is_english = is_english(txts)
         return txts
 def chunk(filename, binary=None, from_page=0, to_page=100000,
-          lang="English", callback=None, **kwargs):
     """
     The supported file formats are pptx.
     Every page will be treated as a chunk. And the thumbnail of every page will be stored.
@@ -42,7 +42,7 @@ def chunk(filename, binary=None, from_page=0, to_page=100000,
     res = []
     ppt_parser = Ppt()
     for pn, txt in enumerate(
-        ppt_parser(filename if not binary else binary, from_page, 1000000, callback)
     ):
         d = copy.deepcopy(doc)
         pn += from_page

 from nlp import rag_tokenizer, tokenize, is_english
 class Ppt(PptParser):
+    def __call__(self, fnm, from_page, to_page):
         txts = super().__call__(fnm, from_page, to_page)
         self.is_english = is_english(txts)
         return txts
 def chunk(filename, binary=None, from_page=0, to_page=100000,
+          lang="English", **kwargs):
     """
     The supported file formats are pptx.
     Every page will be treated as a chunk. And the thumbnail of every page will be stored.
     res = []
     ppt_parser = Ppt()
     for pn, txt in enumerate(
+        ppt_parser(filename if not binary else binary, from_page, 1000000)
     ):
         d = copy.deepcopy(doc)
         pn += from_page