Spaces:

GameScribes
/

Multipurpose-AI-Agent-Development

Starting on T4

devve1 commited on Jul 30

Commit

43fb5f8

•

1 Parent(s): 3de1057

Update ppt_chunker.py

Files changed (1) hide show

ppt_chunker.py CHANGED Viewed

@@ -19,6 +19,9 @@ from PIL import Image
 from ppt_parser import RAGFlowPptParser
 from nlp import rag_tokenizer, tokenize, is_english
 def ppt_chunk(filename, binary=None, from_page=0, to_page=100000,
           lang="English", **kwargs):
     """
@@ -33,6 +36,7 @@ def ppt_chunk(filename, binary=None, from_page=0, to_page=100000,
     }
     doc["title_sm_tks"] = rag_tokenizer.fine_grained_tokenize(doc["title_tks"])
     res = []
     ppt = Presentation(filename if not binary else BytesIO(binary))
     total_pages = len(ppt.slides)
@@ -50,7 +54,7 @@ def ppt_chunk(filename, binary=None, from_page=0, to_page=100000,
         d["page_num_int"] = [pn + 1]
         d["top_int"] = [0]
         tokenize(d, slide_text, eng)
-        res.append(d)
     return res
     raise NotImplementedError(

 from ppt_parser import RAGFlowPptParser
 from nlp import rag_tokenizer, tokenize, is_english
+from pptx import Presentation
+from collections import defaultdict
 def ppt_chunk(filename, binary=None, from_page=0, to_page=100000,
           lang="English", **kwargs):
     """
     }
     doc["title_sm_tks"] = rag_tokenizer.fine_grained_tokenize(doc["title_tks"])
     res = []
+    metadatas = []
     ppt = Presentation(filename if not binary else BytesIO(binary))
     total_pages = len(ppt.slides)
         d["page_num_int"] = [pn + 1]
         d["top_int"] = [0]
         tokenize(d, slide_text, eng)
+        res[metadata_main_title].add(d)
     return res
     raise NotImplementedError(