Redaction_PDF_advanced

Sleeping

edithram23 commited on Jul 8, 2024

Commit

2d304b6

verified ·

1 Parent(s): 7f4bb4c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -182,25 +182,30 @@ if uploaded_file is not None:
             sentences = sentence_tokenize(text)
             for sent in sentences:
               x = mask_generation(sent)
-              t5=[]
-              t5_words = list(set(sent.split("\n")))
-              for i in t5_words:
                   for j in i.split(" "):
-                      t5+=j.split(',')
-              x1 = x.split(' ')
               e=[]
-              for i in x1:
                  e+=i.split(',')
-              t5_words=set(t5).difference(set(e))
               entities,words_out = extract_entities(sent)
-              words_out+=t5_words
               bert_words = words_red_bert(sent)
               new=[]
               for w in words_out:
                 new+=w.split('\n')
               new+=bert_words
               words_out = [i for i in new if len(i)>3]
-              # print(words_out)
               words_out=sorted(words_out, key=len,reverse=True)
               for i in words_out:

             sentences = sentence_tokenize(text)
             for sent in sentences:
               x = mask_generation(sent)
+              sent_n_q_c=[]
+              sent_n = list(set(sent.lower().replace('.',' ').split("\n")))
+              for i in sent_n:
                   for j in i.split(" "):
+                      sent_n_q_c+=j.split(',')
+              x_q = x.lower().replace('.',' ').split(' ')
               e=[]
+              for i in x_q:
                  e+=i.split(',')
+              t5_words=set(sent_n_q_c).difference(set(e))
               entities,words_out = extract_entities(sent)
+              # print("\nwords_out:",words_out)
+              # print("\nT5",t5_words)
+              # print("X:",x,"\nsent:",sent,"\nx_q:",x_q,"\nsent_n:",sent_n,"\ne:",e,"\nsent_n_q_c:",sent_n_q_c,'\nt5_words',t5_words)
               bert_words = words_red_bert(sent)
+              # print("\nbert:",bert_words)
               new=[]
               for w in words_out:
                 new+=w.split('\n')
+              words_out+=t5_words
               new+=bert_words
               words_out = [i for i in new if len(i)>3]
+              # print("\nfinal:",words_out)
               words_out=sorted(words_out, key=len,reverse=True)
               for i in words_out: