Spaces:

AhmedTaha012
/

Finance

Build error

App Files Files Community

AhmedTaha012 commited on Aug 30, 2023

Commit

c36b36a

1 Parent(s): f4946a4

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -4

app.py CHANGED Viewed

@@ -8,14 +8,20 @@ from nltk.corpus import stopwords
 import spacy
 from spacy import displacy
 from word2number import w2n
 nltk.download('punkt')
 nltk.download('stopwords')
 sentiment_model = pipeline("text-classification", model="AhmedTaha012/managersFeedback-V1.0.7")
 increase_decrease_model = pipeline("text-classification", model="AhmedTaha012/nextQuarter-status-V1.1.9")
 tokenizer = AutoTokenizer.from_pretrained("AhmedTaha012/finance-ner-v0.0.9-finetuned-ner")
 model = AutoModelForTokenClassification.from_pretrained("AhmedTaha012/finance-ner-v0.0.9-finetuned-ner")
 # torch.compile(model)
 nlpPipe = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
 def getSpeakers(data):
@@ -183,12 +189,46 @@ def convert_amount_to_number(amount_str):
         return w2n.word_to_num(amount_str)
     except ValueError:
         return 0  # Return 0 if the conversion fails
 st.header("Transcript Analysis", divider='rainbow')
-transcript = st.text_area("Enter the transcript:", height=100)
 if st.button("Analyze"):
-    transcript=replace_abbreviations(transcript)
     transcript=replace_abbreviations(transcript)
     transcript=removeSpeakers(transcript)
     transcript=removeQA(transcript)

 import spacy
 from spacy import displacy
 from word2number import w2n
+from sentence_transformers import SentenceTransformer
+from sklearn.metrics.pairwise import cosine_similarity
 nltk.download('punkt')
 nltk.download('stopwords')
+similarityModel = SentenceTransformer('BAAI/bge-small-en')
 sentiment_model = pipeline("text-classification", model="AhmedTaha012/managersFeedback-V1.0.7")
 increase_decrease_model = pipeline("text-classification", model="AhmedTaha012/nextQuarter-status-V1.1.9")
+tokenizerTopic = AutoTokenizer.from_pretrained("nickmuchi/finbert-tone-finetuned-finance-topic-classification",use_fast=True)
+modelTopic = AutoModelForSequenceClassification.from_pretrained("nickmuchi/finbert-tone-finetuned-finance-topic-classification")
+torch.compile(modelTopic)
 tokenizer = AutoTokenizer.from_pretrained("AhmedTaha012/finance-ner-v0.0.9-finetuned-ner")
 model = AutoModelForTokenClassification.from_pretrained("AhmedTaha012/finance-ner-v0.0.9-finetuned-ner")
+torch.compile(model)
 # torch.compile(model)
 nlpPipe = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
 def getSpeakers(data):
         return w2n.word_to_num(amount_str)
     except ValueError:
         return 0  # Return 0 if the conversion fails
+def getTopic(encoded_input):
+    modelTopic.to("cuda")
+    with torch.no_grad():
+        logits = modelTopic(**encoded_input).logits
+    predicted_class_id = logits.argmax().item()
+    return modelTopic.config.id2label[predicted_class_id]
+def selectedCorpusForNextQuarterModel(x,quarter):
+    number_word_dict = {
+    "1": "first",
+    "2": "second",
+    "3": "third",
+    "4": "fourth",
+    # Add more entries as needed
+    }
+    tokens=tokenizerTopic(x, padding=True, truncation=True, return_tensors='pt')
+    splitSize=256
+    chunksInput_ids=[tokens["input_ids"][r*splitSize:(r+1)*splitSize] for r in range(math.ceil(len(tokens["input_ids"])/splitSize))]
+    chunksToken_type_ids=[tokens["token_type_ids"][r*splitSize:(r+1)*splitSize] for r in range(math.ceil(len(tokens["token_type_ids"])/splitSize))]
+    chunksAttention_mask=[tokens["attention_mask"][r*splitSize:(r+1)*splitSize] for r in range(math.ceil(len(tokens["attention_mask"])/splitSize))]
+    l=[]
+    for idx in range(len(chunksInput_ids)):
+        l.append({"input_ids":torch.tensor([list(x[idx])]).to("cuda"),
+         "token_type_ids":torch.tensor([list(y[idx])]).to("cuda"),
+          "attention_mask":torch.tensor([list(z[idx])]).to("cuda")
+        })
+    selectedTopics = ["Stock Movement", "Earnings", "IPO", "Stock Commentary", "Currencies", "M&A | Investments", "Financials", "Macro", "Analyst Update", "Company | Product News"]
+    result = [tokenizerTopic.decode(x["input_ids"][0], skip_special_tokens=True) for x in l if getTopic(x) in selectedTopics]
+    result=[x for x in result if len(x)>10]
+    des=f"the {number_word_dict[str(quarter)]} quarter results of the {usedData['quad-date'].iloc[i]}"
+    courpus=result.split("\n")
+    embeddings_1 = similarityModel.encode([des]+courpus, normalize_embeddings=True,device='cuda',show_progress_bar=False)
+    sents=[des]+courpus
+    rest=[sents[f] for f in [list(cosine_similarity(embeddings_1)[0][1:]).index(value)+1 for value in sorted(list(cosine_similarity(embeddings_1)[0][1:]),reverse=True)][:3]]
+    return selectedCourpusForTraing.append(",".join(rest))
 st.header("Transcript Analysis", divider='rainbow')
+mainTranscript = st.text_area("Enter the transcript:", height=100)
+quarter = st.text_input('Enter your quarter', 'quarter of transcript')
 if st.button("Analyze"):
+    transcript=replace_abbreviations(mainTranscript)
     transcript=replace_abbreviations(transcript)
     transcript=removeSpeakers(transcript)
     transcript=removeQA(transcript)