Spaces:

Berbex
/

FinalProject

Runtime error

Berbex commited on Dec 9, 2022

Commit

9429d1c

1 Parent(s): db6e115

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,13 +6,41 @@ console = Console()
 dataset = load_dataset("zeroshot/twitter-financial-news-sentiment", )
-console.log( dataset['train'][:10] )
 from transformers import AutoModelForSequenceClassification, AutoTokenizer
 model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
 tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
 def sentiment_score(review):
   tokens = tokenizer.encode(review, return_tensors='pt')
   result = model(tokens)

 dataset = load_dataset("zeroshot/twitter-financial-news-sentiment", )
 from transformers import AutoModelForSequenceClassification, AutoTokenizer
 model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
 tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
+labels = [label for label in dataset['train'].features.keys() if label not in ['text']]
+console.log( labels )
+def preprocess_data(examples):
+  # take a batch of texts
+  text = examples["text"]
+  # encode them
+  encoding = tokenizer(text, padding="max_length", truncation=True, max_length=128)
+  # add labels
+  labels_batch = {k: examples[k] for k in examples.keys() if k in labels}
+  # create numpy array of shape (batch_size, num_labels)
+  labels_matrix = np.zeros((len(text), len(labels)))
+  # fill numpy array
+  for idx, label in enumerate(labels):
+    labels_matrix[:, idx] = labels_batch[label]
+  encoding["labels"] = labels_matrix.tolist()
+  return encoding
 def sentiment_score(review):
   tokens = tokenizer.encode(review, return_tensors='pt')
   result = model(tokens)