Spaces:

Yhhxhfh
/

Ghgg

Build error

App Files Files Community

Yhhxhfh commited on 1 day ago

Commit

9a485d3

•

1 Parent(s): 2890033

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -40

app.py CHANGED Viewed

@@ -3,19 +3,14 @@ import json
 import numpy as np
 import tensorflow as tf
 from google.cloud import storage
-from keras_nlp.models import BERT
-from keras_nlp.tokenizers import BertTokenizer
-from keras_nlp.callbacks import EarlyStopping
 from sklearn.model_selection import train_test_split
 from dotenv import load_dotenv
-from tqdm import tqdm
-import io
 import random
 import nltk
 from nltk.corpus import wordnet
-from nltk import pos_tag
-from nltk.tokenize import word_tokenize, sent_tokenize
-from nltk.corpus import brown, stopwords, reuters, genesis
 nltk.download('punkt')
 nltk.download('wordnet')
@@ -211,35 +206,46 @@ intents = list(set(expanded_intents))[:100000]
 labels = [1] * len(intents)
-while True:
-    X_train, X_val, y_train, y_val = train_test_split(intents, labels, test_size=0.2, random_state=42)
-    tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
-    train_encodings = tokenizer(X_train, truncation=True, padding=True)
-    val_encodings = tokenizer(X_val, truncation=True, padding=True)
-    model = BERT.from_pretrained('bert-base-uncased')
-    model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
-    early_stopping = EarlyStopping(monitor='val_loss', patience=3)
-    history = model.fit(train_encodings, y_train, validation_data=(val_encodings, y_val), epochs=10, callbacks=[early_stopping])
-    accuracy = history.history['accuracy'][-1]
-    print(f"Accuracy: {accuracy}")
-    intents_json = json.dumps(intents, ensure_ascii=False)
-    intents_file_path = 'intents.json'
-    model_file_path = 'model.h5'
-    bucket = storage_client.bucket(bucket_name)
-    intents_blob = bucket.blob(intents_file_path)
-    model_blob = bucket.blob(model_file_path)
-    if not intents_blob.exists():
-        intents_blob.upload_from_string(intents_json, content_type='application/json')
-        print(f"Intents uploaded to {intents_file_path} in bucket {bucket_name}.")
-    if not model_blob.exists():
-        model.save(model_file_path)
-        model_blob.upload_from_filename(model_file_path)
-        print(f"Model uploaded to {model_file_path} in bucket {bucket_name}.")

 import numpy as np
 import tensorflow as tf
 from google.cloud import storage
+from tensorflow import keras
+from transformers import TFBertModel, BertTokenizerFast
+from keras.callbacks import EarlyStopping
 from sklearn.model_selection import train_test_split
 from dotenv import load_dotenv
 import random
 import nltk
 from nltk.corpus import wordnet
 nltk.download('punkt')
 nltk.download('wordnet')
 labels = [1] * len(intents)
+X_train, X_val, y_train, y_val = train_test_split(intents, labels, test_size=0.2, random_state=42)
+tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')
+train_encodings = tokenizer(X_train, truncation=True, padding=True, return_tensors="tf")
+val_encodings = tokenizer(X_val, truncation=True, padding=True, return_tensors="tf")
+bert_model = TFBertModel.from_pretrained('bert-base-uncased')
+input_ids = keras.layers.Input(shape=(None,), dtype=tf.int32, name="input_ids")
+attention_mask = keras.layers.Input(shape=(None,), dtype=tf.int32, name="attention_mask")
+bert_output = bert_model([input_ids, attention_mask])[1]
+dropout = keras.layers.Dropout(0.1)(bert_output)
+output = keras.layers.Dense(1, activation='sigmoid')(dropout)
+model = keras.Model(inputs=[input_ids, attention_mask], outputs=output)
+model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
+early_stopping = EarlyStopping(monitor='val_loss', patience=3, restore_best_weights=True)
+history = model.fit(x=train_encodings, y=np.array(y_train), validation_data=(val_encodings, np.array(y_val)), epochs=10, batch_size=16, callbacks=[early_stopping])
+accuracy = history.history['accuracy'][-1]
+print(f"Accuracy: {accuracy}")
+intents_json = json.dumps(intents, ensure_ascii=False)
+intents_file_path = 'intents.json'
+model_file_path = 'model.h5'
+bucket = storage_client.bucket(bucket_name)
+intents_blob = bucket.blob(intents_file_path)
+model_blob = bucket.blob(model_file_path)
+if not intents_blob.exists():
+    intents_blob.upload_from_string(intents_json, content_type='application/json')
+    print(f"Intents uploaded to {intents_file_path} in bucket {bucket_name}.")
+model.save(model_file_path)
+model_blob.upload_from_filename(model_file_path)
+print(f"Model uploaded to {model_file_path} in bucket {bucket_name}.")
+os.remove(model_file_path)