Spaces:

CabraVC
/

holiday_testing

Paused

App Files Files Community

svystun-taras commited on Dec 18, 2023

Commit

501f2e5

1 Parent(s): 0fdb130

tested the model on all dataset

Browse files

Files changed (6) hide show

app.py +0 -60
test_models/create_setfit_model.py +2 -2
test_models/models/linear_head.pth +1 -1
test_models/models/linear_head.safetensors +1 -1
test_models/test_model.py +4 -3
test_models/train_head.py +3 -3

app.py CHANGED Viewed

@@ -12,54 +12,6 @@ def read_and_split_file(filename, chunk_size=1200, chunk_overlap=200):
     return texts
-def get_label_prediction(selected_predictor, texts):
-    predicted_labels = []
-    replies = []
-    emdedding_model_name = predictors[selected_predictor]['embedding_model']
-    emdedding_model = SentenceTransformer(emdedding_model_name)
-    texts_str = [text.page_content for text in texts]
-    embeddings = emdedding_model.encode(texts_str, show_progress_bar=True).tolist()
-    # dataset = load_dataset(predictors[selected_predictor]['dataset_name'])
-    label_encoder = LabelEncoder()
-    encoded_labels = label_encoder.fit_transform([label.upper() for label in labels])
-    input_size = predictors[selected_predictor]['embedding_dim']
-    hidden_size = 256
-    output_size = len(label_encoder.classes_)
-    dropout_rate = 0.5
-    batch_size = 8
-    model = MLP(input_size, hidden_size, output_size, dropout_rate)
-    load_model(model, predictors[selected_predictor]['mlp_model'])
-    embeddings_tensor = torch.tensor(embeddings)
-    data = TensorDataset(embeddings_tensor)
-    dataloader = DataLoader(data, batch_size=batch_size, shuffle=True)
-    with torch.no_grad():
-        model.eval()
-        for inputs in dataloader:
-            # st.write(inputs[0])
-            outputs = model(inputs[0])
-            # _, predicted = torch.max(outputs, 1)
-            probabilities = F.softmax(outputs, dim=1)
-            predicted_indices = torch.argmax(probabilities, dim=1).tolist()
-            predicted_labels_list = label_encoder.inverse_transform(predicted_indices)
-            for pred_label in predicted_labels_list:
-                predicted_labels.append(pred_label)
-                # st.write(pred_label)
-    predicted_labels_counter = Counter(predicted_labels)
-    predicted_label = predicted_labels_counter.most_common(1)[0][0]
-    return predicted_label
@@ -68,20 +20,8 @@ def get_label_prediction(selected_predictor, texts):
 if __name__ == '__main__':
     # Comments and ideas to implement:
     # 1. Try sending list of inputs to the Inference API.
-    from config import (
-        labels, headers_inference_api, headers_inference_endpoint,
-        # summarization_prompt_template,
-        prompt_template,
-        # task_explain_for_predictor_model,
-        summarizers, predictors, summary_scores_template,
-        summarization_system_msg, summarization_user_prompt, prediction_user_prompt, prediction_system_msg,
-        # prediction_prompt,
-        chat_prompt, instruction_prompt
-    )
     import streamlit as st
     from sys import exit
     from pprint import pprint

     return texts
 if __name__ == '__main__':
     # Comments and ideas to implement:
     # 1. Try sending list of inputs to the Inference API.
     import streamlit as st
     from sys import exit
     from pprint import pprint

test_models/create_setfit_model.py CHANGED Viewed

@@ -47,10 +47,10 @@ model_head = MLP(class_weights=class_weights)
 if __name__ == '__main__' or __name__ == 'create_setfit_model':
     model_body = SentenceTransformer('financial-roberta')
-    load_model(model_head, f'models/linear_head.pth')
 elif __name__ == 'test_models.create_setfit_model':
     model_body = SentenceTransformer('test_models/financial-roberta')
-    load_model(model_head, f'/test_models/models/linear_head.pth')
 model = SetFitModel(model_body=model_body,

 if __name__ == '__main__' or __name__ == 'create_setfit_model':
     model_body = SentenceTransformer('financial-roberta')
+    load_model(model_head, f'models/linear_head.safetensors')
 elif __name__ == 'test_models.create_setfit_model':
     model_body = SentenceTransformer('test_models/financial-roberta')
+    load_model(model_head, f'/test_models/models/linear_head.safetensors')
 model = SetFitModel(model_body=model_body,

test_models/models/linear_head.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:044d8088a361e6cfc9b0ff61bf9cff2101d0222db35a844bf715ba541a88f412
 size 10800

 version https://git-lfs.github.com/spec/v1
+oid sha256:908720c6263171369062dcc107a2c1003e8ae14914e49f748eb5b48b5112a541
 size 10800

test_models/models/linear_head.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe066efac931c13eb1fb42b4b8c9ea8a4ec0efefc716b7fa78a4530252d451bf
 size 9380

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca4c505b1c00d424f85e5e60fd9268ce56eb517b2dfd59d0cf1e715d664adbb2
 size 9380

test_models/test_model.py CHANGED Viewed

@@ -22,9 +22,10 @@ labels_dir = dataset_dir + '/csvs/'
 df = get_labels_df(labels_dir)
 texts_dir = dataset_dir + '/txts/'
 texts = get_texts(texts_dir)
-df = df.iloc[[0, 13, 113], :]
-print(df.loc[:, 'Label'])
-texts = [texts[0]] + [texts[13]] + [texts[113]]
 print(len(df), len(texts))
 print(mean(list(map(len, texts))))

 df = get_labels_df(labels_dir)
 texts_dir = dataset_dir + '/txts/'
 texts = get_texts(texts_dir)
+# df = df.iloc[:20, :]
+# print(df.loc[:, 'Label'])
+# texts = [texts[0]] + [texts[13]] + [texts[113]]
+# texts = texts[:20]
 print(len(df), len(texts))
 print(mean(list(map(len, texts))))

test_models/train_head.py CHANGED Viewed

@@ -83,7 +83,7 @@ if __name__ == '__main__':
     class_weights = torch.tensor(compute_class_weight('balanced', classes=[0, 1, 2], y=dataset['train']['labels']), dtype=torch.float) ** .5
-    model = MLP(input_size=input_size, dropout_rate=.2, class_weights=class_weights)
     criterion = model.get_loss_fn()
@@ -114,13 +114,13 @@ if __name__ == '__main__':
     test_data = TensorDataset(torch.tensor(dataset['test']['embeddings']), torch.tensor(dataset['test']['labels']))
     test_loader = DataLoader(test_data, batch_size=batch_size, shuffle=True)
-    loss, accuracy = eval_model(model, criterion, test_loader, test_data, show=True
                                 # save_as_filename=f'plots/confusion_matrix_{datetime.now().strftime("%Y-%m-%d_%H-%M")}.png'
                                 )
     # torch.save(model.state_dict(), f'models/linear_head.pth')
     # save_model(model, f'models/linear_head.safetensors')
-    # load_model(model, f'models/head_{datetime.now().strftime("%Y-%m-%d_%H-%M")}.safetensors')
     # print(model)
     # dataset.push_to_hub(f'CabraVC/vector_dataset_stratified_ttv_split_{datetime.now().strftime("%Y-%m-%d_%H-%M")}', private=True)

     class_weights = torch.tensor(compute_class_weight('balanced', classes=[0, 1, 2], y=dataset['train']['labels']), dtype=torch.float) ** .5
+    model = MLP(input_size=input_size, class_weights=class_weights)
     criterion = model.get_loss_fn()
     test_data = TensorDataset(torch.tensor(dataset['test']['embeddings']), torch.tensor(dataset['test']['labels']))
     test_loader = DataLoader(test_data, batch_size=batch_size, shuffle=True)
+    loss, accuracy = eval_model(model, criterion, test_loader, test_data, show=False
                                 # save_as_filename=f'plots/confusion_matrix_{datetime.now().strftime("%Y-%m-%d_%H-%M")}.png'
                                 )
     # torch.save(model.state_dict(), f'models/linear_head.pth')
     # save_model(model, f'models/linear_head.safetensors')
+    # load_model(model, f'models/linear_head.safetensors')
     # print(model)
     # dataset.push_to_hub(f'CabraVC/vector_dataset_stratified_ttv_split_{datetime.now().strftime("%Y-%m-%d_%H-%M")}', private=True)