Spaces:

cb1716pics
/

23RAG7

Sleeping

App Files Files Community

cb1716pics commited on Feb 22

Commit

75c991a

verified ·

1 Parent(s): 26ec43e

Upload 2 files

Browse files

Files changed (2) hide show

app.py +1 -1
evaluation.py +1 -36

app.py CHANGED Viewed

@@ -49,7 +49,7 @@ if st.session_state.recent_questions:
     # Display Recent Questions
     st.sidebar.title("Overall RMSE")
     rmse_values = [q["metrics"]["RMSE"] for q in recent_qns if "metrics" in q and "RMSE" in q["metrics"]]
-    if any(rmse_values):
         average_rmse = sum(rmse_values) / len(rmse_values) if rmse_values else 0
         st.sidebar.write(f"📊 **Average RMSE:** {average_rmse:.4f} for {len(rmse_values)} questions")

     # Display Recent Questions
     st.sidebar.title("Overall RMSE")
     rmse_values = [q["metrics"]["RMSE"] for q in recent_qns if "metrics" in q and "RMSE" in q["metrics"]]
+    if any(rmse_values) and len(rmse_values) > 0:
         average_rmse = sum(rmse_values) / len(rmse_values) if rmse_values else 0
         st.sidebar.write(f"📊 **Average RMSE:** {average_rmse:.4f} for {len(rmse_values)} questions")

evaluation.py CHANGED Viewed

@@ -11,41 +11,6 @@ global ground_truth_answer, ground_truth_metrics
 ground_truth_answer = ''
 ground_truth_metrics = {}
-# def calculate_metrics(question, response, docs, time_taken):
-#     data =  load_ragbench()
-#     retrieve_ground_truths(question, data)
-#     # Predicted metrics
-#     predicted_metrics = {
-#         "ground_truth": ground_truth_answer,
-#         "context_relevance": context_relevance(question, docs),
-#         "context_utilization": context_utilization(response, docs),
-#         "completeness": completeness(response, ground_truth_answer),
-#         "adherence": adherence(response, docs),
-#         "response_time" : time_taken
-#     }
-#     return predicted_metrics
-# def retrieve_ground_truths(question,ragbench_set):
-#     for dataset_name in ragbench_set.keys():
-#         for split_name,instances in ragbench_set[dataset_name].items(): # Fixed: Removed extra '.' and corrected indentation
-#             print(f"Processing {split_name} split")
-#             for instance in instances: # Fixed: Corrected indentation
-#                 # Check if the question (data) matches the query
-#                 if instance['question'] == question:
-#                     # If a match is found, retrieve id and response
-#                     instance_id = instance['id']
-#                     instance_response = instance['response']
-#                     ground_truth_metrics = {
-#                         "context_relevance": instance['relevance_score'],
-#                         "context_utilization": instance['utilization_score'],
-#                         "completeness": instance['completeness_score'],
-#                         "adherence": instance['adherence_score']
-#                     }
-#                     ground_truth_answer = instance_response
-#                     print(f"Match found in {split_name} split!")
-#                     print(f"ID: {instance_id}, Response: {instance_response}")
-#                     break  # Exit after finding the first match (optional)
 # Step 1: Helper function to compute cosine similarity
 def compute_cosine_similarity(text1, text2):
     if not text1 or not text2:  # Check for empty or None values
@@ -109,7 +74,7 @@ def calculate_metrics(question, q_dataset, response, docs, time_taken):
         "adherence": adherence(response, docs),
     }
-    rmse = compute_rmse(predicted_metrics, ground_truth_metrics),
     metrics = {
         "RMSE": rmse,

 ground_truth_answer = ''
 ground_truth_metrics = {}
 # Step 1: Helper function to compute cosine similarity
 def compute_cosine_similarity(text1, text2):
     if not text1 or not text2:  # Check for empty or None values
         "adherence": adherence(response, docs),
     }
+    rmse = compute_rmse(predicted_metrics, ground_truth_metrics)
     metrics = {
         "RMSE": rmse,