Spaces:

cb1716pics
/

23RAG7

Sleeping

cb1716pics commited on Feb 22

Commit

454c8e8

verified ·

1 Parent(s): 2d788f8

Upload 2 files

Files changed (1) hide show

evaluation.py CHANGED Viewed

@@ -89,7 +89,9 @@ def adherence(response, relevant_documents):
 # Step 6: Compute RMSE for metrics
 def compute_rmse(predicted_values, ground_truth_values):
-    return np.sqrt(mean_squared_error(ground_truth_values, predicted_values))
 def calculate_metrics(question, q_dataset, response, docs, time_taken):
     data = load_query_dataset(q_dataset)
@@ -131,7 +133,7 @@ def retrieve_ground_truths(question, dataset):
                     "context_relevance": instance['relevance_score'],
                     "context_utilization": instance['utilization_score'],
                     "completeness": instance['completeness_score'],
-                    "adherence": 0.75 if instance['adherence_score'] is True else 0.25
                 }
                 print(f"Match found in {split_name} split!")
                 print(f"ID: {instance_id}, Response: {ground_truth}")

 # Step 6: Compute RMSE for metrics
 def compute_rmse(predicted_values, ground_truth_values):
+    predicted_ = [float(v) for v in predicted_values.values()]
+    ground_truth_ = [float(v) if isinstance(v, (int, float)) else 0.75 if v is True else 0.25 for v in ground_truth_values.values()]
+    return np.sqrt(mean_squared_error(ground_truth_, predicted_))
 def calculate_metrics(question, q_dataset, response, docs, time_taken):
     data = load_query_dataset(q_dataset)
                     "context_relevance": instance['relevance_score'],
                     "context_utilization": instance['utilization_score'],
                     "completeness": instance['completeness_score'],
+                    "adherence": instance['adherence_score']
                 }
                 print(f"Match found in {split_name} split!")
                 print(f"ID: {instance_id}, Response: {ground_truth}")