Spaces:

AvocadoMuffin
/

eval_model

Running

App Files Files Community

AvocadoMuffin commited on 18 days ago

Commit

a1ce4b0

verified ·

1 Parent(s): 0f03dd5

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -10

app.py CHANGED Viewed

@@ -84,7 +84,7 @@ def run_evaluation(num_samples, progress=gr.Progress()):
     # Load model
     qa_pipeline, hf_token = evaluate_model()
     if qa_pipeline is None:
-        return "❌ Failed to load model", "", ""
     progress(0.1, desc="Loading CUAD dataset...")
@@ -97,7 +97,7 @@ def run_evaluation(num_samples, progress=gr.Progress()):
             dataset = load_dataset("theatticusproject/cuad", trust_remote_code=True, token=hf_token)
             test_data = dataset["test"]
         except Exception as e2:
-            return f"❌ Error loading dataset: {e2}", "", ""
     # Limit samples
     num_samples = min(num_samples, len(test_data))
@@ -147,11 +147,15 @@ def run_evaluation(num_samples, progress=gr.Progress()):
             })
         except Exception as e:
             continue
     progress(0.9, desc="Calculating final metrics...")
     # Calculate final metrics
     avg_exact_match = np.mean(exact_matches) * 100
     avg_f1_score = np.mean(f1_scores) * 100
@@ -178,7 +182,7 @@ def run_evaluation(num_samples, progress=gr.Progress()):
     # Create detailed results DataFrame
     df = pd.DataFrame(predictions)
-    # Save results
     timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
     results_file = f"cuad_evaluation_results_{timestamp}.json"
@@ -192,8 +196,13 @@ def run_evaluation(num_samples, progress=gr.Progress()):
         "predictions": predictions
     }
-    with open(results_file, "w") as f:
-        json.dump(detailed_results, f, indent=2)
     progress(1.0, desc="✅ Evaluation completed!")
@@ -256,7 +265,6 @@ def create_gradio_interface():
         with gr.Row():
             detailed_results = gr.Dataframe(
-                headers=["Sample_ID", "Question", "Predicted_Answer", "Ground_Truth", "Exact_Match", "F1_Score", "Confidence"],
                 label="Sample-by-Sample Results",
                 interactive=False,
                 wrap=True
@@ -269,14 +277,18 @@ def create_gradio_interface():
             )
         # Event handlers
         evaluate_btn.click(
-            fn=run_evaluation,
             inputs=[num_samples],
             outputs=[results_summary, detailed_results, download_file],
             show_progress=True
-        ).then(
-            lambda: gr.update(visible=True),
-            outputs=[download_file]
         )
         # Footer

     # Load model
     qa_pipeline, hf_token = evaluate_model()
     if qa_pipeline is None:
+        return "❌ Failed to load model", pd.DataFrame(), None
     progress(0.1, desc="Loading CUAD dataset...")
             dataset = load_dataset("theatticusproject/cuad", trust_remote_code=True, token=hf_token)
             test_data = dataset["test"]
         except Exception as e2:
+            return f"❌ Error loading dataset: {e2}", pd.DataFrame(), None
     # Limit samples
     num_samples = min(num_samples, len(test_data))
             })
         except Exception as e:
+            print(f"Error processing sample {i}: {e}")
             continue
     progress(0.9, desc="Calculating final metrics...")
     # Calculate final metrics
+    if len(exact_matches) == 0:
+        return "❌ No samples were successfully processed", pd.DataFrame(), None
     avg_exact_match = np.mean(exact_matches) * 100
     avg_f1_score = np.mean(f1_scores) * 100
     # Create detailed results DataFrame
     df = pd.DataFrame(predictions)
+    # Save results to file
     timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
     results_file = f"cuad_evaluation_results_{timestamp}.json"
         "predictions": predictions
     }
+    try:
+        with open(results_file, "w") as f:
+            json.dump(detailed_results, f, indent=2)
+        print(f"✓ Results saved to {results_file}")
+    except Exception as e:
+        print(f"⚠ Warning: Could not save results file: {e}")
+        results_file = None
     progress(1.0, desc="✅ Evaluation completed!")
         with gr.Row():
             detailed_results = gr.Dataframe(
                 label="Sample-by-Sample Results",
                 interactive=False,
                 wrap=True
             )
         # Event handlers
+        def handle_evaluation(num_samples):
+            summary, df, file_path = run_evaluation(num_samples)
+            if file_path and os.path.exists(file_path):
+                return summary, df, gr.update(visible=True, value=file_path)
+            else:
+                return summary, df, gr.update(visible=False)
         evaluate_btn.click(
+            fn=handle_evaluation,
             inputs=[num_samples],
             outputs=[results_summary, detailed_results, download_file],
             show_progress=True
         )
         # Footer