Spaces:

Omartificial-Intelligence-Space
/

Arabic-Reranking-Eval

Running

App Files Files Community

Omartificial-Intelligence-Space commited on Nov 20, 2024

Commit

5de31b9

verified ·

1 Parent(s): 5935473

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -6

app.py CHANGED Viewed

@@ -59,13 +59,21 @@ def evaluate_model_with_insights(model_name):
     for dataset_name, dataset in datasets.items():
         all_mrr, all_map, all_ndcg = [], [], []
         dataset_samples = []
         if 'candidate_document' in dataset.column_names:
             grouped_data = dataset.to_pandas().groupby("query")
             for query, group in grouped_data:
-                candidate_texts = group['candidate_document'].tolist()
                 relevance_labels = group['relevance_label'].tolist()
-                pairs = [(query, doc) for doc in candidate_texts]
                 scores = model.predict(pairs)
                 # Collecting top-5 results for display
@@ -83,8 +91,21 @@ def evaluate_model_with_insights(model_name):
         else:
             for entry in dataset:
                 query = entry['query']
-                candidate_texts = [entry['positive'], entry['negative1'], entry['negative2'], entry['negative3'], entry['negative4']]
-                relevance_labels = [1, 0, 0, 0, 0]
                 pairs = [(query, doc) for doc in candidate_texts]
                 scores = model.predict(pairs)
@@ -100,6 +121,27 @@ def evaluate_model_with_insights(model_name):
                 all_mrr.append(mean_reciprocal_rank(relevance_labels, scores))
                 all_map.append(mean_average_precision(relevance_labels, scores))
                 all_ndcg.append(ndcg_at_k(relevance_labels, scores, k=10))
         # Metrics for this dataset
         results.append({
@@ -155,4 +197,4 @@ interface = gr.Interface(
     )
 )
-interface.launch(debug=True)

     for dataset_name, dataset in datasets.items():
         all_mrr, all_map, all_ndcg = [], [], []
         dataset_samples = []
         if 'candidate_document' in dataset.column_names:
             grouped_data = dataset.to_pandas().groupby("query")
             for query, group in grouped_data:
+                # Skip invalid queries
+                if query is None or not isinstance(query, str) or query.strip() == "":
+                    continue
+                candidate_texts = group['candidate_document'].dropna().tolist()
                 relevance_labels = group['relevance_label'].tolist()
+                # Skip if no valid candidate documents
+                if not candidate_texts or len(candidate_texts) != len(relevance_labels):
+                    continue
+                pairs = [(query, doc) for doc in candidate_texts if doc is not None and isinstance(doc, str) and doc.strip() != ""]
                 scores = model.predict(pairs)
                 # Collecting top-5 results for display
         else:
             for entry in dataset:
                 query = entry['query']
+                # Validate query and documents
+                if query is None or not isinstance(query, str) or query.strip() == "":
+                    continue
+                candidate_texts = [
+                    doc for doc in [entry.get('positive'), entry.get('negative1'), entry.get('negative2'), entry.get('negative3'), entry.get('negative4')]
+                    if doc is not None and isinstance(doc, str) and doc.strip() != ""
+                ]
+                relevance_labels = [1] + [0] * (len(candidate_texts) - 1)
+                # Skip if no valid candidate documents
+                if not candidate_texts or len(candidate_texts) != len(relevance_labels):
+                    continue
                 pairs = [(query, doc) for doc in candidate_texts]
                 scores = model.predict(pairs)
                 all_mrr.append(mean_reciprocal_rank(relevance_labels, scores))
                 all_map.append(mean_average_precision(relevance_labels, scores))
                 all_ndcg.append(ndcg_at_k(relevance_labels, scores, k=10))
+            else:
+                for entry in dataset:
+                    query = entry['query']
+                    candidate_texts = [entry['positive'], entry['negative1'], entry['negative2'], entry['negative3'], entry['negative4']]
+                    relevance_labels = [1, 0, 0, 0, 0]
+                    pairs = [(query, doc) for doc in candidate_texts]
+                    scores = model.predict(pairs)
+                    # Collecting top-5 results for display
+                    sorted_indices = np.argsort(scores)[::-1]
+                    top_docs = [(candidate_texts[i], scores[i], relevance_labels[i]) for i in sorted_indices[:5]]
+                    dataset_samples.append({
+                        "Query": query,
+                        "Top 5 Candidates": top_docs
+                    })
+                    # Metrics
+                    all_mrr.append(mean_reciprocal_rank(relevance_labels, scores))
+                    all_map.append(mean_average_precision(relevance_labels, scores))
+                    all_ndcg.append(ndcg_at_k(relevance_labels, scores, k=10))
         # Metrics for this dataset
         results.append({
     )
 )
+interface.launch(debug=True)