Spaces:

Kuautli
/

ProyectoDS-AnalizaTube

Runtime error

App Files Files Community

Kuautli commited on 25 days ago

Commit

5c6716a

verified ·

1 Parent(s): 8ee8a76

Update clustering.py

Browse files

Files changed (1) hide show

clustering.py +9 -9

clustering.py CHANGED Viewed

@@ -637,21 +637,21 @@ def perform_clustering(
     for distance_threshold in threshold_values:
         log_message(distance_threshold)
-        distance_threshold = round(distance_threshold, 6)
         clustering = AgglomerativeClustering(
             n_clusters=None,
-            distance_threshold=distance_threshold,
             linkage="complete",
             metric="cosine",
         )
         # Formatear el nombre de la columna para incluir solo 6 decimales
-        cluster_name = f"cluster_{distance_threshold:.6f}"
         data[cluster_name] = clustering.fit_predict(embeddings_matrix)
         # Almacenar los resultados en las estructuras correspondientes
-        cluster_assignments[distance_threshold] = data[cluster_name]
-        cluster_counts[distance_threshold] = data[cluster_name].value_counts()
         labels = data[cluster_name]
         # Calcular Calinski-Harabasz Score
@@ -662,7 +662,7 @@ def perform_clustering(
             ch_score = round(ch_score, 2)
         else:
             ch_score = -1  # Valor predeterminado si solo hay un clúster
-        calinski_harabasz_scores[distance_threshold] = ch_score
         # Calcular Silhouette Score
         if len(np.unique(labels)) > 1:
@@ -670,16 +670,16 @@ def perform_clustering(
             sil_score = round(sil_score, 2)
         else:
             sil_score = -1  # Valor predeterminado si solo hay un clúster
-        silhouette_scores[distance_threshold] = sil_score
         # Placeholder for finding the most similar comment function
-        most_similar_comments[distance_threshold] = {}
         for cluster_id in np.unique(labels):
             cluster_data = data[data[cluster_name] == cluster_id]
             avg_embedding = np.mean(cluster_data[embeddings_col].tolist(), axis=0)
             # Reemplazar con tu implementación real
             most_similar_comment = find_most_similar_comment(cluster_data, avg_embedding)
-            most_similar_comments[distance_threshold][cluster_id] = most_similar_comment
     return (
         cluster_assignments,

     for distance_threshold in threshold_values:
         log_message(distance_threshold)
+        rounded_distance_threshold = round(rounded_distance_threshold, 6)
         clustering = AgglomerativeClustering(
             n_clusters=None,
+            rounded_distance_threshold=rounded_distance_threshold,
             linkage="complete",
             metric="cosine",
         )
         # Formatear el nombre de la columna para incluir solo 6 decimales
+        cluster_name = f"cluster_{rounded_distance_threshold:.6f}"
         data[cluster_name] = clustering.fit_predict(embeddings_matrix)
         # Almacenar los resultados en las estructuras correspondientes
+        cluster_assignments[rounded_distance_threshold] = data[cluster_name]
+        cluster_counts[rounded_distance_threshold] = data[cluster_name].value_counts()
         labels = data[cluster_name]
         # Calcular Calinski-Harabasz Score
             ch_score = round(ch_score, 2)
         else:
             ch_score = -1  # Valor predeterminado si solo hay un clúster
+        calinski_harabasz_scores[rounded_distance_threshold] = ch_score
         # Calcular Silhouette Score
         if len(np.unique(labels)) > 1:
             sil_score = round(sil_score, 2)
         else:
             sil_score = -1  # Valor predeterminado si solo hay un clúster
+        silhouette_scores[rounded_distance_threshold] = sil_score
         # Placeholder for finding the most similar comment function
+        most_similar_comments[rounded_distance_threshold] = {}
         for cluster_id in np.unique(labels):
             cluster_data = data[data[cluster_name] == cluster_id]
             avg_embedding = np.mean(cluster_data[embeddings_col].tolist(), axis=0)
             # Reemplazar con tu implementación real
             most_similar_comment = find_most_similar_comment(cluster_data, avg_embedding)
+            most_similar_comments[rounded_distance_threshold][cluster_id] = most_similar_comment
     return (
         cluster_assignments,