similaridad-de-busquedas

Sleeping

App Files Files Community

tx3bas commited on Feb 4, 2024

Commit

bb6c7f2

verified ·

1 Parent(s): 9b27228

Update app.py

Browse files

Files changed (1) hide show

app.py +79 -74

app.py CHANGED Viewed

@@ -1,20 +1,13 @@
-import gradio as gr
-import requests
 from bs4 import BeautifulSoup
-import re
-from urllib.parse import urlparse
 from itertools import combinations
-def buscar_google(query, dominio, hl='es', num_results=100):
-    all_results = []
-    posiciones_dominio = []
-    posiciones_dominio_exacto = []
-    url_objetivo = dominio
-    dominio_objetivo = urlparse(url_objetivo).netloc
-    table_html = "<summary>Ver Resultados</summary><table border='1'><tr><th>Posición</th><th>Título</th><th>URL</th></tr>"
-    estilo = "color: #ed4b4b;"
     for start in range(0, num_results, 10):
         url = f"https://www.google.com/search?q={query}&hl={hl}&start={start}"
@@ -26,69 +19,81 @@ def buscar_google(query, dominio, hl='es', num_results=100):
         search_results = soup.find_all('div', attrs={'class': 'tF2Cxc'})
         all_results.extend(search_results)
     for i, result in enumerate(all_results[:num_results]):
         header = result.find('h3')
         header = header.text if header else "Sin título"
         link = result.find('a', href=True)['href']
-        link_clean = re.search("(?P<url>https?://[^\s]+)", link).group("url")
-        dominio_resultado = urlparse(link_clean).netloc
-        estilo_dominio = ""
-        if dominio_objetivo in dominio_resultado:
-            posiciones_dominio.append(i + 1)
-            if link_clean == url_objetivo:
-                posiciones_dominio_exacto.append(i + 1)
-                estilo_dominio = estilo
-            else:
-                estilo_dominio = estilo
-        table_html += f"<tr><td>{i+1}</td><td>{header}</td><td><span><a href='{link_clean}' title='{link_clean}' style='{estilo_dominio}'>{link_clean}</a></span></td></tr>"
-    table_html += "</table>"
-    mensaje = ""
-    emoji = ""
-    if posiciones_dominio:
-        first_position = posiciones_dominio[0]
-        if first_position == 1:
-            emoji = f"{posiciones_dominio} 🥇"
-        elif first_position <= 3:
-            emoji = f"{posiciones_dominio} 😎"
-        elif first_position <= 5:
-            emoji = f"{posiciones_dominio} 😆"
-        elif first_position <= 10:
-            emoji = f"{posiciones_dominio} 🙂"
-        elif first_position <= 100:
-            emoji = f"{posiciones_dominio} 😐"
-    else:
-        emoji = f"No está en el top 100 😭"
-    if len(posiciones_dominio) > 1 and 1 in posiciones_dominio:
-        mensaje = f"Parasitación SEO: {url_objetivo} se encuentra en las posiciones {posiciones_dominio}"
-    elif len(posiciones_dominio) > 1:
-        mensaje = f"Canibalización: {url_objetivo} se encuentra en las posiciones {posiciones_dominio}"
-    elif len(posiciones_dominio) == 1 and len(posiciones_dominio_exacto) == 0:
-        mensaje = f"Canibalización: URL diferente del dominio en la posición {posiciones_dominio[0]}"
-    elif len(posiciones_dominio) == 1:
-        mensaje = f"Sin canibalización: {url_objetivo} se encuentra en la posición {posiciones_dominio[0]}"
     else:
-        mensaje = f"{url_objetivo} no se encuentra en el top 100"
-    mensaje_completo = f"Posición: {emoji}<br>{mensaje}"
-    html_output = f"<div><b>{mensaje_completo}</b></div>"
-    html_output += "<details style='padding: 10px; background: #f3f3f3; border: solid 0; border-radius: 8px; margin-top: 10px;'>"
-    html_output += table_html
-    html_output += "</details>"
-    return html_output
-iface = gr.Interface(
-    fn=canibalizacion_interface,
-    inputs=["text", "text"],
-    outputs="html",
-    title="<div style='margin:0 auto;text-align:center'><div style='margin:0 auto;text-align:center'><img style='width:100px;display: inline-table;margin-bottom:-10px' src='https://artxeweb.com/media/files/canibal.jpg'><p>Canibal SEO</p></div>",
-    description="<p style='margin-bottom:10px;text-align:center;background: #ffffff; padding: 8px; border-radius: 8px; border-width: 1px; border: solid 1px #e5e7eb;'>Encuentra posibles canibalizaciones y parasitaciones en Google a partir de una URL y una palabra clave.</p>",
-    article="<div style='margin-top:10px'><p style='text-align: center !important; background: #ffffff; padding: 5px 30px; border-radius: 8px; border-width: 1px; border: solid 1px #e5e7eb; width: fit-content; margin: auto;'>Desarrollada por <a style='text-decoration: none !important; color: #e12a31 !important;' href='https://artxeweb.com'>© Artxe Web</a></p></div>"
-)
-iface.launch()

 from bs4 import BeautifulSoup
 from itertools import combinations
+from IPython.display import display, HTML
+import requests
+# Paleta de colores
+color_palette = ['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728', '#9467bd', '#8c564b', '#e377c2', '#bcbd22', '#17becf', '#ff6666', '#4dff4d', '#6666ff', '#ffcc00', '#993399', '#00cc99', '#ff5050', '#33adff', '#ff9966']
+def buscar_google(query, hl='es', num_results=10):
+    all_results = []
     for start in range(0, num_results, 10):
         url = f"https://www.google.com/search?q={query}&hl={hl}&start={start}"
         search_results = soup.find_all('div', attrs={'class': 'tF2Cxc'})
         all_results.extend(search_results)
+    # Obtener la lista de títulos y URLs de los resultados de búsqueda
+    serp_data = []
     for i, result in enumerate(all_results[:num_results]):
         header = result.find('h3')
         header = header.text if header else "Sin título"
         link = result.find('a', href=True)['href']
+        link_clean = link.split('&')[0].split('=')[1] if 'url?q=' in link else link
+        serp_data.append({"Posición": i + 1, "Título": header, "URL": link_clean})
+    return serp_data
+def calcular_coincidencias(serp1, serp2):
+    urls_serp1 = {entry["URL"] for entry in serp1}
+    urls_serp2 = {entry["URL"] for entry in serp2}
+    common_urls = urls_serp1.intersection(urls_serp2)
+    # Verificar si los dos primeros resultados coinciden
+    if serp1 and serp2 and serp1[0]["URL"] == serp2[0]["URL"]:
+        return min(100, round(len(common_urls) / len(urls_serp1) * 100 + 5))
+    elif serp1 and serp2 and serp1[1]["URL"] == serp2[1]["URL"]:
+        return min(100, round(len(common_urls) / len(urls_serp1) * 100 + 3))
     else:
+        return min(100, round(len(common_urls) / len(urls_serp1) * 100))
+def generar_html_con_colores(serp_results, color_palette):
+    html_table = "<table border='1'><tr><th>Posición</th>"
+    for keyword in serp_results:
+        html_table += f"<th>{keyword}</th>"
+    html_table += "</tr>"
+    # Crear un diccionario para rastrear los colores asignados a cada URL
+    url_colors = {}
+    # Usar la longitud máxima
+    max_length = max(len(serp_results[keyword]) for keyword in serp_results)
+    for i in range(max_length):
+        row_values = [str(i + 1)]
+        for keyword in serp_results:
+            if i < len(serp_results[keyword]):
+                serp_data_entry = serp_results[keyword][i]
+                url = serp_data_entry["URL"]
+                # Asignar un color solo si la URL se repite
+                if sum(1 for s in serp_results.values() for entry in s if entry["URL"] == url) > 1:
+                    if url not in url_colors:
+                        url_colors[url] = color_palette[len(url_colors) % len(color_palette)]
+                    color = url_colors[url]
+                    row_values.extend([f"<span style='color: {color}'>{url}</span>"])
+                else:
+                    row_values.extend([url])  # Dejar sin color si la URL no se repite
+            else:
+                row_values.extend([""])  # Si no hay resultado, llenar con celdas vacías
+        html_table += "<tr>" + "".join([f"<td>{value}</td>" for value in row_values]) + "</tr>"
+    html_table += "</table>"
+    return html_table
+# Lista de keywords
+keywords = ["lavanderia ponferrada", "lavanderia autoservicio ponferrada", "lavanderia bierzo"]
+# Realizar la búsqueda y obtener los resultados para cada keyword
+serp_results = {}
+for keyword in keywords:
+    serp_results[keyword] = buscar_google(keyword)
+# Calcular la coincidencia entre las URLs
+coincidencia_matrix = {}
+for keyword1, keyword2 in combinations(keywords, 2):
+    coincidencia = calcular_coincidencias(serp_results[keyword1], serp_results[keyword2])
+    coincidencia_matrix[f"{keyword1} & {keyword2}"] = coincidencia
+    print(f"{keyword1} & {keyword2}: {coincidencia}%")
+# Mostrar la tabla HTML con colores
+html_table_with_colors = generar_html_con_colores(serp_results, color_palette)
+display(HTML(html_table_with_colors))