similaridad-de-busquedas

Sleeping

App Files Files Community

tx3bas commited on Feb 1, 2024

Commit

9b27228

verified ·

1 Parent(s): dc52c1f

Update app.py

Browse files

Files changed (1) hide show

app.py +71 -37

app.py CHANGED Viewed

@@ -6,44 +6,78 @@ from urllib.parse import urlparse
 from itertools import combinations
 def buscar_google(query, dominio, hl='es', num_results=100):
-    # Código de búsqueda de Google como está en tu ejemplo
-def calcular_coincidencias(serp1, serp2):
-    # Código de coincidencias entre SERPs como está en tu segundo ejemplo
-def generar_html_con_colores(serp_results, color_palette):
-    # Código de generación de HTML con colores como está en tu segundo ejemplo
-def canibalizacion_interface(url, keyword):
-    # Comprobar si la URL cumple con el patrón http o https
-    if not re.match(r'^https?://', url):
-        return "<p>Error: Introduce una URL con el protocolo http o https.</p>"
-    # Realizar búsqueda en Google y obtener resultados
-    serp_results = {}
-    keywords = ["keyword1", "keyword2", "keyword3"]  # Reemplaza con tus palabras clave
-    for keyword in keywords:
-        serp_results[keyword] = buscar_google(keyword, url)
-    # Calcular coincidencias entre SERPs
-    coincidencia_matrix = {}
-    for keyword1, keyword2 in combinations(keywords, 2):
-        coincidencia = calcular_coincidencias(serp_results[keyword1], serp_results[keyword2])
-        coincidencia_matrix[f"{keyword1} & {keyword2}"] = coincidencia
-        print(f"{keyword1} & {keyword2}: {coincidencia}%")
-    print(f"\n")
-    # Mostrar la tabla HTML con colores
-    html_table_with_colors = generar_html_con_colores(serp_results, ['#ff7f0e', '#2ca02c', '#d62728'])
-    # Construir mensaje completo
-    mensaje_completo = f"<div><b>Posición:</b> <span style='color:#ed4b4b;'>{serp_results[keywords[0]][0]['Posición']} 🥇</span><br>"
-    mensaje_completo += f"<b>Parasitación SEO:</b> {url} se encuentra en las posiciones {serp_results[keywords[0]][0]['Posición']}<br>"
-    mensaje_completo += f"<b>Canibalización:</b> {url} se encuentra en las posiciones {serp_results[keywords[1]][0]['Posición']}</div>"
-    html_output = f"<div>{mensaje_completo}</div>"
     html_output += "<details style='padding: 10px; background: #f3f3f3; border: solid 0; border-radius: 8px; margin-top: 10px;'>"
-    html_output += html_table_with_colors
     html_output += "</details>"
     return html_output

 from itertools import combinations
 def buscar_google(query, dominio, hl='es', num_results=100):
+    all_results = []
+    posiciones_dominio = []
+    posiciones_dominio_exacto = []
+    url_objetivo = dominio
+    dominio_objetivo = urlparse(url_objetivo).netloc
+    table_html = "<summary>Ver Resultados</summary><table border='1'><tr><th>Posición</th><th>Título</th><th>URL</th></tr>"
+    estilo = "color: #ed4b4b;"
+    for start in range(0, num_results, 10):
+        url = f"https://www.google.com/search?q={query}&hl={hl}&start={start}"
+        headers = {
+            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.3"
+        }
+        response = requests.get(url, headers=headers)
+        soup = BeautifulSoup(response.text, 'html.parser')
+        search_results = soup.find_all('div', attrs={'class': 'tF2Cxc'})
+        all_results.extend(search_results)
+    for i, result in enumerate(all_results[:num_results]):
+        header = result.find('h3')
+        header = header.text if header else "Sin título"
+        link = result.find('a', href=True)['href']
+        link_clean = re.search("(?P<url>https?://[^\s]+)", link).group("url")
+        dominio_resultado = urlparse(link_clean).netloc
+        estilo_dominio = ""
+        if dominio_objetivo in dominio_resultado:
+            posiciones_dominio.append(i + 1)
+            if link_clean == url_objetivo:
+                posiciones_dominio_exacto.append(i + 1)
+                estilo_dominio = estilo
+            else:
+                estilo_dominio = estilo
+        table_html += f"<tr><td>{i+1}</td><td>{header}</td><td><span><a href='{link_clean}' title='{link_clean}' style='{estilo_dominio}'>{link_clean}</a></span></td></tr>"
+    table_html += "</table>"
+    mensaje = ""
+    emoji = ""
+    if posiciones_dominio:
+        first_position = posiciones_dominio[0]
+        if first_position == 1:
+            emoji = f"{posiciones_dominio} 🥇"
+        elif first_position <= 3:
+            emoji = f"{posiciones_dominio} 😎"
+        elif first_position <= 5:
+            emoji = f"{posiciones_dominio} 😆"
+        elif first_position <= 10:
+            emoji = f"{posiciones_dominio} 🙂"
+        elif first_position <= 100:
+            emoji = f"{posiciones_dominio} 😐"
+    else:
+        emoji = f"No está en el top 100 😭"
+    if len(posiciones_dominio) > 1 and 1 in posiciones_dominio:
+        mensaje = f"Parasitación SEO: {url_objetivo} se encuentra en las posiciones {posiciones_dominio}"
+    elif len(posiciones_dominio) > 1:
+        mensaje = f"Canibalización: {url_objetivo} se encuentra en las posiciones {posiciones_dominio}"
+    elif len(posiciones_dominio) == 1 and len(posiciones_dominio_exacto) == 0:
+        mensaje = f"Canibalización: URL diferente del dominio en la posición {posiciones_dominio[0]}"
+    elif len(posiciones_dominio) == 1:
+        mensaje = f"Sin canibalización: {url_objetivo} se encuentra en la posición {posiciones_dominio[0]}"
+    else:
+        mensaje = f"{url_objetivo} no se encuentra en el top 100"
+    mensaje_completo = f"Posición: {emoji}<br>{mensaje}"
+    html_output = f"<div><b>{mensaje_completo}</b></div>"
     html_output += "<details style='padding: 10px; background: #f3f3f3; border: solid 0; border-radius: 8px; margin-top: 10px;'>"
+    html_output += table_html
     html_output += "</details>"
     return html_output