similaridad-de-busquedas

Sleeping

App Files Files Community

tx3bas commited on Jan 21, 2024

Commit

79a852d

verified ·

1 Parent(s): 1c8b50f

Create app.py

Browse files

Files changed (1) hide show

app.py +86 -0

app.py ADDED Viewed

	@@ -0,0 +1,86 @@

+import gradio as gr
+import pandas as pd
+import requests
+from bs4 import BeautifulSoup
+import re
+from IPython.core.display import display, HTML
+from urllib.parse import urlparse
+def limpiar_dominio(dominio):
+    dominio_limpio = re.sub(r"https?://", "", dominio)
+    dominio_limpio = re.sub(r"^www\.", "", dominio_limpio)
+    dominio_limpio = dominio_limpio.split(".")[-2] if len(dominio_limpio.split(".")) > 1 else dominio_limpio
+    dominio_limpio = re.sub(r"\.[a-zA-Z]{2,}$", "", dominio_limpio)
+    dominio_limpio = dominio_limpio.capitalize()
+    return dominio_limpio
+def buscar_google(query, dominio, hl='es', num_results=100):
+    all_results = []
+    posiciones_dominio = []
+    posiciones_dominio_exacto = []
+    url_objetivo = dominio
+    dominio_objetivo = urlparse(url_objetivo).netloc
+    table_html = "<table border='1'><tr><th>Posición</th><th>Título</th><th>URL</th></tr>"
+    estilo = "font-size:19px; color: #ed4b4b;"
+    for start in range(0, num_results, 10):
+        url = f"https://www.google.com/search?q={query}&hl={hl}&start={start}"
+        headers = {
+            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.3"
+        }
+        response = requests.get(url, headers=headers)
+        soup = BeautifulSoup(response.text, 'html.parser')
+        search_results = soup.find_all('div', attrs={'class': 'tF2Cxc'})
+        all_results.extend(search_results)
+    for i, result in enumerate(all_results[:num_results]):
+        header = result.find('h3')
+        header = header.text if header else "Sin título"
+        link = result.find('a', href=True)['href']
+        link_clean = re.search("(?P<url>https?://[^\s]+)", link).group("url")
+        dominio_resultado = urlparse(link_clean).netloc
+        estilo_dominio = ""
+        if dominio_objetivo in dominio_resultado:
+            posiciones_dominio.append(i + 1)
+            if link_clean == url_objetivo:
+                posiciones_dominio_exacto.append(i + 1)
+                estilo_dominio = estilo
+        table_html += f"<tr><td>{i+1}</td><td>{header}</td><td><span style='{estilo_dominio}'>{link_clean}</span></td></tr>"
+    table_html += "</table>"
+    if len(posiciones_dominio) > 1 and 1 in posiciones_dominio:
+        mensaje = f"Parasitación SEO: {url_objetivo} se encuentra en las posiciones {posiciones_dominio} 🥇"
+        estilo = "font-size:19px; color: #ffd700;"
+    elif len(posiciones_dominio) > 1:
+        mensaje = f"Canibalización: {url_objetivo} se encuentra en las posiciones {posiciones_dominio} 😕"
+        estilo = "font-size:19px; color: #ed4b4b;"
+    elif len(posiciones_dominio) == 1 and len(posiciones_dominio_exacto) == 0:
+        mensaje = f"Canibalización: URL diferente del dominio en la posición {posiciones_dominio[0]} 😕"
+    elif len(posiciones_dominio) == 1:
+        mensaje = f"Sin canibalización: {url_objetivo} se encuentra en la posición {posiciones_dominio[0]} 😕"
+        estilo = "font-size:19px; color: #26d52d;"
+    else:
+        mensaje = f"{url_objetivo} no se encuentra en el top 100 😕"
+        estilo = "font-size:19px; color: #ed4b4b;"
+    return mensaje, table_html
+def canibalizacion_interface(url, keyword):
+    mensaje, tabla = buscar_google(keyword, url)
+    return mensaje, tabla
+iface = gr.Interface(
+    fn=canibalizacion_interface,
+    inputs=["text", "text"],
+    outputs=["text", "html"],
+    title="Buscador de Canibalizaciones en Google",
+    description="Encuentra posibles canibalizaciones y parasitaciones en Google a partir de una URL y una palabra clave.",
+    article="Ingrese la URL y la palabra clave para buscar canibalizaciones.",
+)
+iface.launch()