Spaces:

Danielbrdz
/

BBS-2

Sleeping

App Files Files Community

Danielbrdz commited on Jun 26

Commit

08aef12

verified ·

1 Parent(s): ea2285f

Upload 2 files

Browse files

Files changed (2) hide show

app.py +81 -0
requirements.txt +2 -0

app.py ADDED Viewed

	@@ -0,0 +1,81 @@

+import gradio as gr
+import pandas as pd
+headers = [
+    "Modelo",
+    "Promedio",
+    "Español Mexicano",
+    "Español España",
+    "Español Argentino",
+    "Español Cubano",
+    "Español Colombiano",
+    "Español Chileno"
+]
+data = [
+    ["Gemini 2.5 Pro", 92.47, 95.40, 94.90, 93.40, 95.40, 88.00, 87.70],
+    ["Gemini 2.5 Flash", 87.47, 88.70, 93.00, 88.50, 86.70, 83.00, 84.90],
+    ["Gemini 2.0 Flash", 85.42, 93.20, 97.00, 85.10, 73.80, 83.70, 79.70],
+    ["DeepSeek R1 0528", 85.25, 90.70, 88.10, 89.30, 84.40, 79.80, 79.20],
+    ["Gemini 2.5 Flash Lite Preview 06-17", 81.75, 80.10, 91.10, 80.00, 75.90, 86.50, 76.90],
+    ["Qwen 3 235b A22b", 74.02, 77.80, 79.20, 83.50, 61.00, 82.90, 59.70],
+    ["Llama 4 Maverick", 68.72, 65.20, 75.30, 75.50, 64.50, 75.70, 56.10],
+    ["Llama 4 Scout", 62.72, 56.80, 72.30, 71.40, 61.50, 65.40, 48.90],
+    ["Qwen 3 32b", 50.75, 60.40, 56.00, 59.70, 50.90, 43.80, 33.70],
+    ["Llama 3.1 8b", 47.37, 54.50, 49.40, 39.10, 48.10, 53.30, 39.80]
+]
+df_results = pd.DataFrame(data, columns=headers)
+info_text = """
+## Acerca de BBS 2 (Barcenas Benchmark Spanish)
+Bienvenido al Barcenas Benchmark Spanish (BBS 2).
+**Objetivo:**
+El objetivo de este benchmark es evaluar y comparar el rendimiento de diferentes modelos de lenguaje de gran tamaño (LLM) específicamente en diversas variantes del idioma español.
+En esta segunda versión también se agrego la evaluación del conocimiento de los diferentes problemas de países latinoamericanos.
+El benchmark se encuentra en una fase temprana avanzada de desarrollo y aún requiere mejoras en las evaluaciones, el número de LLM, entre otros aspectos. Se espera que con más recursos y tiempo se pueda desarrollar un benchmark más sólido.
+**Metodología:**
+*   Se utilizaron las APIs de Groq, Nvidia y Gemini para estas pruebas.
+*   Se solicitó al LLM que generara varias situaciones y problemas de diferentes paises en las variantes del español evaluadas.
+*   Con ciertos parámetros predefinidos, se evaluó al LLM en las diferentes variantes del español y se calculó un promedio general.
+**Interpretación de Resultados:**
+*   Los modelos Gemini siguen presentando un rendimiento superior a los demás LLMs en todos los aspectos relacionados con el acento español, mostrando un nivel notablemente más alto, al menos según los resultados preliminares de este benchmark.
+**Actualizaciones Futuras:**
+*   Se busca incluir en el futuro más LLM, como los de OpenAI, Anthropic, Grok, etc. La falta de recursos de las APIs impidió la inclusión de estos LLM en esta etapa.
+*   Además, se busca mejorar la dificultad de las pruebas y obtener una visión más clara de cuál LLM es el más adecuado para cada variante del español.
+Un agradecimiento especial a Ismael Medina Muñoz, Senior Microsoft Consultant, por la idea de evaluar e investigar los LLM en español.
+**Hecho con amor y cariño por Danielbrdz**
+"""
+with gr.Blocks(theme=gr.themes.Default()) as demo:
+    # Título Principal
+    gr.Markdown("# BBS 2")
+    # Subtítulo
+    gr.Markdown("## (Barcenas Benchmark Spanish)")
+    with gr.Tabs():
+        # Pestaña 1: Resultados
+        with gr.Tab("Resultados"):
+            gr.Markdown("### Tabla de Clasificación de Modelos")
+            # Usamos gr.DataFrame para mostrar los datos tabulares
+            gr.DataFrame(
+                value=df_results,
+                headers=headers,
+                # Especificar tipos de datos ayuda a la visualización y posible ordenación
+                datatype=["str", "number", "number", "number", "number", "number", "number", "number"],
+                wrap=True # Permite que el texto largo se ajuste dentro de las celdas
+            )
+        with gr.Tab("Información"):
+            # Usamos gr.Markdown para mostrar el texto con formato
+            gr.Markdown(info_text)
+demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ gradio
2	+ pandas