Spaces:
Sleeping
Sleeping
Upload 2 files
Browse files- app.py +81 -0
- requirements.txt +2 -0
app.py
ADDED
@@ -0,0 +1,81 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
import gradio as gr
|
2 |
+
import pandas as pd
|
3 |
+
|
4 |
+
headers = [
|
5 |
+
"Modelo",
|
6 |
+
"Promedio",
|
7 |
+
"Español Mexicano",
|
8 |
+
"Español España",
|
9 |
+
"Español Argentino",
|
10 |
+
"Español Cubano",
|
11 |
+
"Español Colombiano",
|
12 |
+
"Español Chileno"
|
13 |
+
]
|
14 |
+
|
15 |
+
data = [
|
16 |
+
["Gemini 2.5 Pro", 92.47, 95.40, 94.90, 93.40, 95.40, 88.00, 87.70],
|
17 |
+
["Gemini 2.5 Flash", 87.47, 88.70, 93.00, 88.50, 86.70, 83.00, 84.90],
|
18 |
+
["Gemini 2.0 Flash", 85.42, 93.20, 97.00, 85.10, 73.80, 83.70, 79.70],
|
19 |
+
["DeepSeek R1 0528", 85.25, 90.70, 88.10, 89.30, 84.40, 79.80, 79.20],
|
20 |
+
["Gemini 2.5 Flash Lite Preview 06-17", 81.75, 80.10, 91.10, 80.00, 75.90, 86.50, 76.90],
|
21 |
+
["Qwen 3 235b A22b", 74.02, 77.80, 79.20, 83.50, 61.00, 82.90, 59.70],
|
22 |
+
["Llama 4 Maverick", 68.72, 65.20, 75.30, 75.50, 64.50, 75.70, 56.10],
|
23 |
+
["Llama 4 Scout", 62.72, 56.80, 72.30, 71.40, 61.50, 65.40, 48.90],
|
24 |
+
["Qwen 3 32b", 50.75, 60.40, 56.00, 59.70, 50.90, 43.80, 33.70],
|
25 |
+
["Llama 3.1 8b", 47.37, 54.50, 49.40, 39.10, 48.10, 53.30, 39.80]
|
26 |
+
]
|
27 |
+
|
28 |
+
df_results = pd.DataFrame(data, columns=headers)
|
29 |
+
|
30 |
+
info_text = """
|
31 |
+
## Acerca de BBS 2 (Barcenas Benchmark Spanish)
|
32 |
+
|
33 |
+
Bienvenido al Barcenas Benchmark Spanish (BBS 2).
|
34 |
+
|
35 |
+
**Objetivo:**
|
36 |
+
El objetivo de este benchmark es evaluar y comparar el rendimiento de diferentes modelos de lenguaje de gran tamaño (LLM) específicamente en diversas variantes del idioma español.
|
37 |
+
En esta segunda versión también se agrego la evaluación del conocimiento de los diferentes problemas de países latinoamericanos.
|
38 |
+
|
39 |
+
El benchmark se encuentra en una fase temprana avanzada de desarrollo y aún requiere mejoras en las evaluaciones, el número de LLM, entre otros aspectos. Se espera que con más recursos y tiempo se pueda desarrollar un benchmark más sólido.
|
40 |
+
|
41 |
+
**Metodología:**
|
42 |
+
* Se utilizaron las APIs de Groq, Nvidia y Gemini para estas pruebas.
|
43 |
+
* Se solicitó al LLM que generara varias situaciones y problemas de diferentes paises en las variantes del español evaluadas.
|
44 |
+
* Con ciertos parámetros predefinidos, se evaluó al LLM en las diferentes variantes del español y se calculó un promedio general.
|
45 |
+
|
46 |
+
**Interpretación de Resultados:**
|
47 |
+
* Los modelos Gemini siguen presentando un rendimiento superior a los demás LLMs en todos los aspectos relacionados con el acento español, mostrando un nivel notablemente más alto, al menos según los resultados preliminares de este benchmark.
|
48 |
+
|
49 |
+
**Actualizaciones Futuras:**
|
50 |
+
* Se busca incluir en el futuro más LLM, como los de OpenAI, Anthropic, Grok, etc. La falta de recursos de las APIs impidió la inclusión de estos LLM en esta etapa.
|
51 |
+
* Además, se busca mejorar la dificultad de las pruebas y obtener una visión más clara de cuál LLM es el más adecuado para cada variante del español.
|
52 |
+
|
53 |
+
Un agradecimiento especial a Ismael Medina Muñoz, Senior Microsoft Consultant, por la idea de evaluar e investigar los LLM en español.
|
54 |
+
|
55 |
+
**Hecho con amor y cariño por Danielbrdz**
|
56 |
+
"""
|
57 |
+
|
58 |
+
with gr.Blocks(theme=gr.themes.Default()) as demo:
|
59 |
+
# Título Principal
|
60 |
+
gr.Markdown("# BBS 2")
|
61 |
+
# Subtítulo
|
62 |
+
gr.Markdown("## (Barcenas Benchmark Spanish)")
|
63 |
+
|
64 |
+
with gr.Tabs():
|
65 |
+
# Pestaña 1: Resultados
|
66 |
+
with gr.Tab("Resultados"):
|
67 |
+
gr.Markdown("### Tabla de Clasificación de Modelos")
|
68 |
+
# Usamos gr.DataFrame para mostrar los datos tabulares
|
69 |
+
gr.DataFrame(
|
70 |
+
value=df_results,
|
71 |
+
headers=headers,
|
72 |
+
# Especificar tipos de datos ayuda a la visualización y posible ordenación
|
73 |
+
datatype=["str", "number", "number", "number", "number", "number", "number", "number"],
|
74 |
+
wrap=True # Permite que el texto largo se ajuste dentro de las celdas
|
75 |
+
)
|
76 |
+
|
77 |
+
with gr.Tab("Información"):
|
78 |
+
# Usamos gr.Markdown para mostrar el texto con formato
|
79 |
+
gr.Markdown(info_text)
|
80 |
+
|
81 |
+
demo.launch()
|
requirements.txt
ADDED
@@ -0,0 +1,2 @@
|
|
|
|
|
|
|
1 |
+
gradio
|
2 |
+
pandas
|