Spaces:
Sleeping
Sleeping
import gradio as gr | |
import pandas as pd | |
headers = [ | |
"Modelo", | |
"Promedio", | |
"Español Mexicano", | |
"Español España", | |
"Español Argentino", | |
"Español Cubano", | |
"Español Colombiano", | |
"Español Chileno" | |
] | |
data = [ | |
["Gemini 2.5 Pro", 92.47, 95.40, 94.90, 93.40, 95.40, 88.00, 87.70], | |
["Gemini 2.5 Flash", 87.47, 88.70, 93.00, 88.50, 86.70, 83.00, 84.90], | |
["Gemini 2.0 Flash", 85.42, 93.20, 97.00, 85.10, 73.80, 83.70, 79.70], | |
["DeepSeek R1 0528", 85.25, 90.70, 88.10, 89.30, 84.40, 79.80, 79.20], | |
["Gemini 2.5 Flash Lite Preview 06-17", 81.75, 80.10, 91.10, 80.00, 75.90, 86.50, 76.90], | |
["Qwen 3 235b A22b", 74.02, 77.80, 79.20, 83.50, 61.00, 82.90, 59.70], | |
["Llama 4 Maverick", 68.72, 65.20, 75.30, 75.50, 64.50, 75.70, 56.10], | |
["Llama 4 Scout", 62.72, 56.80, 72.30, 71.40, 61.50, 65.40, 48.90], | |
["Qwen 3 32b", 50.75, 60.40, 56.00, 59.70, 50.90, 43.80, 33.70], | |
["Llama 3.1 8b", 47.37, 54.50, 49.40, 39.10, 48.10, 53.30, 39.80] | |
] | |
df_results = pd.DataFrame(data, columns=headers) | |
info_text = """ | |
## Acerca de BBS 2 (Barcenas Benchmark Spanish) | |
Bienvenido al Barcenas Benchmark Spanish (BBS 2). | |
**Objetivo:** | |
El objetivo de este benchmark es evaluar y comparar el rendimiento de diferentes modelos de lenguaje de gran tamaño (LLM) específicamente en diversas variantes del idioma español. | |
En esta segunda versión también se agrego la evaluación del conocimiento de los diferentes problemas de países latinoamericanos. | |
El benchmark se encuentra en una fase temprana avanzada de desarrollo y aún requiere mejoras en las evaluaciones, el número de LLM, entre otros aspectos. Se espera que con más recursos y tiempo se pueda desarrollar un benchmark más sólido. | |
**Metodología:** | |
* Se utilizaron las APIs de Groq, Nvidia y Gemini para estas pruebas. | |
* Se solicitó al LLM que generara varias situaciones y problemas de diferentes paises en las variantes del español evaluadas. | |
* Con ciertos parámetros predefinidos, se evaluó al LLM en las diferentes variantes del español y se calculó un promedio general. | |
**Interpretación de Resultados:** | |
* Los modelos Gemini siguen presentando un rendimiento superior a los demás LLMs en todos los aspectos relacionados con el acento español, mostrando un nivel notablemente más alto, al menos según los resultados preliminares de este benchmark. | |
**Actualizaciones Futuras:** | |
* Se busca incluir en el futuro más LLM, como los de OpenAI, Anthropic, Grok, etc. La falta de recursos de las APIs impidió la inclusión de estos LLM en esta etapa. | |
* Además, se busca mejorar la dificultad de las pruebas y obtener una visión más clara de cuál LLM es el más adecuado para cada variante del español. | |
Un agradecimiento especial a Ismael Medina Muñoz, Senior Microsoft Consultant, por la idea de evaluar e investigar los LLM en español. | |
**Hecho con amor y cariño por Danielbrdz** | |
""" | |
with gr.Blocks(theme=gr.themes.Default()) as demo: | |
# Título Principal | |
gr.Markdown("# BBS 2") | |
# Subtítulo | |
gr.Markdown("## (Barcenas Benchmark Spanish)") | |
with gr.Tabs(): | |
# Pestaña 1: Resultados | |
with gr.Tab("Resultados"): | |
gr.Markdown("### Tabla de Clasificación de Modelos") | |
# Usamos gr.DataFrame para mostrar los datos tabulares | |
gr.DataFrame( | |
value=df_results, | |
headers=headers, | |
# Especificar tipos de datos ayuda a la visualización y posible ordenación | |
datatype=["str", "number", "number", "number", "number", "number", "number", "number"], | |
wrap=True # Permite que el texto largo se ajuste dentro de las celdas | |
) | |
with gr.Tab("Información"): | |
# Usamos gr.Markdown para mostrar el texto con formato | |
gr.Markdown(info_text) | |
demo.launch() |