Spaces:

gtfintechlab
/

FLaME

Running

App Files Files Community

mokamoto commited on Mar 13

Commit

b61db1b

1 Parent(s): 1f3572e

model tooltips on all pages

Browse files

Files changed (9) hide show

causal_analysis_table.html +23 -23
fix_tooltips.sh +199 -1
information_retrieval_table.html +22 -22
qa_table.html +23 -23
results.html +1 -0
sentiment_analysis_table.html +23 -23
static/js/model-tooltips.js +101 -0
text_classification_table.html +23 -23
text_summarization_table.html +23 -23

causal_analysis_table.html CHANGED Viewed

@@ -31,7 +31,7 @@
       </thead>
       <tbody>
         <tr>
-          <td>Llama 3 70B Instruct</td>
           <td class="has-text-centered">0.148</td>
           <td class="has-text-centered">0.429</td>
           <td class="has-text-centered">0.148</td>
@@ -42,7 +42,7 @@
           <td class="has-text-centered">0.198</td>
         </tr>
         <tr>
-          <td>Llama 3 8B Instruct</td>
           <td class="has-text-centered">0.097</td>
           <td class="has-text-centered">0.341</td>
           <td class="has-text-centered">0.097</td>
@@ -53,7 +53,7 @@
           <td class="has-text-centered performance-strong">0.380</td>
         </tr>
         <tr>
-          <td>DBRX Instruct</td>
           <td class="has-text-centered">0.078</td>
           <td class="has-text-centered">0.521</td>
           <td class="has-text-centered">0.078</td>
@@ -64,7 +64,7 @@
           <td class="has-text-centered">0.235</td>
         </tr>
         <tr>
-          <td>DeepSeek LLM (67B)</td>
           <td class="has-text-centered">0.026</td>
           <td class="has-text-centered">0.214</td>
           <td class="has-text-centered">0.026</td>
@@ -75,7 +75,7 @@
           <td class="has-text-centered">0.221</td>
         </tr>
         <tr>
-          <td>Gemma 2 27B</td>
           <td class="has-text-centered">0.115</td>
           <td class="has-text-centered">0.510</td>
           <td class="has-text-centered">0.115</td>
@@ -86,7 +86,7 @@
           <td class="has-text-centered">0.262</td>
         </tr>
         <tr>
-          <td>Gemma 2 9B</td>
           <td class="has-text-centered">0.115</td>
           <td class="has-text-centered">0.394</td>
           <td class="has-text-centered">0.115</td>
@@ -97,7 +97,7 @@
           <td class="has-text-centered">0.258</td>
         </tr>
         <tr>
-          <td>Mistral (7B) Instruct v0.3</td>
           <td class="has-text-centered">0.078</td>
           <td class="has-text-centered">0.455</td>
           <td class="has-text-centered">0.078</td>
@@ -108,7 +108,7 @@
           <td class="has-text-centered">0.258</td>
         </tr>
         <tr>
-          <td>Mixtral-8x22B Instruct</td>
           <td class="has-text-centered">0.131</td>
           <td class="has-text-centered">0.486</td>
           <td class="has-text-centered">0.131</td>
@@ -119,7 +119,7 @@
           <td class="has-text-centered performance-medium">0.318</td>
         </tr>
         <tr>
-          <td>Mixtral-8x7B Instruct</td>
           <td class="has-text-centered">0.088</td>
           <td class="has-text-centered">0.510</td>
           <td class="has-text-centered">0.088</td>
@@ -130,7 +130,7 @@
           <td class="has-text-centered">0.273</td>
         </tr>
         <tr>
-          <td>Qwen 2 Instruct (72B)</td>
           <td class="has-text-centered">0.139</td>
           <td class="has-text-centered">0.489</td>
           <td class="has-text-centered">0.139</td>
@@ -141,7 +141,7 @@
           <td class="has-text-centered">0.188</td>
         </tr>
         <tr>
-          <td>WizardLM-2 8x22B</td>
           <td class="has-text-centered">0.076</td>
           <td class="has-text-centered">0.453</td>
           <td class="has-text-centered">0.076</td>
@@ -152,7 +152,7 @@
           <td class="has-text-centered">0.237</td>
         </tr>
         <tr>
-          <td>DeepSeek-V3</td>
           <td class="has-text-centered">0.164</td>
           <td class="has-text-centered">0.528</td>
           <td class="has-text-centered">0.164</td>
@@ -163,7 +163,7 @@
           <td class="has-text-centered">0.248</td>
         </tr>
         <tr>
-          <td>DeepSeek R1</td>
           <td class="has-text-centered performance-best">0.245</td>
           <td class="has-text-centered performance-strong">0.643</td>
           <td class="has-text-centered performance-best">0.245</td>
@@ -174,7 +174,7 @@
           <td class="has-text-centered">0.221</td>
         </tr>
         <tr>
-          <td>QwQ-32B-Preview</td>
           <td class="has-text-centered">0.110</td>
           <td class="has-text-centered">0.473</td>
           <td class="has-text-centered">0.110</td>
@@ -185,7 +185,7 @@
           <td class="has-text-centered performance-best">0.465</td>
         </tr>
         <tr>
-          <td>Jamba 1.5 Mini</td>
           <td class="has-text-centered">0.050</td>
           <td class="has-text-centered">0.280</td>
           <td class="has-text-centered">0.050</td>
@@ -196,7 +196,7 @@
           <td class="has-text-centered">0.295</td>
         </tr>
         <tr>
-          <td>Jamba 1.5 Large</td>
           <td class="has-text-centered">0.076</td>
           <td class="has-text-centered">0.517</td>
           <td class="has-text-centered">0.076</td>
@@ -207,7 +207,7 @@
           <td class="has-text-centered">0.200</td>
         </tr>
         <tr>
-          <td>Claude 3.5 Sonnet</td>
           <td class="has-text-centered">0.154</td>
           <td class="has-text-centered">0.564</td>
           <td class="has-text-centered">0.154</td>
@@ -218,7 +218,7 @@
           <td class="has-text-centered">0.235</td>
         </tr>
         <tr>
-          <td>Claude 3 Haiku</td>
           <td class="has-text-centered">0.082</td>
           <td class="has-text-centered">0.388</td>
           <td class="has-text-centered">0.082</td>
@@ -229,7 +229,7 @@
           <td class="has-text-centered">0.203</td>
         </tr>
         <tr>
-          <td>Cohere Command R 7B</td>
           <td class="has-text-centered">0.089</td>
           <td class="has-text-centered">0.363</td>
           <td class="has-text-centered">0.089</td>
@@ -240,7 +240,7 @@
           <td class="has-text-centered">0.275</td>
         </tr>
         <tr>
-          <td>Cohere Command R +</td>
           <td class="has-text-centered">0.090</td>
           <td class="has-text-centered">0.453</td>
           <td class="has-text-centered">0.090</td>
@@ -251,7 +251,7 @@
           <td class="has-text-centered">0.265</td>
         </tr>
         <tr>
-          <td>Google Gemini 1.5 Pro</td>
           <td class="has-text-centered performance-medium">0.165</td>
           <td class="has-text-centered">0.514</td>
           <td class="has-text-centered performance-medium">0.165</td>
@@ -262,7 +262,7 @@
           <td class="has-text-centered">0.258</td>
         </tr>
         <tr>
-          <td>OpenAI gpt-4o</td>
           <td class="has-text-centered">0.082</td>
           <td class="has-text-centered performance-medium">0.576</td>
           <td class="has-text-centered">0.082</td>
@@ -273,7 +273,7 @@
           <td class="has-text-centered">0.235</td>
         </tr>
         <tr>
-          <td>OpenAI o1-mini</td>
           <td class="has-text-centered performance-strong">0.206</td>
           <td class="has-text-centered performance-best">0.648</td>
           <td class="has-text-centered performance-strong">0.206</td>

       </thead>
       <tbody>
         <tr>
+          <td class="tooltip-trigger" data-title="Llama 3 70B Instruct" data-tooltip="Meta's advanced 70 billion parameter dense language model optimized for instruction-following tasks. Available through Together AI and notable for complex reasoning capabilities.">Llama 3 70B Instruct</td>
           <td class="has-text-centered">0.148</td>
           <td class="has-text-centered">0.429</td>
           <td class="has-text-centered">0.148</td>
           <td class="has-text-centered">0.198</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Llama 3 8B Instruct" data-tooltip="Meta's efficient 8 billion parameter language model optimized for instruction-following. Balances performance and efficiency for financial tasks with reasonable reasoning capabilities.">Llama 3 8B Instruct</td>
           <td class="has-text-centered">0.097</td>
           <td class="has-text-centered">0.341</td>
           <td class="has-text-centered">0.097</td>
           <td class="has-text-centered performance-strong">0.380</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DBRX Instruct" data-tooltip="Databricks' 132 billion parameter Mixture of Experts (MoE) model focused on advanced reasoning. Demonstrates competitive performance on financial tasks with strong text processing capabilities.">DBRX Instruct</td>
           <td class="has-text-centered">0.078</td>
           <td class="has-text-centered">0.521</td>
           <td class="has-text-centered">0.078</td>
           <td class="has-text-centered">0.235</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek LLM (67B)" data-tooltip="DeepSeek's 67 billion parameter model optimized for chat applications. Balances performance and efficiency across financial tasks with solid reasoning capabilities.">DeepSeek LLM (67B)</td>
           <td class="has-text-centered">0.026</td>
           <td class="has-text-centered">0.214</td>
           <td class="has-text-centered">0.026</td>
           <td class="has-text-centered">0.221</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Gemma 2 27B" data-tooltip="Google's open-weight 27 billion parameter model optimized for reasoning tasks. Balances performance and efficiency across financial domains with strong instruction-following.">Gemma 2 27B</td>
           <td class="has-text-centered">0.115</td>
           <td class="has-text-centered">0.510</td>
           <td class="has-text-centered">0.115</td>
           <td class="has-text-centered">0.262</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Gemma 2 9B" data-tooltip="Google's efficient open-weight 9 billion parameter model. Demonstrates good performance on financial tasks relative to its smaller size.">Gemma 2 9B</td>
           <td class="has-text-centered">0.115</td>
           <td class="has-text-centered">0.394</td>
           <td class="has-text-centered">0.115</td>
           <td class="has-text-centered">0.258</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mistral (7B) Instruct v0.3" data-tooltip="Mistral AI's 7 billion parameter instruction-tuned model. Demonstrates impressive efficiency with reasonable performance on financial tasks despite its smaller size.">Mistral (7B) Instruct v0.3</td>
           <td class="has-text-centered">0.078</td>
           <td class="has-text-centered">0.455</td>
           <td class="has-text-centered">0.078</td>
           <td class="has-text-centered">0.258</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mixtral-8x22B Instruct" data-tooltip="Mistral AI's 141 billion parameter MoE model with eight 22B expert networks. Features robust reasoning capabilities for financial tasks with strong instruction-following performance.">Mixtral-8x22B Instruct</td>
           <td class="has-text-centered">0.131</td>
           <td class="has-text-centered">0.486</td>
           <td class="has-text-centered">0.131</td>
           <td class="has-text-centered performance-medium">0.318</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mixtral-8x7B Instruct" data-tooltip="Mistral AI's 47 billion parameter MoE model with eight 7B expert networks. Balances efficiency and performance with reasonable financial reasoning capabilities.">Mixtral-8x7B Instruct</td>
           <td class="has-text-centered">0.088</td>
           <td class="has-text-centered">0.510</td>
           <td class="has-text-centered">0.088</td>
           <td class="has-text-centered">0.273</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Qwen 2 Instruct (72B)" data-tooltip="Alibaba's 72 billion parameter instruction-following model optimized for reasoning tasks. Features strong performance on financial domains with advanced text processing capabilities.">Qwen 2 Instruct (72B)</td>
           <td class="has-text-centered">0.139</td>
           <td class="has-text-centered">0.489</td>
           <td class="has-text-centered">0.139</td>
           <td class="has-text-centered">0.188</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="WizardLM-2 8x22B" data-tooltip="A 176 billion parameter MoE model focused on complex reasoning. Designed for advanced instruction-following with strong capabilities across financial tasks.">WizardLM-2 8x22B</td>
           <td class="has-text-centered">0.076</td>
           <td class="has-text-centered">0.453</td>
           <td class="has-text-centered">0.076</td>
           <td class="has-text-centered">0.237</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek-V3" data-tooltip="DeepSeek's 685 billion parameter Mixture of Experts (MoE) model optimized for advanced reasoning. Strong performance on financial tasks with robust instruction-following capabilities.">DeepSeek-V3</td>
           <td class="has-text-centered">0.164</td>
           <td class="has-text-centered">0.528</td>
           <td class="has-text-centered">0.164</td>
           <td class="has-text-centered">0.248</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek R1" data-tooltip="DeepSeek's premium 671 billion parameter Mixture of Experts (MoE) model representing their most advanced offering. Designed for state-of-the-art performance across complex reasoning and financial tasks.">DeepSeek R1</td>
           <td class="has-text-centered performance-best">0.245</td>
           <td class="has-text-centered performance-strong">0.643</td>
           <td class="has-text-centered performance-best">0.245</td>
           <td class="has-text-centered">0.221</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="QwQ-32B-Preview" data-tooltip="Qwen's experimental 32 billion parameter MoE model focused on efficient computation. Features interesting performance characteristics on certain financial tasks.">QwQ-32B-Preview</td>
           <td class="has-text-centered">0.110</td>
           <td class="has-text-centered">0.473</td>
           <td class="has-text-centered">0.110</td>
           <td class="has-text-centered performance-best">0.465</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Jamba 1.5 Mini" data-tooltip="A compact variant in the Jamba model series focused on efficiency. Balances performance and computational requirements for financial tasks.">Jamba 1.5 Mini</td>
           <td class="has-text-centered">0.050</td>
           <td class="has-text-centered">0.280</td>
           <td class="has-text-centered">0.050</td>
           <td class="has-text-centered">0.295</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Jamba 1.5 Large" data-tooltip="An expanded variant in the Jamba model series with enhanced capabilities. Features stronger reasoning for financial tasks than its smaller counterpart.">Jamba 1.5 Large</td>
           <td class="has-text-centered">0.076</td>
           <td class="has-text-centered">0.517</td>
           <td class="has-text-centered">0.076</td>
           <td class="has-text-centered">0.200</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Claude 3.5 Sonnet" data-tooltip="Anthropic's advanced proprietary language model optimized for complex reasoning and instruction-following. Features enhanced performance on financial tasks with strong text processing capabilities.">Claude 3.5 Sonnet</td>
           <td class="has-text-centered">0.154</td>
           <td class="has-text-centered">0.564</td>
           <td class="has-text-centered">0.154</td>
           <td class="has-text-centered">0.235</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Claude 3 Haiku" data-tooltip="Anthropic's smaller efficiency-focused model in the Claude family. Designed for speed and lower computational requirements while maintaining reasonable performance on financial tasks.">Claude 3 Haiku</td>
           <td class="has-text-centered">0.082</td>
           <td class="has-text-centered">0.388</td>
           <td class="has-text-centered">0.082</td>
           <td class="has-text-centered">0.203</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Cohere Command R 7B" data-tooltip="Cohere's 7-billion parameter model focused on instruction-following. An efficient model with reasonable financial domain capabilities for its size.">Cohere Command R 7B</td>
           <td class="has-text-centered">0.089</td>
           <td class="has-text-centered">0.363</td>
           <td class="has-text-centered">0.089</td>
           <td class="has-text-centered">0.275</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Cohere Command R +" data-tooltip="Cohere's enhanced command model with improved instruction-following capabilities. Features advanced reasoning for financial domains with stronger performance than its smaller counterpart.">Cohere Command R +</td>
           <td class="has-text-centered">0.090</td>
           <td class="has-text-centered">0.453</td>
           <td class="has-text-centered">0.090</td>
           <td class="has-text-centered">0.265</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Google Gemini 1.5 Pro" data-tooltip="Google's advanced proprietary multimodal model designed for complex reasoning and instruction-following tasks. Features strong performance across financial domains with advanced reasoning capabilities.">Google Gemini 1.5 Pro</td>
           <td class="has-text-centered performance-medium">0.165</td>
           <td class="has-text-centered">0.514</td>
           <td class="has-text-centered performance-medium">0.165</td>
           <td class="has-text-centered">0.258</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="OpenAI gpt-4o" data-tooltip="OpenAI's flagship multimodal model optimized for a balance of quality and speed. Features strong performance across diverse tasks with capabilities for complex financial reasoning and instruction following.">OpenAI gpt-4o</td>
           <td class="has-text-centered">0.082</td>
           <td class="has-text-centered performance-medium">0.576</td>
           <td class="has-text-centered">0.082</td>
           <td class="has-text-centered">0.235</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="OpenAI o1-mini" data-tooltip="OpenAI's smaller advanced model balancing efficiency and performance. Demonstrates surprisingly strong results on financial tasks despite its reduced parameter count.">OpenAI o1-mini</td>
           <td class="has-text-centered performance-strong">0.206</td>
           <td class="has-text-centered performance-best">0.648</td>
           <td class="has-text-centered performance-strong">0.206</td>

fix_tooltips.sh CHANGED Viewed

@@ -1,7 +1,47 @@
 #!/bin/bash
-# Script to fix tooltips in all HTML files
 # Fix tooltips in information_retrieval_table.html
 sed -i 's/tooltip-trigger" data-tooltip="A dataset for information retrieval in the financial domain/tooltip-trigger tooltip-right" data-tooltip="A dataset for information retrieval in the financial domain/g' information_retrieval_table.html
@@ -17,4 +57,162 @@ sed -i 's/tooltip-trigger tooltip-right" data-tooltip="Manually-annotated datase
 # Fix tooltips in text_summarization_table.html (in case the tooltip-right class isn't working)
 sed -i 's/tooltip-trigger tooltip-right" data-tooltip="Financial news summarization dataset with 2,000 financial news articles/tooltip-trigger tooltip-right" data-tooltip="Financial news summarization dataset with 2,000 financial news articles/g' text_summarization_table.html
 echo "Fixed tooltips in all HTML files"

 #!/bin/bash
+# Script to add model tooltips and fix existing tooltips in all HTML files
+# Model tooltip definitions - exact descriptions from cost analysis tab
+declare -A model_tooltips
+model_tooltips["OpenAI gpt-4o"]="OpenAI's flagship multimodal model optimized for a balance of quality and speed. Features strong performance across diverse tasks with capabilities for complex financial reasoning and instruction following."
+model_tooltips["GPT-4o"]="OpenAI's flagship multimodal model optimized for a balance of quality and speed. Features strong performance across diverse tasks with capabilities for complex financial reasoning and instruction following."
+model_tooltips["OpenAI o1-mini"]="OpenAI's smaller advanced model balancing efficiency and performance. Demonstrates surprisingly strong results on financial tasks despite its reduced parameter count."
+model_tooltips["o1-mini"]="OpenAI's smaller advanced model balancing efficiency and performance. Demonstrates surprisingly strong results on financial tasks despite its reduced parameter count."
+model_tooltips["Claude 3.5 Sonnet"]="Anthropic's advanced proprietary language model optimized for complex reasoning and instruction-following. Features enhanced performance on financial tasks with strong text processing capabilities."
+model_tooltips["Claude 3 Haiku"]="Anthropic's smaller efficiency-focused model in the Claude family. Designed for speed and lower computational requirements while maintaining reasonable performance on financial tasks."
+model_tooltips["Google Gemini 1.5 Pro"]="Google's advanced proprietary multimodal model designed for complex reasoning and instruction-following tasks. Features strong performance across financial domains with advanced reasoning capabilities."
+model_tooltips["Gemini 1.5 Pro"]="Google's advanced proprietary multimodal model designed for complex reasoning and instruction-following tasks. Features strong performance across financial domains with advanced reasoning capabilities."
+model_tooltips["Cohere Command R 7B"]="Cohere's 7-billion parameter model focused on instruction-following. An efficient model with reasonable financial domain capabilities for its size."
+model_tooltips["Cohere Command R +"]="Cohere's enhanced command model with improved instruction-following capabilities. Features advanced reasoning for financial domains with stronger performance than its smaller counterpart."
+model_tooltips["DeepSeek R1"]="DeepSeek's premium 671 billion parameter Mixture of Experts (MoE) model representing their most advanced offering. Designed for state-of-the-art performance across complex reasoning and financial tasks."
+model_tooltips["DeepSeek-V3"]="DeepSeek's 685 billion parameter Mixture of Experts (MoE) model optimized for advanced reasoning. Strong performance on financial tasks with robust instruction-following capabilities."
+model_tooltips["DeepSeek LLM (67B)"]="DeepSeek's 67 billion parameter model optimized for chat applications. Balances performance and efficiency across financial tasks with solid reasoning capabilities."
+model_tooltips["Llama 3 70B Instruct"]="Meta's advanced 70 billion parameter dense language model optimized for instruction-following tasks. Available through Together AI and notable for complex reasoning capabilities."
+model_tooltips["Llama 3 8B Instruct"]="Meta's efficient 8 billion parameter language model optimized for instruction-following. Balances performance and efficiency for financial tasks with reasonable reasoning capabilities."
+model_tooltips["DBRX Instruct"]="Databricks' 132 billion parameter Mixture of Experts (MoE) model focused on advanced reasoning. Demonstrates competitive performance on financial tasks with strong text processing capabilities."
+model_tooltips["Mixtral-8x22B Instruct"]="Mistral AI's 141 billion parameter MoE model with eight 22B expert networks. Features robust reasoning capabilities for financial tasks with strong instruction-following performance."
+model_tooltips["Mixtral-8x7B Instruct"]="Mistral AI's 47 billion parameter MoE model with eight 7B expert networks. Balances efficiency and performance with reasonable financial reasoning capabilities."
+model_tooltips["Mistral (7B) Instruct v0.3"]="Mistral AI's 7 billion parameter instruction-tuned model. Demonstrates impressive efficiency with reasonable performance on financial tasks despite its smaller size."
+model_tooltips["Qwen 2 Instruct (72B)"]="Alibaba's 72 billion parameter instruction-following model optimized for reasoning tasks. Features strong performance on financial domains with advanced text processing capabilities."
+model_tooltips["WizardLM-2 8x22B"]="A 176 billion parameter MoE model focused on complex reasoning. Designed for advanced instruction-following with strong capabilities across financial tasks."
+model_tooltips["Gemma 2 27B"]="Google's open-weight 27 billion parameter model optimized for reasoning tasks. Balances performance and efficiency across financial domains with strong instruction-following."
+model_tooltips["Gemma 2 9B"]="Google's efficient open-weight 9 billion parameter model. Demonstrates good performance on financial tasks relative to its smaller size."
+model_tooltips["QwQ-32B-Preview"]="Qwen's experimental 32 billion parameter MoE model focused on efficient computation. Features interesting performance characteristics on certain financial tasks."
+model_tooltips["Jamba 1.5 Mini"]="A compact variant in the Jamba model series focused on efficiency. Balances performance and computational requirements for financial tasks."
+model_tooltips["Jamba 1.5 Large"]="An expanded variant in the Jamba model series with enhanced capabilities. Features stronger reasoning for financial tasks than its smaller counterpart."
+# Files to process
+files=(
+  "text_classification_table.html"
+  "sentiment_analysis_table.html"
+  "information_retrieval_table.html"
+  "causal_analysis_table.html"
+  "text_summarization_table.html"
+  "qa_table.html"
+)
+# Fix existing dataset tooltips
 # Fix tooltips in information_retrieval_table.html
 sed -i 's/tooltip-trigger" data-tooltip="A dataset for information retrieval in the financial domain/tooltip-trigger tooltip-right" data-tooltip="A dataset for information retrieval in the financial domain/g' information_retrieval_table.html
 # Fix tooltips in text_summarization_table.html (in case the tooltip-right class isn't working)
 sed -i 's/tooltip-trigger tooltip-right" data-tooltip="Financial news summarization dataset with 2,000 financial news articles/tooltip-trigger tooltip-right" data-tooltip="Financial news summarization dataset with 2,000 financial news articles/g' text_summarization_table.html
+# Add or update model tooltips to each file
+for file in "${files[@]}"; do
+  echo "Processing $file..."
+  # For each model in our list
+  for model in "${!model_tooltips[@]}"; do
+    # Convert model name to a sed-safe string by escaping special characters
+    model_sed_safe=$(echo "$model" | sed 's/[\/&]/\\&/g')
+    tooltip_sed_safe=$(echo "${model_tooltips[$model]}" | sed 's/[\/&]/\\&/g')
+    # First, update existing tooltips if they exist
+    sed -i "s/data-title=\"$model_sed_safe\" data-tooltip=\"[^\"]*\"/data-title=\"$model_sed_safe\" data-tooltip=\"$tooltip_sed_safe\"/g" "$file"
+    # Then, add tooltips to plain model names without tooltips
+    sed -i "s/<td>$model_sed_safe<\/td>/<td class=\"tooltip-trigger tooltip-right\" data-title=\"$model_sed_safe\" data-tooltip=\"$tooltip_sed_safe\">$model_sed_safe<\/td>/g" "$file"
+  done
+  # Ensure tooltip script is included at the bottom of the file
+  if ! grep -q "tooltips.js" "$file"; then
+    echo "<script src=\"static/js/tooltips.js\"></script>" >> "$file"
+  fi
+  if ! grep -q "fixed-tooltips.js" "$file"; then
+    echo "<script src=\"static/js/fixed-tooltips.js\"></script>" >> "$file"
+  fi
+  # Add tooltips.css if not already included
+  if ! grep -q "tooltips.css" "$file"; then
+    sed -i '1i<link rel="stylesheet" href="static/css/tooltips.css">' "$file"
+  fi
+done
+# Also update results.html to ensure proper tooltip handling
+echo "Adding tooltip fix to results.html..."
+# Copy the model tooltip fixing code for all tabs to a new JS file
+cat > static/js/model-tooltips.js << EOF
+document.addEventListener('DOMContentLoaded', function() {
+  // Fix model tooltips in all tabs
+  function fixAllModelTooltips() {
+    console.log("Fixing model tooltips in all tabs");
+    // Find all model name cells (first column in all tables)
+    const modelCells = document.querySelectorAll('td:first-child');
+    // Process each model cell
+    modelCells.forEach(cell => {
+      // Skip cells that already have tooltips
+      if (cell.classList.contains('tooltip-trigger')) {
+        return;
+      }
+      // Get the model name
+      const modelName = cell.textContent.trim();
+      // Add tooltip-trigger class and position style
+      cell.classList.add('tooltip-trigger');
+      cell.style.position = 'relative';
+      // Add data-title attribute with the model name
+      cell.setAttribute('data-title', modelName);
+      // Add descriptive tooltip based on model
+      let tooltipText = "";
+      // Set descriptive tooltip based on model name
+      if (modelName.includes("GPT-4o")) {
+        tooltipText = "OpenAI's advanced proprietary closed-source model. One of the top performers across most tasks.";
+      } else if (modelName.includes("o1-mini")) {
+        tooltipText = "Compact proprietary model from OpenAI. Shows strong performance on causal analysis tasks.";
+      } else if (modelName.includes("Claude 3.5 Sonnet")) {
+        tooltipText = "Anthropic's model optimized for advanced reasoning. Strong performer on text classification and summarization.";
+      } else if (modelName.includes("Claude 3 Haiku")) {
+        tooltipText = "Anthropic's smaller, efficiency-focused model in the Claude series.";
+      } else if (modelName.includes("Gemini 1.5")) {
+        tooltipText = "Google's highly capable proprietary model.";
+      } else if (modelName.includes("Command R 7B")) {
+        tooltipText = "A 7-billion parameter model from Cohere focused on instruction-following.";
+      } else if (modelName.includes("Command R +")) {
+        tooltipText = "An improved version of Cohere's Command R model.";
+      } else if (modelName.includes("DeepSeek R1")) {
+        tooltipText = "Open-weight model from DeepSeek AI with 671B parameters (MoE architecture). One of the top performers in the benchmark.";
+      } else if (modelName.includes("DeepSeek-V3") || modelName.includes("DeepSeek V3")) {
+        tooltipText = "Open-weight model from DeepSeek AI with 685B parameters (MoE architecture).";
+      } else if (modelName.includes("DeepSeek LLM")) {
+        tooltipText = "A 67-billion parameter chat-optimized model from DeepSeek AI.";
+      } else if (modelName.includes("Llama 3 70B")) {
+        tooltipText = "Meta's 70-billion parameter dense model, optimized for instruction-following tasks.";
+      } else if (modelName.includes("Llama 3 8B")) {
+        tooltipText = "Meta's 8-billion parameter efficient model variant.";
+      } else if (modelName.includes("DBRX")) {
+        tooltipText = "Databricks' 132B parameter MoE model.";
+      } else if (modelName.includes("Mixtral-8x22B")) {
+        tooltipText = "141B parameter MoE model from Mistral AI with eight 22-billion parameter sub-models.";
+      } else if (modelName.includes("Mixtral-8x7B")) {
+        tooltipText = "46.7B parameter MoE model from Mistral AI with eight 7-billion parameter sub-models.";
+      } else if (modelName.includes("Mistral")) {
+        tooltipText = "A 7-billion parameter instruction-tuned model from Mistral AI.";
+      } else if (modelName.includes("Qwen 2")) {
+        tooltipText = "Alibaba's 72-billion parameter instruction-following model.";
+      } else if (modelName.includes("WizardLM")) {
+        tooltipText = "A 176B parameter MoE model focused on complex reasoning.";
+      } else if (modelName.includes("Gemma 2 27B")) {
+        tooltipText = "Google's open-weight 27B parameter model.";
+      } else if (modelName.includes("Gemma 2 9B")) {
+        tooltipText = "Google's open-weight 9B parameter efficient model.";
+      } else if (modelName.includes("QwQ-32B")) {
+        tooltipText = "Qwen's experimental MoE model with 32B parameters.";
+      } else if (modelName.includes("Jamba 1.5 Mini")) {
+        tooltipText = "A compact variant of the Jamba model series.";
+      } else if (modelName.includes("Jamba 1.5 Large")) {
+        tooltipText = "An expanded variant of the Jamba model series.";
+      } else {
+        tooltipText = "A large language model from the FLaME evaluation benchmark.";
+      }
+      // Set the tooltip
+      cell.setAttribute('data-tooltip', tooltipText);
+    });
+    // After adding attributes, run the tooltip fix
+    if (window.fixProblemTooltips) {
+      window.fixProblemTooltips();
+    }
+  }
+  // Run on page load
+  setTimeout(fixAllModelTooltips, 500);
+  // Run when tabs are clicked
+  const tabs = document.querySelectorAll('.tabs li');
+  tabs.forEach(tab => {
+    tab.addEventListener('click', () => {
+      // Give time for content to be displayed
+      setTimeout(fixAllModelTooltips, 200);
+    });
+  });
+});
+EOF
+# Add script inclusion to results.html if not already there
+if ! grep -q "model-tooltips.js" "results.html"; then
+  # Add the script link before the closing body tag
+  sed -i 's/<\/body>/<script src="static\/js\/model-tooltips.js"><\/script>\n<\/body>/g' "results.html"
+fi
+# Add tooltip fix to ensure all tabs initialize properly
+if ! grep -q "window.fixProblemTooltips" "results.html"; then
+  # Add call to fix all tooltips when tabs are clicked
+  sed -i '/document\.addEventListener.*DOMContentLoaded/a \
+  // Fix all tooltips in all tabs\
+  setTimeout(function() {\
+    if (window.fixProblemTooltips) {\
+      window.fixProblemTooltips();\
+    }\
+  }, 500);' "results.html"
+fi
 echo "Fixed tooltips in all HTML files"

information_retrieval_table.html CHANGED Viewed

@@ -46,7 +46,7 @@
       </thead>
       <tbody>
         <tr>
-          <td>Llama 3 70B Instruct</td>
           <td class="has-text-centered">0.715</td>
           <td class="has-text-centered">0.693</td>
           <td class="has-text-centered">0.701</td>
@@ -69,7 +69,7 @@
           <td class="has-text-centered">0.469</td>
         </tr>
         <tr>
-          <td>Llama 3 8B Instruct</td>
           <td class="has-text-centered">0.581</td>
           <td class="has-text-centered">0.558</td>
           <td class="has-text-centered">0.565</td>
@@ -92,7 +92,7 @@
           <td class="has-text-centered">0.350</td>
         </tr>
         <tr>
-          <td>DBRX Instruct</td>
           <td class="has-text-centered">0.516</td>
           <td class="has-text-centered">0.476</td>
           <td class="has-text-centered">0.489</td>
@@ -115,7 +115,7 @@
           <td class="has-text-centered">0.006</td>
         </tr>
         <tr>
-          <td>DeepSeek LLM (67B)</td>
           <td class="has-text-centered">0.752</td>
           <td class="has-text-centered">0.742</td>
           <td class="has-text-centered">0.745</td>
@@ -138,7 +138,7 @@
           <td class="has-text-centered">0.416</td>
         </tr>
         <tr>
-          <td>Gemma 2 27B</td>
           <td class="has-text-centered">0.772</td>
           <td class="has-text-centered">0.754</td>
           <td class="has-text-centered">0.761</td>
@@ -161,7 +161,7 @@
           <td class="has-text-centered">0.298</td>
         </tr>
         <tr>
-          <td>Gemma 2 9B</td>
           <td class="has-text-centered">0.665</td>
           <td class="has-text-centered">0.643</td>
           <td class="has-text-centered">0.651</td>
@@ -184,7 +184,7 @@
           <td class="has-text-centered">0.367</td>
         </tr>
         <tr>
-          <td>Mistral (7B) Instruct v0.3</td>
           <td class="has-text-centered">0.540</td>
           <td class="has-text-centered">0.522</td>
           <td class="has-text-centered">0.526</td>
@@ -207,7 +207,7 @@
           <td class="has-text-centered">0.368</td>
         </tr>
         <tr>
-          <td>Mixtral-8x22B Instruct</td>
           <td class="has-text-centered">0.653</td>
           <td class="has-text-centered">0.625</td>
           <td class="has-text-centered">0.635</td>
@@ -230,7 +230,7 @@
           <td class="has-text-centered">0.435</td>
         </tr>
         <tr>
-          <td>Mixtral-8x7B Instruct</td>
           <td class="has-text-centered">0.613</td>
           <td class="has-text-centered">0.591</td>
           <td class="has-text-centered">0.598</td>
@@ -253,7 +253,7 @@
           <td class="has-text-centered">0.267</td>
         </tr>
         <tr>
-          <td>Qwen 2 Instruct (72B)</td>
           <td class="has-text-centered">0.766</td>
           <td class="has-text-centered">0.742</td>
           <td class="has-text-centered">0.748</td>
@@ -276,7 +276,7 @@
           <td class="has-text-centered">0.483</td>
         </tr>
         <tr>
-          <td>WizardLM-2 8x22B</td>
           <td class="has-text-centered">0.755</td>
           <td class="has-text-centered">0.741</td>
           <td class="has-text-centered">0.744</td>
@@ -299,7 +299,7 @@
           <td class="has-text-centered">0.226</td>
         </tr>
         <tr>
-          <td>DeepSeek-V3</td>
           <td class="has-text-centered performance-medium">0.798</td>
           <td class="has-text-centered performance-medium">0.787</td>
           <td class="has-text-centered performance-medium">0.790</td>
@@ -322,7 +322,7 @@
           <td class="has-text-centered">0.549</td>
         </tr>
         <tr>
-          <td>DeepSeek R1</td>
           <td class="has-text-centered performance-best">0.813</td>
           <td class="has-text-centered performance-best">0.805</td>
           <td class="has-text-centered performance-best">0.807</td>
@@ -345,7 +345,7 @@
           <td class="has-text-centered performance-medium">0.587</td>
         </tr>
         <tr>
-          <td>QwQ-32B-Preview</td>
           <td class="has-text-centered">0.695</td>
           <td class="has-text-centered">0.681</td>
           <td class="has-text-centered">0.685</td>
@@ -368,7 +368,7 @@
           <td class="has-text-centered">0.005</td>
         </tr>
         <tr>
-          <td>Jamba 1.5 Mini</td>
           <td class="has-text-centered">0.564</td>
           <td class="has-text-centered">0.556</td>
           <td class="has-text-centered">0.552</td>
@@ -391,7 +391,7 @@
           <td class="has-text-centered">0.132</td>
         </tr>
         <tr>
-          <td>Jamba 1.5 Large</td>
           <td class="has-text-centered">0.707</td>
           <td class="has-text-centered">0.687</td>
           <td class="has-text-centered">0.693</td>
@@ -414,7 +414,7 @@
           <td class="has-text-centered">0.397</td>
         </tr>
         <tr>
-          <td>Claude 3.5 Sonnet</td>
           <td class="has-text-centered performance-strong">0.811</td>
           <td class="has-text-centered performance-strong">0.794</td>
           <td class="has-text-centered performance-strong">0.799</td>
@@ -437,7 +437,7 @@
           <td class="has-text-centered performance-strong">0.655</td>
         </tr>
         <tr>
-          <td>Claude 3 Haiku</td>
           <td class="has-text-centered">0.732</td>
           <td class="has-text-centered">0.700</td>
           <td class="has-text-centered">0.711</td>
@@ -460,7 +460,7 @@
           <td class="has-text-centered">0.494</td>
         </tr>
         <tr>
-          <td>Cohere Command R +</td>
           <td class="has-text-centered">0.769</td>
           <td class="has-text-centered">0.750</td>
           <td class="has-text-centered">0.756</td>
@@ -483,7 +483,7 @@
           <td class="has-text-centered">0.452</td>
         </tr>
         <tr>
-          <td>Google Gemini 1.5 Pro</td>
           <td class="has-text-centered">0.728</td>
           <td class="has-text-centered">0.705</td>
           <td class="has-text-centered">0.712</td>
@@ -506,7 +506,7 @@
           <td class="has-text-centered">0.393</td>
         </tr>
         <tr>
-          <td>OpenAI gpt-4o</td>
           <td class="has-text-centered">0.778</td>
           <td class="has-text-centered">0.760</td>
           <td class="has-text-centered">0.766</td>
@@ -529,7 +529,7 @@
           <td class="has-text-centered">0.523</td>
         </tr>
         <tr>
-          <td>OpenAI o1-mini</td>
           <td class="has-text-centered">0.772</td>
           <td class="has-text-centered">0.755</td>
           <td class="has-text-centered">0.761</td>

       </thead>
       <tbody>
         <tr>
+          <td class="tooltip-trigger" data-title="Llama 3 70B Instruct" data-tooltip="Meta's advanced 70 billion parameter dense language model optimized for instruction-following tasks. Available through Together AI and notable for complex reasoning capabilities.">Llama 3 70B Instruct</td>
           <td class="has-text-centered">0.715</td>
           <td class="has-text-centered">0.693</td>
           <td class="has-text-centered">0.701</td>
           <td class="has-text-centered">0.469</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Llama 3 8B Instruct" data-tooltip="Meta's efficient 8 billion parameter language model optimized for instruction-following. Balances performance and efficiency for financial tasks with reasonable reasoning capabilities.">Llama 3 8B Instruct</td>
           <td class="has-text-centered">0.581</td>
           <td class="has-text-centered">0.558</td>
           <td class="has-text-centered">0.565</td>
           <td class="has-text-centered">0.350</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DBRX Instruct" data-tooltip="Databricks' 132 billion parameter Mixture of Experts (MoE) model focused on advanced reasoning. Demonstrates competitive performance on financial tasks with strong text processing capabilities.">DBRX Instruct</td>
           <td class="has-text-centered">0.516</td>
           <td class="has-text-centered">0.476</td>
           <td class="has-text-centered">0.489</td>
           <td class="has-text-centered">0.006</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek LLM (67B)" data-tooltip="DeepSeek's 67 billion parameter model optimized for chat applications. Balances performance and efficiency across financial tasks with solid reasoning capabilities.">DeepSeek LLM (67B)</td>
           <td class="has-text-centered">0.752</td>
           <td class="has-text-centered">0.742</td>
           <td class="has-text-centered">0.745</td>
           <td class="has-text-centered">0.416</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Gemma 2 27B" data-tooltip="Google's open-weight 27 billion parameter model optimized for reasoning tasks. Balances performance and efficiency across financial domains with strong instruction-following.">Gemma 2 27B</td>
           <td class="has-text-centered">0.772</td>
           <td class="has-text-centered">0.754</td>
           <td class="has-text-centered">0.761</td>
           <td class="has-text-centered">0.298</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Gemma 2 9B" data-tooltip="Google's efficient open-weight 9 billion parameter model. Demonstrates good performance on financial tasks relative to its smaller size.">Gemma 2 9B</td>
           <td class="has-text-centered">0.665</td>
           <td class="has-text-centered">0.643</td>
           <td class="has-text-centered">0.651</td>
           <td class="has-text-centered">0.367</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mistral (7B) Instruct v0.3" data-tooltip="Mistral AI's 7 billion parameter instruction-tuned model. Demonstrates impressive efficiency with reasonable performance on financial tasks despite its smaller size.">Mistral (7B) Instruct v0.3</td>
           <td class="has-text-centered">0.540</td>
           <td class="has-text-centered">0.522</td>
           <td class="has-text-centered">0.526</td>
           <td class="has-text-centered">0.368</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mixtral-8x22B Instruct" data-tooltip="Mistral AI's 141 billion parameter MoE model with eight 22B expert networks. Features robust reasoning capabilities for financial tasks with strong instruction-following performance.">Mixtral-8x22B Instruct</td>
           <td class="has-text-centered">0.653</td>
           <td class="has-text-centered">0.625</td>
           <td class="has-text-centered">0.635</td>
           <td class="has-text-centered">0.435</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mixtral-8x7B Instruct" data-tooltip="Mistral AI's 47 billion parameter MoE model with eight 7B expert networks. Balances efficiency and performance with reasonable financial reasoning capabilities.">Mixtral-8x7B Instruct</td>
           <td class="has-text-centered">0.613</td>
           <td class="has-text-centered">0.591</td>
           <td class="has-text-centered">0.598</td>
           <td class="has-text-centered">0.267</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Qwen 2 Instruct (72B)" data-tooltip="Alibaba's 72 billion parameter instruction-following model optimized for reasoning tasks. Features strong performance on financial domains with advanced text processing capabilities.">Qwen 2 Instruct (72B)</td>
           <td class="has-text-centered">0.766</td>
           <td class="has-text-centered">0.742</td>
           <td class="has-text-centered">0.748</td>
           <td class="has-text-centered">0.483</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="WizardLM-2 8x22B" data-tooltip="A 176 billion parameter MoE model focused on complex reasoning. Designed for advanced instruction-following with strong capabilities across financial tasks.">WizardLM-2 8x22B</td>
           <td class="has-text-centered">0.755</td>
           <td class="has-text-centered">0.741</td>
           <td class="has-text-centered">0.744</td>
           <td class="has-text-centered">0.226</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek-V3" data-tooltip="DeepSeek's 685 billion parameter Mixture of Experts (MoE) model optimized for advanced reasoning. Strong performance on financial tasks with robust instruction-following capabilities.">DeepSeek-V3</td>
           <td class="has-text-centered performance-medium">0.798</td>
           <td class="has-text-centered performance-medium">0.787</td>
           <td class="has-text-centered performance-medium">0.790</td>
           <td class="has-text-centered">0.549</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek R1" data-tooltip="DeepSeek's premium 671 billion parameter Mixture of Experts (MoE) model representing their most advanced offering. Designed for state-of-the-art performance across complex reasoning and financial tasks.">DeepSeek R1</td>
           <td class="has-text-centered performance-best">0.813</td>
           <td class="has-text-centered performance-best">0.805</td>
           <td class="has-text-centered performance-best">0.807</td>
           <td class="has-text-centered performance-medium">0.587</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="QwQ-32B-Preview" data-tooltip="Qwen's experimental 32 billion parameter MoE model focused on efficient computation. Features interesting performance characteristics on certain financial tasks.">QwQ-32B-Preview</td>
           <td class="has-text-centered">0.695</td>
           <td class="has-text-centered">0.681</td>
           <td class="has-text-centered">0.685</td>
           <td class="has-text-centered">0.005</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Jamba 1.5 Mini" data-tooltip="A compact variant in the Jamba model series focused on efficiency. Balances performance and computational requirements for financial tasks.">Jamba 1.5 Mini</td>
           <td class="has-text-centered">0.564</td>
           <td class="has-text-centered">0.556</td>
           <td class="has-text-centered">0.552</td>
           <td class="has-text-centered">0.132</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Jamba 1.5 Large" data-tooltip="An expanded variant in the Jamba model series with enhanced capabilities. Features stronger reasoning for financial tasks than its smaller counterpart.">Jamba 1.5 Large</td>
           <td class="has-text-centered">0.707</td>
           <td class="has-text-centered">0.687</td>
           <td class="has-text-centered">0.693</td>
           <td class="has-text-centered">0.397</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Claude 3.5 Sonnet" data-tooltip="Anthropic's advanced proprietary language model optimized for complex reasoning and instruction-following. Features enhanced performance on financial tasks with strong text processing capabilities.">Claude 3.5 Sonnet</td>
           <td class="has-text-centered performance-strong">0.811</td>
           <td class="has-text-centered performance-strong">0.794</td>
           <td class="has-text-centered performance-strong">0.799</td>
           <td class="has-text-centered performance-strong">0.655</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Claude 3 Haiku" data-tooltip="Anthropic's smaller efficiency-focused model in the Claude family. Designed for speed and lower computational requirements while maintaining reasonable performance on financial tasks.">Claude 3 Haiku</td>
           <td class="has-text-centered">0.732</td>
           <td class="has-text-centered">0.700</td>
           <td class="has-text-centered">0.711</td>
           <td class="has-text-centered">0.494</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Cohere Command R +" data-tooltip="Cohere's enhanced command model with improved instruction-following capabilities. Features advanced reasoning for financial domains with stronger performance than its smaller counterpart.">Cohere Command R +</td>
           <td class="has-text-centered">0.769</td>
           <td class="has-text-centered">0.750</td>
           <td class="has-text-centered">0.756</td>
           <td class="has-text-centered">0.452</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Google Gemini 1.5 Pro" data-tooltip="Google's advanced proprietary multimodal model designed for complex reasoning and instruction-following tasks. Features strong performance across financial domains with advanced reasoning capabilities.">Google Gemini 1.5 Pro</td>
           <td class="has-text-centered">0.728</td>
           <td class="has-text-centered">0.705</td>
           <td class="has-text-centered">0.712</td>
           <td class="has-text-centered">0.393</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="OpenAI gpt-4o" data-tooltip="OpenAI's flagship multimodal model optimized for a balance of quality and speed. Features strong performance across diverse tasks with capabilities for complex financial reasoning and instruction following.">OpenAI gpt-4o</td>
           <td class="has-text-centered">0.778</td>
           <td class="has-text-centered">0.760</td>
           <td class="has-text-centered">0.766</td>
           <td class="has-text-centered">0.523</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="OpenAI o1-mini" data-tooltip="OpenAI's smaller advanced model balancing efficiency and performance. Demonstrates surprisingly strong results on financial tasks despite its reduced parameter count.">OpenAI o1-mini</td>
           <td class="has-text-centered">0.772</td>
           <td class="has-text-centered">0.755</td>
           <td class="has-text-centered">0.761</td>

qa_table.html CHANGED Viewed

@@ -25,139 +25,139 @@
       </thead>
       <tbody>
         <tr>
-          <td>Llama 3 70B Instruct</td>
           <td class="has-text-centered">0.809</td>
           <td class="has-text-centered">0.709</td>
           <td class="has-text-centered">0.772</td>
         </tr>
         <tr>
-          <td>Llama 3 8B Instruct</td>
           <td class="has-text-centered">0.767</td>
           <td class="has-text-centered">0.268</td>
           <td class="has-text-centered">0.706</td>
         </tr>
         <tr>
-          <td>DBRX Instruct</td>
           <td class="has-text-centered">0.738</td>
           <td class="has-text-centered">0.252</td>
           <td class="has-text-centered">0.633</td>
         </tr>
         <tr>
-          <td>DeepSeek LLM (67B)</td>
           <td class="has-text-centered">0.742</td>
           <td class="has-text-centered">0.174</td>
           <td class="has-text-centered">0.355</td>
         </tr>
         <tr>
-          <td>Gemma 2 27B</td>
           <td class="has-text-centered">0.768</td>
           <td class="has-text-centered">0.268</td>
           <td class="has-text-centered">0.734</td>
         </tr>
         <tr>
-          <td>Gemma 2 9B</td>
           <td class="has-text-centered">0.779</td>
           <td class="has-text-centered">0.292</td>
           <td class="has-text-centered">0.750</td>
         </tr>
         <tr>
-          <td>Mistral (7B) Instruct v0.3</td>
           <td class="has-text-centered">0.655</td>
           <td class="has-text-centered">0.199</td>
           <td class="has-text-centered">0.553</td>
         </tr>
         <tr>
-          <td>Mixtral-8x22B Instruct</td>
           <td class="has-text-centered">0.766</td>
           <td class="has-text-centered">0.285</td>
           <td class="has-text-centered">0.666</td>
         </tr>
         <tr>
-          <td>Mixtral-8x7B Instruct</td>
           <td class="has-text-centered">0.611</td>
           <td class="has-text-centered">0.315</td>
           <td class="has-text-centered">0.501</td>
         </tr>
         <tr>
-          <td>Qwen 2 Instruct (72B)</td>
           <td class="has-text-centered">0.819</td>
           <td class="has-text-centered">0.269</td>
           <td class="has-text-centered">0.715</td>
         </tr>
         <tr>
-          <td>WizardLM-2 8x22B</td>
           <td class="has-text-centered">0.796</td>
           <td class="has-text-centered">0.247</td>
           <td class="has-text-centered">0.725</td>
         </tr>
         <tr>
-          <td>DeepSeek-V3</td>
           <td class="has-text-centered performance-medium">0.840</td>
           <td class="has-text-centered">0.261</td>
           <td class="has-text-centered performance-low">0.779</td>
         </tr>
         <tr>
-          <td>DeepSeek R1</td>
           <td class="has-text-centered performance-low">0.836</td>
           <td class="has-text-centered performance-best">0.853</td>
           <td class="has-text-centered performance-best">0.858</td>
         </tr>
         <tr>
-          <td>QwQ-32B-Preview</td>
           <td class="has-text-centered">0.793</td>
           <td class="has-text-centered">0.282</td>
           <td class="has-text-centered performance-medium">0.796</td>
         </tr>
         <tr>
-          <td>Jamba 1.5 Mini</td>
           <td class="has-text-centered">0.666</td>
           <td class="has-text-centered">0.218</td>
           <td class="has-text-centered">0.586</td>
         </tr>
         <tr>
-          <td>Jamba 1.5 Large</td>
           <td class="has-text-centered">0.790</td>
           <td class="has-text-centered">0.225</td>
           <td class="has-text-centered">0.660</td>
         </tr>
         <tr>
-          <td>Claude 3.5 Sonnet</td>
           <td class="has-text-centered performance-best">0.844</td>
           <td class="has-text-centered">0.402</td>
           <td class="has-text-centered">0.700</td>
         </tr>
         <tr>
-          <td>Claude 3 Haiku</td>
           <td class="has-text-centered">0.803</td>
           <td class="has-text-centered">0.421</td>
           <td class="has-text-centered">0.733</td>
         </tr>
         <tr>
-          <td>Cohere Command R 7B</td>
           <td class="has-text-centered">0.709</td>
           <td class="has-text-centered">0.212</td>
           <td class="has-text-centered">0.716</td>
         </tr>
         <tr>
-          <td>Cohere Command R +</td>
           <td class="has-text-centered">0.776</td>
           <td class="has-text-centered">0.259</td>
           <td class="has-text-centered">0.698</td>
         </tr>
         <tr>
-          <td>Google Gemini 1.5 Pro</td>
           <td class="has-text-centered">0.829</td>
           <td class="has-text-centered">0.280</td>
           <td class="has-text-centered">0.763</td>
         </tr>
         <tr>
-          <td>OpenAI gpt-4o</td>
           <td class="has-text-centered performance-low">0.836</td>
           <td class="has-text-centered performance-low">0.749</td>
           <td class="has-text-centered">0.754</td>
         </tr>
         <tr>
-          <td>OpenAI o1-mini</td>
           <td class="has-text-centered">0.799</td>
           <td class="has-text-centered performance-medium">0.840</td>
           <td class="has-text-centered">0.698</td>

       </thead>
       <tbody>
         <tr>
+          <td class="tooltip-trigger" data-title="Llama 3 70B Instruct" data-tooltip="Meta's advanced 70 billion parameter dense language model optimized for instruction-following tasks. Available through Together AI and notable for complex reasoning capabilities.">Llama 3 70B Instruct</td>
           <td class="has-text-centered">0.809</td>
           <td class="has-text-centered">0.709</td>
           <td class="has-text-centered">0.772</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Llama 3 8B Instruct" data-tooltip="Meta's efficient 8 billion parameter language model optimized for instruction-following. Balances performance and efficiency for financial tasks with reasonable reasoning capabilities.">Llama 3 8B Instruct</td>
           <td class="has-text-centered">0.767</td>
           <td class="has-text-centered">0.268</td>
           <td class="has-text-centered">0.706</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DBRX Instruct" data-tooltip="Databricks' 132 billion parameter Mixture of Experts (MoE) model focused on advanced reasoning. Demonstrates competitive performance on financial tasks with strong text processing capabilities.">DBRX Instruct</td>
           <td class="has-text-centered">0.738</td>
           <td class="has-text-centered">0.252</td>
           <td class="has-text-centered">0.633</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek LLM (67B)" data-tooltip="DeepSeek's 67 billion parameter model optimized for chat applications. Balances performance and efficiency across financial tasks with solid reasoning capabilities.">DeepSeek LLM (67B)</td>
           <td class="has-text-centered">0.742</td>
           <td class="has-text-centered">0.174</td>
           <td class="has-text-centered">0.355</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Gemma 2 27B" data-tooltip="Google's open-weight 27 billion parameter model optimized for reasoning tasks. Balances performance and efficiency across financial domains with strong instruction-following.">Gemma 2 27B</td>
           <td class="has-text-centered">0.768</td>
           <td class="has-text-centered">0.268</td>
           <td class="has-text-centered">0.734</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Gemma 2 9B" data-tooltip="Google's efficient open-weight 9 billion parameter model. Demonstrates good performance on financial tasks relative to its smaller size.">Gemma 2 9B</td>
           <td class="has-text-centered">0.779</td>
           <td class="has-text-centered">0.292</td>
           <td class="has-text-centered">0.750</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mistral (7B) Instruct v0.3" data-tooltip="Mistral AI's 7 billion parameter instruction-tuned model. Demonstrates impressive efficiency with reasonable performance on financial tasks despite its smaller size.">Mistral (7B) Instruct v0.3</td>
           <td class="has-text-centered">0.655</td>
           <td class="has-text-centered">0.199</td>
           <td class="has-text-centered">0.553</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mixtral-8x22B Instruct" data-tooltip="Mistral AI's 141 billion parameter MoE model with eight 22B expert networks. Features robust reasoning capabilities for financial tasks with strong instruction-following performance.">Mixtral-8x22B Instruct</td>
           <td class="has-text-centered">0.766</td>
           <td class="has-text-centered">0.285</td>
           <td class="has-text-centered">0.666</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mixtral-8x7B Instruct" data-tooltip="Mistral AI's 47 billion parameter MoE model with eight 7B expert networks. Balances efficiency and performance with reasonable financial reasoning capabilities.">Mixtral-8x7B Instruct</td>
           <td class="has-text-centered">0.611</td>
           <td class="has-text-centered">0.315</td>
           <td class="has-text-centered">0.501</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Qwen 2 Instruct (72B)" data-tooltip="Alibaba's 72 billion parameter instruction-following model optimized for reasoning tasks. Features strong performance on financial domains with advanced text processing capabilities.">Qwen 2 Instruct (72B)</td>
           <td class="has-text-centered">0.819</td>
           <td class="has-text-centered">0.269</td>
           <td class="has-text-centered">0.715</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="WizardLM-2 8x22B" data-tooltip="A 176 billion parameter MoE model focused on complex reasoning. Designed for advanced instruction-following with strong capabilities across financial tasks.">WizardLM-2 8x22B</td>
           <td class="has-text-centered">0.796</td>
           <td class="has-text-centered">0.247</td>
           <td class="has-text-centered">0.725</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek-V3" data-tooltip="DeepSeek's 685 billion parameter Mixture of Experts (MoE) model optimized for advanced reasoning. Strong performance on financial tasks with robust instruction-following capabilities.">DeepSeek-V3</td>
           <td class="has-text-centered performance-medium">0.840</td>
           <td class="has-text-centered">0.261</td>
           <td class="has-text-centered performance-low">0.779</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek R1" data-tooltip="DeepSeek's premium 671 billion parameter Mixture of Experts (MoE) model representing their most advanced offering. Designed for state-of-the-art performance across complex reasoning and financial tasks.">DeepSeek R1</td>
           <td class="has-text-centered performance-low">0.836</td>
           <td class="has-text-centered performance-best">0.853</td>
           <td class="has-text-centered performance-best">0.858</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="QwQ-32B-Preview" data-tooltip="Qwen's experimental 32 billion parameter MoE model focused on efficient computation. Features interesting performance characteristics on certain financial tasks.">QwQ-32B-Preview</td>
           <td class="has-text-centered">0.793</td>
           <td class="has-text-centered">0.282</td>
           <td class="has-text-centered performance-medium">0.796</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Jamba 1.5 Mini" data-tooltip="A compact variant in the Jamba model series focused on efficiency. Balances performance and computational requirements for financial tasks.">Jamba 1.5 Mini</td>
           <td class="has-text-centered">0.666</td>
           <td class="has-text-centered">0.218</td>
           <td class="has-text-centered">0.586</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Jamba 1.5 Large" data-tooltip="An expanded variant in the Jamba model series with enhanced capabilities. Features stronger reasoning for financial tasks than its smaller counterpart.">Jamba 1.5 Large</td>
           <td class="has-text-centered">0.790</td>
           <td class="has-text-centered">0.225</td>
           <td class="has-text-centered">0.660</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Claude 3.5 Sonnet" data-tooltip="Anthropic's advanced proprietary language model optimized for complex reasoning and instruction-following. Features enhanced performance on financial tasks with strong text processing capabilities.">Claude 3.5 Sonnet</td>
           <td class="has-text-centered performance-best">0.844</td>
           <td class="has-text-centered">0.402</td>
           <td class="has-text-centered">0.700</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Claude 3 Haiku" data-tooltip="Anthropic's smaller efficiency-focused model in the Claude family. Designed for speed and lower computational requirements while maintaining reasonable performance on financial tasks.">Claude 3 Haiku</td>
           <td class="has-text-centered">0.803</td>
           <td class="has-text-centered">0.421</td>
           <td class="has-text-centered">0.733</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Cohere Command R 7B" data-tooltip="Cohere's 7-billion parameter model focused on instruction-following. An efficient model with reasonable financial domain capabilities for its size.">Cohere Command R 7B</td>
           <td class="has-text-centered">0.709</td>
           <td class="has-text-centered">0.212</td>
           <td class="has-text-centered">0.716</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Cohere Command R +" data-tooltip="Cohere's enhanced command model with improved instruction-following capabilities. Features advanced reasoning for financial domains with stronger performance than its smaller counterpart.">Cohere Command R +</td>
           <td class="has-text-centered">0.776</td>
           <td class="has-text-centered">0.259</td>
           <td class="has-text-centered">0.698</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Google Gemini 1.5 Pro" data-tooltip="Google's advanced proprietary multimodal model designed for complex reasoning and instruction-following tasks. Features strong performance across financial domains with advanced reasoning capabilities.">Google Gemini 1.5 Pro</td>
           <td class="has-text-centered">0.829</td>
           <td class="has-text-centered">0.280</td>
           <td class="has-text-centered">0.763</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="OpenAI gpt-4o" data-tooltip="OpenAI's flagship multimodal model optimized for a balance of quality and speed. Features strong performance across diverse tasks with capabilities for complex financial reasoning and instruction following.">OpenAI gpt-4o</td>
           <td class="has-text-centered performance-low">0.836</td>
           <td class="has-text-centered performance-low">0.749</td>
           <td class="has-text-centered">0.754</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="OpenAI o1-mini" data-tooltip="OpenAI's smaller advanced model balancing efficiency and performance. Demonstrates surprisingly strong results on financial tasks despite its reduced parameter count.">OpenAI o1-mini</td>
           <td class="has-text-centered">0.799</td>
           <td class="has-text-centered performance-medium">0.840</td>
           <td class="has-text-centered">0.698</td>

results.html CHANGED Viewed

@@ -3135,5 +3135,6 @@
   <script src="static/js/tooltips.js"></script>
   <script src="static/js/fixed-tooltips.js"></script>
   <script src="static/js/tooltip-fix.js"></script>
 </body>
 </html>

   <script src="static/js/tooltips.js"></script>
   <script src="static/js/fixed-tooltips.js"></script>
   <script src="static/js/tooltip-fix.js"></script>
+<script src="static/js/model-tooltips.js"></script>
 </body>
 </html>

sentiment_analysis_table.html CHANGED Viewed

@@ -35,7 +35,7 @@
       </thead>
       <tbody>
         <tr>
-          <td>Llama 3 70B Instruct</td>
           <td class="has-text-centered">0.123</td>
           <td class="has-text-centered">0.290</td>
           <td class="has-text-centered">0.272</td>
@@ -49,7 +49,7 @@
           <td class="has-text-centered">0.573</td>
         </tr>
         <tr>
-          <td>Llama 3 8B Instruct</td>
           <td class="has-text-centered">0.161</td>
           <td class="has-text-centered">0.344</td>
           <td class="has-text-centered">0.045</td>
@@ -63,7 +63,7 @@
           <td class="has-text-centered">0.625</td>
         </tr>
         <tr>
-          <td>DBRX Instruct</td>
           <td class="has-text-centered">0.160</td>
           <td class="has-text-centered">0.321</td>
           <td class="has-text-centered">0.052</td>
@@ -77,7 +77,7 @@
           <td class="has-text-centered">0.541</td>
         </tr>
         <tr>
-          <td>DeepSeek LLM (67B)</td>
           <td class="has-text-centered">0.118</td>
           <td class="has-text-centered">0.278</td>
           <td class="has-text-centered">0.302</td>
@@ -91,7 +91,7 @@
           <td class="has-text-centered">0.544</td>
         </tr>
         <tr>
-          <td>Gemma 2 27B</td>
           <td class="has-text-centered performance-best">0.100</td>
           <td class="has-text-centered performance-best">0.266</td>
           <td class="has-text-centered">0.406</td>
@@ -105,7 +105,7 @@
           <td class="has-text-centered">0.524</td>
         </tr>
         <tr>
-          <td>Gemma 2 9B</td>
           <td class="has-text-centered">0.189</td>
           <td class="has-text-centered">0.352</td>
           <td class="has-text-centered">-0.120</td>
@@ -119,7 +119,7 @@
           <td class="has-text-centered">0.499</td>
         </tr>
         <tr>
-          <td>Mistral (7B) Instruct v0.3</td>
           <td class="has-text-centered">0.135</td>
           <td class="has-text-centered">0.278</td>
           <td class="has-text-centered">0.200</td>
@@ -133,7 +133,7 @@
           <td class="has-text-centered">0.542</td>
         </tr>
         <tr>
-          <td>Mixtral-8x22B Instruct</td>
           <td class="has-text-centered">0.221</td>
           <td class="has-text-centered">0.364</td>
           <td class="has-text-centered">-0.310</td>
@@ -147,7 +147,7 @@
           <td class="has-text-centered">0.538</td>
         </tr>
         <tr>
-          <td>Mixtral-8x7B Instruct</td>
           <td class="has-text-centered">0.208</td>
           <td class="has-text-centered">0.307</td>
           <td class="has-text-centered">-0.229</td>
@@ -161,7 +161,7 @@
           <td class="has-text-centered">0.518</td>
         </tr>
         <tr>
-          <td>Qwen 2 Instruct (72B)</td>
           <td class="has-text-centered">0.205</td>
           <td class="has-text-centered">0.409</td>
           <td class="has-text-centered">-0.212</td>
@@ -175,7 +175,7 @@
           <td class="has-text-centered">0.601</td>
         </tr>
         <tr>
-          <td>WizardLM-2 8x22B</td>
           <td class="has-text-centered">0.129</td>
           <td class="has-text-centered">0.283</td>
           <td class="has-text-centered">0.239</td>
@@ -189,7 +189,7 @@
           <td class="has-text-centered">0.570</td>
         </tr>
         <tr>
-          <td>DeepSeek-V3</td>
           <td class="has-text-centered">0.150</td>
           <td class="has-text-centered">0.311</td>
           <td class="has-text-centered">0.111</td>
@@ -203,7 +203,7 @@
           <td class="has-text-centered">0.572</td>
         </tr>
         <tr>
-          <td>DeepSeek R1</td>
           <td class="has-text-centered performance-low">0.110</td>
           <td class="has-text-centered">0.289</td>
           <td class="has-text-centered">0.348</td>
@@ -217,7 +217,7 @@
           <td class="has-text-centered">0.489</td>
         </tr>
         <tr>
-          <td>QwQ-32B-Preview</td>
           <td class="has-text-centered">0.141</td>
           <td class="has-text-centered">0.290</td>
           <td class="has-text-centered">0.165</td>
@@ -231,7 +231,7 @@
           <td class="has-text-centered">0.534</td>
         </tr>
         <tr>
-          <td>Jamba 1.5 Mini</td>
           <td class="has-text-centered performance-low">0.119</td>
           <td class="has-text-centered">0.282</td>
           <td class="has-text-centered">0.293</td>
@@ -245,7 +245,7 @@
           <td class="has-text-centered">0.525</td>
         </tr>
         <tr>
-          <td>Jamba 1.5 Large</td>
           <td class="has-text-centered">0.183</td>
           <td class="has-text-centered">0.363</td>
           <td class="has-text-centered">-0.085</td>
@@ -259,7 +259,7 @@
           <td class="has-text-centered">0.573</td>
         </tr>
         <tr>
-          <td>Claude 3.5 Sonnet</td>
           <td class="has-text-centered performance-low">0.101</td>
           <td class="has-text-centered performance-low">0.268</td>
           <td class="has-text-centered performance-best">0.402</td>
@@ -273,7 +273,7 @@
           <td class="has-text-centered performance-medium">0.585</td>
         </tr>
         <tr>
-          <td>Claude 3 Haiku</td>
           <td class="has-text-centered">0.167</td>
           <td class="has-text-centered">0.349</td>
           <td class="has-text-centered">0.008</td>
@@ -287,7 +287,7 @@
           <td class="has-text-centered">0.538</td>
         </tr>
         <tr>
-          <td>Cohere Command R 7B</td>
           <td class="has-text-centered">0.164</td>
           <td class="has-text-centered">0.319</td>
           <td class="has-text-centered">0.028</td>
@@ -301,7 +301,7 @@
           <td class="has-text-centered">0.547</td>
         </tr>
         <tr>
-          <td>Cohere Command R +</td>
           <td class="has-text-centered performance-medium">0.106</td>
           <td class="has-text-centered">0.274</td>
           <td class="has-text-centered performance-medium">0.373</td>
@@ -315,7 +315,7 @@
           <td class="has-text-centered">0.547</td>
         </tr>
         <tr>
-          <td>Google Gemini 1.5 Pro</td>
           <td class="has-text-centered">0.144</td>
           <td class="has-text-centered">0.329</td>
           <td class="has-text-centered">0.149</td>
@@ -329,7 +329,7 @@
           <td class="has-text-centered performance-best">0.587</td>
         </tr>
         <tr>
-          <td>OpenAI gpt-4o</td>
           <td class="has-text-centered">0.184</td>
           <td class="has-text-centered">0.317</td>
           <td class="has-text-centered">-0.089</td>
@@ -343,7 +343,7 @@
           <td class="has-text-centered">0.515</td>
         </tr>
         <tr>
-          <td>OpenAI o1-mini</td>
           <td class="has-text-centered performance-medium">0.120</td>
           <td class="has-text-centered">0.295</td>
           <td class="has-text-centered">0.289</td>

       </thead>
       <tbody>
         <tr>
+          <td class="tooltip-trigger" data-title="Llama 3 70B Instruct" data-tooltip="Meta's advanced 70 billion parameter dense language model optimized for instruction-following tasks. Available through Together AI and notable for complex reasoning capabilities.">Llama 3 70B Instruct</td>
           <td class="has-text-centered">0.123</td>
           <td class="has-text-centered">0.290</td>
           <td class="has-text-centered">0.272</td>
           <td class="has-text-centered">0.573</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Llama 3 8B Instruct" data-tooltip="Meta's efficient 8 billion parameter language model optimized for instruction-following. Balances performance and efficiency for financial tasks with reasonable reasoning capabilities.">Llama 3 8B Instruct</td>
           <td class="has-text-centered">0.161</td>
           <td class="has-text-centered">0.344</td>
           <td class="has-text-centered">0.045</td>
           <td class="has-text-centered">0.625</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DBRX Instruct" data-tooltip="Databricks' 132 billion parameter Mixture of Experts (MoE) model focused on advanced reasoning. Demonstrates competitive performance on financial tasks with strong text processing capabilities.">DBRX Instruct</td>
           <td class="has-text-centered">0.160</td>
           <td class="has-text-centered">0.321</td>
           <td class="has-text-centered">0.052</td>
           <td class="has-text-centered">0.541</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek LLM (67B)" data-tooltip="DeepSeek's 67 billion parameter model optimized for chat applications. Balances performance and efficiency across financial tasks with solid reasoning capabilities.">DeepSeek LLM (67B)</td>
           <td class="has-text-centered">0.118</td>
           <td class="has-text-centered">0.278</td>
           <td class="has-text-centered">0.302</td>
           <td class="has-text-centered">0.544</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Gemma 2 27B" data-tooltip="Google's open-weight 27 billion parameter model optimized for reasoning tasks. Balances performance and efficiency across financial domains with strong instruction-following.">Gemma 2 27B</td>
           <td class="has-text-centered performance-best">0.100</td>
           <td class="has-text-centered performance-best">0.266</td>
           <td class="has-text-centered">0.406</td>
           <td class="has-text-centered">0.524</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Gemma 2 9B" data-tooltip="Google's efficient open-weight 9 billion parameter model. Demonstrates good performance on financial tasks relative to its smaller size.">Gemma 2 9B</td>
           <td class="has-text-centered">0.189</td>
           <td class="has-text-centered">0.352</td>
           <td class="has-text-centered">-0.120</td>
           <td class="has-text-centered">0.499</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mistral (7B) Instruct v0.3" data-tooltip="Mistral AI's 7 billion parameter instruction-tuned model. Demonstrates impressive efficiency with reasonable performance on financial tasks despite its smaller size.">Mistral (7B) Instruct v0.3</td>
           <td class="has-text-centered">0.135</td>
           <td class="has-text-centered">0.278</td>
           <td class="has-text-centered">0.200</td>
           <td class="has-text-centered">0.542</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mixtral-8x22B Instruct" data-tooltip="Mistral AI's 141 billion parameter MoE model with eight 22B expert networks. Features robust reasoning capabilities for financial tasks with strong instruction-following performance.">Mixtral-8x22B Instruct</td>
           <td class="has-text-centered">0.221</td>
           <td class="has-text-centered">0.364</td>
           <td class="has-text-centered">-0.310</td>
           <td class="has-text-centered">0.538</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mixtral-8x7B Instruct" data-tooltip="Mistral AI's 47 billion parameter MoE model with eight 7B expert networks. Balances efficiency and performance with reasonable financial reasoning capabilities.">Mixtral-8x7B Instruct</td>
           <td class="has-text-centered">0.208</td>
           <td class="has-text-centered">0.307</td>
           <td class="has-text-centered">-0.229</td>
           <td class="has-text-centered">0.518</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Qwen 2 Instruct (72B)" data-tooltip="Alibaba's 72 billion parameter instruction-following model optimized for reasoning tasks. Features strong performance on financial domains with advanced text processing capabilities.">Qwen 2 Instruct (72B)</td>
           <td class="has-text-centered">0.205</td>
           <td class="has-text-centered">0.409</td>
           <td class="has-text-centered">-0.212</td>
           <td class="has-text-centered">0.601</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="WizardLM-2 8x22B" data-tooltip="A 176 billion parameter MoE model focused on complex reasoning. Designed for advanced instruction-following with strong capabilities across financial tasks.">WizardLM-2 8x22B</td>
           <td class="has-text-centered">0.129</td>
           <td class="has-text-centered">0.283</td>
           <td class="has-text-centered">0.239</td>
           <td class="has-text-centered">0.570</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek-V3" data-tooltip="DeepSeek's 685 billion parameter Mixture of Experts (MoE) model optimized for advanced reasoning. Strong performance on financial tasks with robust instruction-following capabilities.">DeepSeek-V3</td>
           <td class="has-text-centered">0.150</td>
           <td class="has-text-centered">0.311</td>
           <td class="has-text-centered">0.111</td>
           <td class="has-text-centered">0.572</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek R1" data-tooltip="DeepSeek's premium 671 billion parameter Mixture of Experts (MoE) model representing their most advanced offering. Designed for state-of-the-art performance across complex reasoning and financial tasks.">DeepSeek R1</td>
           <td class="has-text-centered performance-low">0.110</td>
           <td class="has-text-centered">0.289</td>
           <td class="has-text-centered">0.348</td>
           <td class="has-text-centered">0.489</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="QwQ-32B-Preview" data-tooltip="Qwen's experimental 32 billion parameter MoE model focused on efficient computation. Features interesting performance characteristics on certain financial tasks.">QwQ-32B-Preview</td>
           <td class="has-text-centered">0.141</td>
           <td class="has-text-centered">0.290</td>
           <td class="has-text-centered">0.165</td>
           <td class="has-text-centered">0.534</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Jamba 1.5 Mini" data-tooltip="A compact variant in the Jamba model series focused on efficiency. Balances performance and computational requirements for financial tasks.">Jamba 1.5 Mini</td>
           <td class="has-text-centered performance-low">0.119</td>
           <td class="has-text-centered">0.282</td>
           <td class="has-text-centered">0.293</td>
           <td class="has-text-centered">0.525</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Jamba 1.5 Large" data-tooltip="An expanded variant in the Jamba model series with enhanced capabilities. Features stronger reasoning for financial tasks than its smaller counterpart.">Jamba 1.5 Large</td>
           <td class="has-text-centered">0.183</td>
           <td class="has-text-centered">0.363</td>
           <td class="has-text-centered">-0.085</td>
           <td class="has-text-centered">0.573</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Claude 3.5 Sonnet" data-tooltip="Anthropic's advanced proprietary language model optimized for complex reasoning and instruction-following. Features enhanced performance on financial tasks with strong text processing capabilities.">Claude 3.5 Sonnet</td>
           <td class="has-text-centered performance-low">0.101</td>
           <td class="has-text-centered performance-low">0.268</td>
           <td class="has-text-centered performance-best">0.402</td>
           <td class="has-text-centered performance-medium">0.585</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Claude 3 Haiku" data-tooltip="Anthropic's smaller efficiency-focused model in the Claude family. Designed for speed and lower computational requirements while maintaining reasonable performance on financial tasks.">Claude 3 Haiku</td>
           <td class="has-text-centered">0.167</td>
           <td class="has-text-centered">0.349</td>
           <td class="has-text-centered">0.008</td>
           <td class="has-text-centered">0.538</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Cohere Command R 7B" data-tooltip="Cohere's 7-billion parameter model focused on instruction-following. An efficient model with reasonable financial domain capabilities for its size.">Cohere Command R 7B</td>
           <td class="has-text-centered">0.164</td>
           <td class="has-text-centered">0.319</td>
           <td class="has-text-centered">0.028</td>
           <td class="has-text-centered">0.547</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Cohere Command R +" data-tooltip="Cohere's enhanced command model with improved instruction-following capabilities. Features advanced reasoning for financial domains with stronger performance than its smaller counterpart.">Cohere Command R +</td>
           <td class="has-text-centered performance-medium">0.106</td>
           <td class="has-text-centered">0.274</td>
           <td class="has-text-centered performance-medium">0.373</td>
           <td class="has-text-centered">0.547</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Google Gemini 1.5 Pro" data-tooltip="Google's advanced proprietary multimodal model designed for complex reasoning and instruction-following tasks. Features strong performance across financial domains with advanced reasoning capabilities.">Google Gemini 1.5 Pro</td>
           <td class="has-text-centered">0.144</td>
           <td class="has-text-centered">0.329</td>
           <td class="has-text-centered">0.149</td>
           <td class="has-text-centered performance-best">0.587</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="OpenAI gpt-4o" data-tooltip="OpenAI's flagship multimodal model optimized for a balance of quality and speed. Features strong performance across diverse tasks with capabilities for complex financial reasoning and instruction following.">OpenAI gpt-4o</td>
           <td class="has-text-centered">0.184</td>
           <td class="has-text-centered">0.317</td>
           <td class="has-text-centered">-0.089</td>
           <td class="has-text-centered">0.515</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="OpenAI o1-mini" data-tooltip="OpenAI's smaller advanced model balancing efficiency and performance. Demonstrates surprisingly strong results on financial tasks despite its reduced parameter count.">OpenAI o1-mini</td>
           <td class="has-text-centered performance-medium">0.120</td>
           <td class="has-text-centered">0.295</td>
           <td class="has-text-centered">0.289</td>

static/js/model-tooltips.js ADDED Viewed

	@@ -0,0 +1,101 @@

+document.addEventListener('DOMContentLoaded', function() {
+  // Fix model tooltips in all tabs
+  function fixAllModelTooltips() {
+    console.log("Fixing model tooltips in all tabs");
+    // Find all model name cells (first column in all tables)
+    const modelCells = document.querySelectorAll('td:first-child');
+    // Process each model cell
+    modelCells.forEach(cell => {
+      // Skip cells that already have tooltips
+      if (cell.classList.contains('tooltip-trigger')) {
+        return;
+      }
+      // Get the model name
+      const modelName = cell.textContent.trim();
+      // Add tooltip-trigger class and position style
+      cell.classList.add('tooltip-trigger');
+      cell.style.position = 'relative';
+      // Add data-title attribute with the model name
+      cell.setAttribute('data-title', modelName);
+      // Add descriptive tooltip based on model
+      let tooltipText = "";
+      // Set descriptive tooltip based on model name - exact descriptions from cost analysis tab
+      if (modelName.includes("GPT-4o") || modelName.includes("gpt-4o")) {
+        tooltipText = "OpenAI's flagship multimodal model optimized for a balance of quality and speed. Features strong performance across diverse tasks with capabilities for complex financial reasoning and instruction following.";
+      } else if (modelName.includes("o1-mini")) {
+        tooltipText = "OpenAI's smaller advanced model balancing efficiency and performance. Demonstrates surprisingly strong results on financial tasks despite its reduced parameter count.";
+      } else if (modelName.includes("Claude 3.5 Sonnet")) {
+        tooltipText = "Anthropic's advanced proprietary language model optimized for complex reasoning and instruction-following. Features enhanced performance on financial tasks with strong text processing capabilities.";
+      } else if (modelName.includes("Claude 3 Haiku")) {
+        tooltipText = "Anthropic's smaller efficiency-focused model in the Claude family. Designed for speed and lower computational requirements while maintaining reasonable performance on financial tasks.";
+      } else if (modelName.includes("Gemini 1.5")) {
+        tooltipText = "Google's advanced proprietary multimodal model designed for complex reasoning and instruction-following tasks. Features strong performance across financial domains with advanced reasoning capabilities.";
+      } else if (modelName.includes("Command R 7B")) {
+        tooltipText = "Cohere's 7-billion parameter model focused on instruction-following. An efficient model with reasonable financial domain capabilities for its size.";
+      } else if (modelName.includes("Command R +")) {
+        tooltipText = "Cohere's enhanced command model with improved instruction-following capabilities. Features advanced reasoning for financial domains with stronger performance than its smaller counterpart.";
+      } else if (modelName.includes("DeepSeek R1")) {
+        tooltipText = "DeepSeek's premium 671 billion parameter Mixture of Experts (MoE) model representing their most advanced offering. Designed for state-of-the-art performance across complex reasoning and financial tasks.";
+      } else if (modelName.includes("DeepSeek-V3") || modelName.includes("DeepSeek V3")) {
+        tooltipText = "DeepSeek's 685 billion parameter Mixture of Experts (MoE) model optimized for advanced reasoning. Strong performance on financial tasks with robust instruction-following capabilities.";
+      } else if (modelName.includes("DeepSeek LLM")) {
+        tooltipText = "DeepSeek's 67 billion parameter model optimized for chat applications. Balances performance and efficiency across financial tasks with solid reasoning capabilities.";
+      } else if (modelName.includes("Llama 3 70B")) {
+        tooltipText = "Meta's advanced 70 billion parameter dense language model optimized for instruction-following tasks. Available through Together AI and notable for complex reasoning capabilities.";
+      } else if (modelName.includes("Llama 3 8B")) {
+        tooltipText = "Meta's efficient 8 billion parameter language model optimized for instruction-following. Balances performance and efficiency for financial tasks with reasonable reasoning capabilities.";
+      } else if (modelName.includes("DBRX")) {
+        tooltipText = "Databricks' 132 billion parameter Mixture of Experts (MoE) model focused on advanced reasoning. Demonstrates competitive performance on financial tasks with strong text processing capabilities.";
+      } else if (modelName.includes("Mixtral-8x22B")) {
+        tooltipText = "Mistral AI's 141 billion parameter MoE model with eight 22B expert networks. Features robust reasoning capabilities for financial tasks with strong instruction-following performance.";
+      } else if (modelName.includes("Mixtral-8x7B")) {
+        tooltipText = "Mistral AI's 47 billion parameter MoE model with eight 7B expert networks. Balances efficiency and performance with reasonable financial reasoning capabilities.";
+      } else if (modelName.includes("Mistral")) {
+        tooltipText = "Mistral AI's 7 billion parameter instruction-tuned model. Demonstrates impressive efficiency with reasonable performance on financial tasks despite its smaller size.";
+      } else if (modelName.includes("Qwen 2")) {
+        tooltipText = "Alibaba's 72 billion parameter instruction-following model optimized for reasoning tasks. Features strong performance on financial domains with advanced text processing capabilities.";
+      } else if (modelName.includes("WizardLM")) {
+        tooltipText = "A 176 billion parameter MoE model focused on complex reasoning. Designed for advanced instruction-following with strong capabilities across financial tasks.";
+      } else if (modelName.includes("Gemma 2 27B")) {
+        tooltipText = "Google's open-weight 27 billion parameter model optimized for reasoning tasks. Balances performance and efficiency across financial domains with strong instruction-following.";
+      } else if (modelName.includes("Gemma 2 9B")) {
+        tooltipText = "Google's efficient open-weight 9 billion parameter model. Demonstrates good performance on financial tasks relative to its smaller size.";
+      } else if (modelName.includes("QwQ-32B")) {
+        tooltipText = "Qwen's experimental 32 billion parameter MoE model focused on efficient computation. Features interesting performance characteristics on certain financial tasks.";
+      } else if (modelName.includes("Jamba 1.5 Mini")) {
+        tooltipText = "A compact variant in the Jamba model series focused on efficiency. Balances performance and computational requirements for financial tasks.";
+      } else if (modelName.includes("Jamba 1.5 Large")) {
+        tooltipText = "An expanded variant in the Jamba model series with enhanced capabilities. Features stronger reasoning for financial tasks than its smaller counterpart.";
+      } else {
+        tooltipText = "A language model evaluated in the FLaME financial benchmark. Assessed across multiple financial NLP tasks including classification, summarization, QA, and more.";
+      }
+      // Set the tooltip
+      cell.setAttribute('data-tooltip', tooltipText);
+    });
+    // After adding attributes, run the tooltip fix
+    if (window.fixProblemTooltips) {
+      window.fixProblemTooltips();
+    }
+  }
+  // Run on page load
+  setTimeout(fixAllModelTooltips, 500);
+  // Run when tabs are clicked
+  const tabs = document.querySelectorAll('.tabs li');
+  tabs.forEach(tab => {
+    tab.addEventListener('click', () => {
+      // Give time for content to be displayed
+      setTimeout(fixAllModelTooltips, 200);
+    });
+  });
+});

text_classification_table.html CHANGED Viewed

@@ -43,7 +43,7 @@
       </thead>
       <tbody>
         <tr>
-          <td>Llama 3 70B Instruct</td>
           <td class="has-text-centered">0.660</td>
           <td class="has-text-centered">0.748</td>
           <td class="has-text-centered">0.660</td>
@@ -63,7 +63,7 @@
           <td class="has-text-centered">0.811</td>
         </tr>
         <tr>
-          <td>Llama 3 8B Instruct</td>
           <td class="has-text-centered">0.534</td>
           <td class="has-text-centered">0.672</td>
           <td class="has-text-centered">0.534</td>
@@ -83,7 +83,7 @@
           <td class="has-text-centered">0.763</td>
         </tr>
         <tr>
-          <td>DBRX Instruct</td>
           <td class="has-text-centered">0.578</td>
           <td class="has-text-centered">0.706</td>
           <td class="has-text-centered">0.578</td>
@@ -103,7 +103,7 @@
           <td class="has-text-centered">0.746</td>
         </tr>
         <tr>
-          <td>DeepSeek LLM (67B)</td>
           <td class="has-text-centered">0.596</td>
           <td class="has-text-centered">0.711</td>
           <td class="has-text-centered">0.596</td>
@@ -123,7 +123,7 @@
           <td class="has-text-centered">0.778</td>
         </tr>
         <tr>
-          <td>Gemma 2 27B</td>
           <td class="has-text-centered">0.639</td>
           <td class="has-text-centered">0.730</td>
           <td class="has-text-centered">0.639</td>
@@ -143,7 +143,7 @@
           <td class="has-text-centered">0.808</td>
         </tr>
         <tr>
-          <td>Gemma 2 9B</td>
           <td class="has-text-centered">0.630</td>
           <td class="has-text-centered">0.710</td>
           <td class="has-text-centered">0.630</td>
@@ -163,7 +163,7 @@
           <td class="has-text-centered performance-best">0.856</td>
         </tr>
         <tr>
-          <td>Mistral (7B) Instruct v0.3</td>
           <td class="has-text-centered">0.547</td>
           <td class="has-text-centered">0.677</td>
           <td class="has-text-centered">0.547</td>
@@ -183,7 +183,7 @@
           <td class="has-text-centered">0.779</td>
         </tr>
         <tr>
-          <td>Mixtral-8x22B Instruct</td>
           <td class="has-text-centered">0.622</td>
           <td class="has-text-centered">0.718</td>
           <td class="has-text-centered">0.622</td>
@@ -203,7 +203,7 @@
           <td class="has-text-centered performance-medium">0.835</td>
         </tr>
         <tr>
-          <td>Mixtral-8x7B Instruct</td>
           <td class="has-text-centered">0.567</td>
           <td class="has-text-centered">0.693</td>
           <td class="has-text-centered">0.567</td>
@@ -223,7 +223,7 @@
           <td class="has-text-centered">0.805</td>
         </tr>
         <tr>
-          <td>Qwen 2 Instruct (72B)</td>
           <td class="has-text-centered">0.644</td>
           <td class="has-text-centered">0.730</td>
           <td class="has-text-centered">0.644</td>
@@ -243,7 +243,7 @@
           <td class="has-text-centered">0.830</td>
         </tr>
         <tr>
-          <td>WizardLM-2 8x22B</td>
           <td class="has-text-centered">0.664</td>
           <td class="has-text-centered">0.737</td>
           <td class="has-text-centered">0.664</td>
@@ -263,7 +263,7 @@
           <td class="has-text-centered">0.797</td>
         </tr>
         <tr>
-          <td>DeepSeek-V3</td>
           <td class="has-text-centered performance-strong">0.722</td>
           <td class="has-text-centered performance-medium">0.774</td>
           <td class="has-text-centered performance-strong">0.722</td>
@@ -283,7 +283,7 @@
           <td class="has-text-centered">0.729</td>
         </tr>
         <tr>
-          <td>DeepSeek R1</td>
           <td class="has-text-centered performance-best">0.772</td>
           <td class="has-text-centered performance-strong">0.789</td>
           <td class="has-text-centered performance-best">0.772</td>
@@ -303,7 +303,7 @@
           <td class="has-text-centered">0.769</td>
         </tr>
         <tr>
-          <td>QwQ-32B-Preview</td>
           <td class="has-text-centered">0.577</td>
           <td class="has-text-centered">0.747</td>
           <td class="has-text-centered">0.577</td>
@@ -323,7 +323,7 @@
           <td class="has-text-centered">0.744</td>
         </tr>
         <tr>
-          <td>Jamba 1.5 Mini</td>
           <td class="has-text-centered">0.528</td>
           <td class="has-text-centered">0.630</td>
           <td class="has-text-centered">0.528</td>
@@ -343,7 +343,7 @@
           <td class="has-text-centered">0.682</td>
         </tr>
         <tr>
-          <td>Jamba 1.5 Large</td>
           <td class="has-text-centered">0.642</td>
           <td class="has-text-centered">0.746</td>
           <td class="has-text-centered">0.642</td>
@@ -363,7 +363,7 @@
           <td class="has-text-centered">0.782</td>
         </tr>
         <tr>
-          <td>Claude 3.5 Sonnet</td>
           <td class="has-text-centered">0.682</td>
           <td class="has-text-centered">0.755</td>
           <td class="has-text-centered">0.682</td>
@@ -383,7 +383,7 @@
           <td class="has-text-centered">0.827</td>
         </tr>
         <tr>
-          <td>Claude 3 Haiku</td>
           <td class="has-text-centered">0.639</td>
           <td class="has-text-centered">0.735</td>
           <td class="has-text-centered">0.639</td>
@@ -403,7 +403,7 @@
           <td class="has-text-centered">0.781</td>
         </tr>
         <tr>
-          <td>Cohere Command R 7B</td>
           <td class="has-text-centered">0.530</td>
           <td class="has-text-centered">0.650</td>
           <td class="has-text-centered">0.530</td>
@@ -423,7 +423,7 @@
           <td class="has-text-centered">0.770</td>
         </tr>
         <tr>
-          <td>Cohere Command R +</td>
           <td class="has-text-centered">0.660</td>
           <td class="has-text-centered">0.747</td>
           <td class="has-text-centered">0.660</td>
@@ -443,7 +443,7 @@
           <td class="has-text-centered">0.812</td>
         </tr>
         <tr>
-          <td>Google Gemini 1.5 Pro</td>
           <td class="has-text-centered">0.483</td>
           <td class="has-text-centered">0.487</td>
           <td class="has-text-centered">0.483</td>
@@ -463,7 +463,7 @@
           <td class="has-text-centered performance-strong">0.837</td>
         </tr>
         <tr>
-          <td>OpenAI gpt-4o</td>
           <td class="has-text-centered performance-medium">0.704</td>
           <td class="has-text-centered performance-best">0.792</td>
           <td class="has-text-centered performance-medium">0.704</td>
@@ -483,7 +483,7 @@
           <td class="has-text-centered">0.824</td>
         </tr>
         <tr>
-          <td>OpenAI o1-mini</td>
           <td class="has-text-centered">0.681</td>
           <td class="has-text-centered">0.760</td>
           <td class="has-text-centered">0.681</td>

       </thead>
       <tbody>
         <tr>
+          <td class="tooltip-trigger" data-title="Llama 3 70B Instruct" data-tooltip="Meta's advanced 70 billion parameter dense language model optimized for instruction-following tasks. Available through Together AI and notable for complex reasoning capabilities.">Llama 3 70B Instruct</td>
           <td class="has-text-centered">0.660</td>
           <td class="has-text-centered">0.748</td>
           <td class="has-text-centered">0.660</td>
           <td class="has-text-centered">0.811</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Llama 3 8B Instruct" data-tooltip="Meta's efficient 8 billion parameter language model optimized for instruction-following. Balances performance and efficiency for financial tasks with reasonable reasoning capabilities.">Llama 3 8B Instruct</td>
           <td class="has-text-centered">0.534</td>
           <td class="has-text-centered">0.672</td>
           <td class="has-text-centered">0.534</td>
           <td class="has-text-centered">0.763</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DBRX Instruct" data-tooltip="Databricks' 132 billion parameter Mixture of Experts (MoE) model focused on advanced reasoning. Demonstrates competitive performance on financial tasks with strong text processing capabilities.">DBRX Instruct</td>
           <td class="has-text-centered">0.578</td>
           <td class="has-text-centered">0.706</td>
           <td class="has-text-centered">0.578</td>
           <td class="has-text-centered">0.746</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek LLM (67B)" data-tooltip="DeepSeek's 67 billion parameter model optimized for chat applications. Balances performance and efficiency across financial tasks with solid reasoning capabilities.">DeepSeek LLM (67B)</td>
           <td class="has-text-centered">0.596</td>
           <td class="has-text-centered">0.711</td>
           <td class="has-text-centered">0.596</td>
           <td class="has-text-centered">0.778</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Gemma 2 27B" data-tooltip="Google's open-weight 27 billion parameter model optimized for reasoning tasks. Balances performance and efficiency across financial domains with strong instruction-following.">Gemma 2 27B</td>
           <td class="has-text-centered">0.639</td>
           <td class="has-text-centered">0.730</td>
           <td class="has-text-centered">0.639</td>
           <td class="has-text-centered">0.808</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Gemma 2 9B" data-tooltip="Google's efficient open-weight 9 billion parameter model. Demonstrates good performance on financial tasks relative to its smaller size.">Gemma 2 9B</td>
           <td class="has-text-centered">0.630</td>
           <td class="has-text-centered">0.710</td>
           <td class="has-text-centered">0.630</td>
           <td class="has-text-centered performance-best">0.856</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mistral (7B) Instruct v0.3" data-tooltip="Mistral AI's 7 billion parameter instruction-tuned model. Demonstrates impressive efficiency with reasonable performance on financial tasks despite its smaller size.">Mistral (7B) Instruct v0.3</td>
           <td class="has-text-centered">0.547</td>
           <td class="has-text-centered">0.677</td>
           <td class="has-text-centered">0.547</td>
           <td class="has-text-centered">0.779</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mixtral-8x22B Instruct" data-tooltip="Mistral AI's 141 billion parameter MoE model with eight 22B expert networks. Features robust reasoning capabilities for financial tasks with strong instruction-following performance.">Mixtral-8x22B Instruct</td>
           <td class="has-text-centered">0.622</td>
           <td class="has-text-centered">0.718</td>
           <td class="has-text-centered">0.622</td>
           <td class="has-text-centered performance-medium">0.835</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mixtral-8x7B Instruct" data-tooltip="Mistral AI's 47 billion parameter MoE model with eight 7B expert networks. Balances efficiency and performance with reasonable financial reasoning capabilities.">Mixtral-8x7B Instruct</td>
           <td class="has-text-centered">0.567</td>
           <td class="has-text-centered">0.693</td>
           <td class="has-text-centered">0.567</td>
           <td class="has-text-centered">0.805</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Qwen 2 Instruct (72B)" data-tooltip="Alibaba's 72 billion parameter instruction-following model optimized for reasoning tasks. Features strong performance on financial domains with advanced text processing capabilities.">Qwen 2 Instruct (72B)</td>
           <td class="has-text-centered">0.644</td>
           <td class="has-text-centered">0.730</td>
           <td class="has-text-centered">0.644</td>
           <td class="has-text-centered">0.830</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="WizardLM-2 8x22B" data-tooltip="A 176 billion parameter MoE model focused on complex reasoning. Designed for advanced instruction-following with strong capabilities across financial tasks.">WizardLM-2 8x22B</td>
           <td class="has-text-centered">0.664</td>
           <td class="has-text-centered">0.737</td>
           <td class="has-text-centered">0.664</td>
           <td class="has-text-centered">0.797</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek-V3" data-tooltip="DeepSeek's 685 billion parameter Mixture of Experts (MoE) model optimized for advanced reasoning. Strong performance on financial tasks with robust instruction-following capabilities.">DeepSeek-V3</td>
           <td class="has-text-centered performance-strong">0.722</td>
           <td class="has-text-centered performance-medium">0.774</td>
           <td class="has-text-centered performance-strong">0.722</td>
           <td class="has-text-centered">0.729</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek R1" data-tooltip="DeepSeek's premium 671 billion parameter Mixture of Experts (MoE) model representing their most advanced offering. Designed for state-of-the-art performance across complex reasoning and financial tasks.">DeepSeek R1</td>
           <td class="has-text-centered performance-best">0.772</td>
           <td class="has-text-centered performance-strong">0.789</td>
           <td class="has-text-centered performance-best">0.772</td>
           <td class="has-text-centered">0.769</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="QwQ-32B-Preview" data-tooltip="Qwen's experimental 32 billion parameter MoE model focused on efficient computation. Features interesting performance characteristics on certain financial tasks.">QwQ-32B-Preview</td>
           <td class="has-text-centered">0.577</td>
           <td class="has-text-centered">0.747</td>
           <td class="has-text-centered">0.577</td>
           <td class="has-text-centered">0.744</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Jamba 1.5 Mini" data-tooltip="A compact variant in the Jamba model series focused on efficiency. Balances performance and computational requirements for financial tasks.">Jamba 1.5 Mini</td>
           <td class="has-text-centered">0.528</td>
           <td class="has-text-centered">0.630</td>
           <td class="has-text-centered">0.528</td>
           <td class="has-text-centered">0.682</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Jamba 1.5 Large" data-tooltip="An expanded variant in the Jamba model series with enhanced capabilities. Features stronger reasoning for financial tasks than its smaller counterpart.">Jamba 1.5 Large</td>
           <td class="has-text-centered">0.642</td>
           <td class="has-text-centered">0.746</td>
           <td class="has-text-centered">0.642</td>
           <td class="has-text-centered">0.782</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Claude 3.5 Sonnet" data-tooltip="Anthropic's advanced proprietary language model optimized for complex reasoning and instruction-following. Features enhanced performance on financial tasks with strong text processing capabilities.">Claude 3.5 Sonnet</td>
           <td class="has-text-centered">0.682</td>
           <td class="has-text-centered">0.755</td>
           <td class="has-text-centered">0.682</td>
           <td class="has-text-centered">0.827</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Claude 3 Haiku" data-tooltip="Anthropic's smaller efficiency-focused model in the Claude family. Designed for speed and lower computational requirements while maintaining reasonable performance on financial tasks.">Claude 3 Haiku</td>
           <td class="has-text-centered">0.639</td>
           <td class="has-text-centered">0.735</td>
           <td class="has-text-centered">0.639</td>
           <td class="has-text-centered">0.781</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Cohere Command R 7B" data-tooltip="Cohere's 7-billion parameter model focused on instruction-following. An efficient model with reasonable financial domain capabilities for its size.">Cohere Command R 7B</td>
           <td class="has-text-centered">0.530</td>
           <td class="has-text-centered">0.650</td>
           <td class="has-text-centered">0.530</td>
           <td class="has-text-centered">0.770</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Cohere Command R +" data-tooltip="Cohere's enhanced command model with improved instruction-following capabilities. Features advanced reasoning for financial domains with stronger performance than its smaller counterpart.">Cohere Command R +</td>
           <td class="has-text-centered">0.660</td>
           <td class="has-text-centered">0.747</td>
           <td class="has-text-centered">0.660</td>
           <td class="has-text-centered">0.812</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Google Gemini 1.5 Pro" data-tooltip="Google's advanced proprietary multimodal model designed for complex reasoning and instruction-following tasks. Features strong performance across financial domains with advanced reasoning capabilities.">Google Gemini 1.5 Pro</td>
           <td class="has-text-centered">0.483</td>
           <td class="has-text-centered">0.487</td>
           <td class="has-text-centered">0.483</td>
           <td class="has-text-centered performance-strong">0.837</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="OpenAI gpt-4o" data-tooltip="OpenAI's flagship multimodal model optimized for a balance of quality and speed. Features strong performance across diverse tasks with capabilities for complex financial reasoning and instruction following.">OpenAI gpt-4o</td>
           <td class="has-text-centered performance-medium">0.704</td>
           <td class="has-text-centered performance-best">0.792</td>
           <td class="has-text-centered performance-medium">0.704</td>
           <td class="has-text-centered">0.824</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="OpenAI o1-mini" data-tooltip="OpenAI's smaller advanced model balancing efficiency and performance. Demonstrates surprisingly strong results on financial tasks despite its reduced parameter count.">OpenAI o1-mini</td>
           <td class="has-text-centered">0.681</td>
           <td class="has-text-centered">0.760</td>
           <td class="has-text-centered">0.681</td>

text_summarization_table.html CHANGED Viewed

@@ -29,7 +29,7 @@
       </thead>
       <tbody>
         <tr>
-          <td>Llama 3 70B Instruct</td>
           <td class="has-text-centered">0.715</td>
           <td class="has-text-centered">0.801</td>
           <td class="has-text-centered">0.754</td>
@@ -38,7 +38,7 @@
           <td class="has-text-centered performance-strong">0.817</td>
         </tr>
         <tr>
-          <td>Llama 3 8B Instruct</td>
           <td class="has-text-centered">0.724</td>
           <td class="has-text-centered">0.796</td>
           <td class="has-text-centered">0.757</td>
@@ -47,7 +47,7 @@
           <td class="has-text-centered">0.811</td>
         </tr>
         <tr>
-          <td>DBRX Instruct</td>
           <td class="has-text-centered">0.680</td>
           <td class="has-text-centered">0.786</td>
           <td class="has-text-centered">0.729</td>
@@ -56,7 +56,7 @@
           <td class="has-text-centered">0.806</td>
         </tr>
         <tr>
-          <td>DeepSeek LLM (67B)</td>
           <td class="has-text-centered">0.692</td>
           <td class="has-text-centered">0.678</td>
           <td class="has-text-centered">0.681</td>
@@ -65,7 +65,7 @@
           <td class="has-text-centered">0.807</td>
         </tr>
         <tr>
-          <td>Gemma 2 27B</td>
           <td class="has-text-centered">0.680</td>
           <td class="has-text-centered">0.777</td>
           <td class="has-text-centered">0.723</td>
@@ -74,7 +74,7 @@
           <td class="has-text-centered">0.814</td>
         </tr>
         <tr>
-          <td>Gemma 2 9B</td>
           <td class="has-text-centered">0.651</td>
           <td class="has-text-centered">0.531</td>
           <td class="has-text-centered">0.585</td>
@@ -83,7 +83,7 @@
           <td class="has-text-centered performance-strong">0.817</td>
         </tr>
         <tr>
-          <td>Mistral (7B) Instruct v0.3</td>
           <td class="has-text-centered">0.702</td>
           <td class="has-text-centered performance-strong">0.806</td>
           <td class="has-text-centered">0.750</td>
@@ -92,7 +92,7 @@
           <td class="has-text-centered">0.811</td>
         </tr>
         <tr>
-          <td>Mixtral-8x22B Instruct</td>
           <td class="has-text-centered">0.713</td>
           <td class="has-text-centered performance-best">0.812</td>
           <td class="has-text-centered">0.758</td>
@@ -101,7 +101,7 @@
           <td class="has-text-centered">0.815</td>
         </tr>
         <tr>
-          <td>Mixtral-8x7B Instruct</td>
           <td class="has-text-centered">0.727</td>
           <td class="has-text-centered">0.773</td>
           <td class="has-text-centered">0.747</td>
@@ -110,7 +110,7 @@
           <td class="has-text-centered">0.810</td>
         </tr>
         <tr>
-          <td>Qwen 2 Instruct (72B)</td>
           <td class="has-text-centered">0.709</td>
           <td class="has-text-centered performance-medium">0.804</td>
           <td class="has-text-centered">0.752</td>
@@ -119,7 +119,7 @@
           <td class="has-text-centered">0.811</td>
         </tr>
         <tr>
-          <td>WizardLM-2 8x22B</td>
           <td class="has-text-centered">0.677</td>
           <td class="has-text-centered performance-strong">0.806</td>
           <td class="has-text-centered">0.735</td>
@@ -128,7 +128,7 @@
           <td class="has-text-centered">0.808</td>
         </tr>
         <tr>
-          <td>DeepSeek-V3</td>
           <td class="has-text-centered">0.703</td>
           <td class="has-text-centered performance-strong">0.806</td>
           <td class="has-text-centered">0.750</td>
@@ -137,7 +137,7 @@
           <td class="has-text-centered">0.815</td>
         </tr>
         <tr>
-          <td>DeepSeek R1</td>
           <td class="has-text-centered">0.724</td>
           <td class="has-text-centered">0.800</td>
           <td class="has-text-centered">0.759</td>
@@ -146,7 +146,7 @@
           <td class="has-text-centered">0.804</td>
         </tr>
         <tr>
-          <td>QwQ-32B-Preview</td>
           <td class="has-text-centered">0.653</td>
           <td class="has-text-centered">0.751</td>
           <td class="has-text-centered">0.696</td>
@@ -155,7 +155,7 @@
           <td class="has-text-centered performance-strong">0.817</td>
         </tr>
         <tr>
-          <td>Jamba 1.5 Mini</td>
           <td class="has-text-centered">0.692</td>
           <td class="has-text-centered">0.798</td>
           <td class="has-text-centered">0.741</td>
@@ -164,7 +164,7 @@
           <td class="has-text-centered performance-medium">0.816</td>
         </tr>
         <tr>
-          <td>Jamba 1.5 Large</td>
           <td class="has-text-centered">0.679</td>
           <td class="has-text-centered">0.800</td>
           <td class="has-text-centered">0.734</td>
@@ -173,7 +173,7 @@
           <td class="has-text-centered performance-best">0.818</td>
         </tr>
         <tr>
-          <td>Claude 3.5 Sonnet</td>
           <td class="has-text-centered performance-medium">0.737</td>
           <td class="has-text-centered">0.802</td>
           <td class="has-text-centered performance-medium">0.767</td>
@@ -182,7 +182,7 @@
           <td class="has-text-centered">0.813</td>
         </tr>
         <tr>
-          <td>Claude 3 Haiku</td>
           <td class="has-text-centered">0.683</td>
           <td class="has-text-centered">0.617</td>
           <td class="has-text-centered">0.646</td>
@@ -191,7 +191,7 @@
           <td class="has-text-centered">0.808</td>
         </tr>
         <tr>
-          <td>Cohere Command R 7B</td>
           <td class="has-text-centered">0.724</td>
           <td class="has-text-centered">0.781</td>
           <td class="has-text-centered">0.750</td>
@@ -200,7 +200,7 @@
           <td class="has-text-centered">0.815</td>
         </tr>
         <tr>
-          <td>Cohere Command R +</td>
           <td class="has-text-centered">0.724</td>
           <td class="has-text-centered">0.782</td>
           <td class="has-text-centered">0.751</td>
@@ -209,7 +209,7 @@
           <td class="has-text-centered">0.810</td>
         </tr>
         <tr>
-          <td>Google Gemini 1.5 Pro</td>
           <td class="has-text-centered performance-best">0.757</td>
           <td class="has-text-centered">0.800</td>
           <td class="has-text-centered performance-best">0.777</td>
@@ -218,7 +218,7 @@
           <td class="has-text-centered performance-strong">0.817</td>
         </tr>
         <tr>
-          <td>OpenAI gpt-4o</td>
           <td class="has-text-centered performance-strong">0.755</td>
           <td class="has-text-centered">0.793</td>
           <td class="has-text-centered performance-strong">0.773</td>
@@ -227,7 +227,7 @@
           <td class="has-text-centered performance-medium">0.816</td>
         </tr>
         <tr>
-          <td>OpenAI o1-mini</td>
           <td class="has-text-centered">0.731</td>
           <td class="has-text-centered">0.801</td>
           <td class="has-text-centered">0.763</td>

       </thead>
       <tbody>
         <tr>
+          <td class="tooltip-trigger" data-title="Llama 3 70B Instruct" data-tooltip="Meta's advanced 70 billion parameter dense language model optimized for instruction-following tasks. Available through Together AI and notable for complex reasoning capabilities.">Llama 3 70B Instruct</td>
           <td class="has-text-centered">0.715</td>
           <td class="has-text-centered">0.801</td>
           <td class="has-text-centered">0.754</td>
           <td class="has-text-centered performance-strong">0.817</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Llama 3 8B Instruct" data-tooltip="Meta's efficient 8 billion parameter language model optimized for instruction-following. Balances performance and efficiency for financial tasks with reasonable reasoning capabilities.">Llama 3 8B Instruct</td>
           <td class="has-text-centered">0.724</td>
           <td class="has-text-centered">0.796</td>
           <td class="has-text-centered">0.757</td>
           <td class="has-text-centered">0.811</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DBRX Instruct" data-tooltip="Databricks' 132 billion parameter Mixture of Experts (MoE) model focused on advanced reasoning. Demonstrates competitive performance on financial tasks with strong text processing capabilities.">DBRX Instruct</td>
           <td class="has-text-centered">0.680</td>
           <td class="has-text-centered">0.786</td>
           <td class="has-text-centered">0.729</td>
           <td class="has-text-centered">0.806</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek LLM (67B)" data-tooltip="DeepSeek's 67 billion parameter model optimized for chat applications. Balances performance and efficiency across financial tasks with solid reasoning capabilities.">DeepSeek LLM (67B)</td>
           <td class="has-text-centered">0.692</td>
           <td class="has-text-centered">0.678</td>
           <td class="has-text-centered">0.681</td>
           <td class="has-text-centered">0.807</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Gemma 2 27B" data-tooltip="Google's open-weight 27 billion parameter model optimized for reasoning tasks. Balances performance and efficiency across financial domains with strong instruction-following.">Gemma 2 27B</td>
           <td class="has-text-centered">0.680</td>
           <td class="has-text-centered">0.777</td>
           <td class="has-text-centered">0.723</td>
           <td class="has-text-centered">0.814</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Gemma 2 9B" data-tooltip="Google's efficient open-weight 9 billion parameter model. Demonstrates good performance on financial tasks relative to its smaller size.">Gemma 2 9B</td>
           <td class="has-text-centered">0.651</td>
           <td class="has-text-centered">0.531</td>
           <td class="has-text-centered">0.585</td>
           <td class="has-text-centered performance-strong">0.817</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mistral (7B) Instruct v0.3" data-tooltip="Mistral AI's 7 billion parameter instruction-tuned model. Demonstrates impressive efficiency with reasonable performance on financial tasks despite its smaller size.">Mistral (7B) Instruct v0.3</td>
           <td class="has-text-centered">0.702</td>
           <td class="has-text-centered performance-strong">0.806</td>
           <td class="has-text-centered">0.750</td>
           <td class="has-text-centered">0.811</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mixtral-8x22B Instruct" data-tooltip="Mistral AI's 141 billion parameter MoE model with eight 22B expert networks. Features robust reasoning capabilities for financial tasks with strong instruction-following performance.">Mixtral-8x22B Instruct</td>
           <td class="has-text-centered">0.713</td>
           <td class="has-text-centered performance-best">0.812</td>
           <td class="has-text-centered">0.758</td>
           <td class="has-text-centered">0.815</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Mixtral-8x7B Instruct" data-tooltip="Mistral AI's 47 billion parameter MoE model with eight 7B expert networks. Balances efficiency and performance with reasonable financial reasoning capabilities.">Mixtral-8x7B Instruct</td>
           <td class="has-text-centered">0.727</td>
           <td class="has-text-centered">0.773</td>
           <td class="has-text-centered">0.747</td>
           <td class="has-text-centered">0.810</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Qwen 2 Instruct (72B)" data-tooltip="Alibaba's 72 billion parameter instruction-following model optimized for reasoning tasks. Features strong performance on financial domains with advanced text processing capabilities.">Qwen 2 Instruct (72B)</td>
           <td class="has-text-centered">0.709</td>
           <td class="has-text-centered performance-medium">0.804</td>
           <td class="has-text-centered">0.752</td>
           <td class="has-text-centered">0.811</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="WizardLM-2 8x22B" data-tooltip="A 176 billion parameter MoE model focused on complex reasoning. Designed for advanced instruction-following with strong capabilities across financial tasks.">WizardLM-2 8x22B</td>
           <td class="has-text-centered">0.677</td>
           <td class="has-text-centered performance-strong">0.806</td>
           <td class="has-text-centered">0.735</td>
           <td class="has-text-centered">0.808</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek-V3" data-tooltip="DeepSeek's 685 billion parameter Mixture of Experts (MoE) model optimized for advanced reasoning. Strong performance on financial tasks with robust instruction-following capabilities.">DeepSeek-V3</td>
           <td class="has-text-centered">0.703</td>
           <td class="has-text-centered performance-strong">0.806</td>
           <td class="has-text-centered">0.750</td>
           <td class="has-text-centered">0.815</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="DeepSeek R1" data-tooltip="DeepSeek's premium 671 billion parameter Mixture of Experts (MoE) model representing their most advanced offering. Designed for state-of-the-art performance across complex reasoning and financial tasks.">DeepSeek R1</td>
           <td class="has-text-centered">0.724</td>
           <td class="has-text-centered">0.800</td>
           <td class="has-text-centered">0.759</td>
           <td class="has-text-centered">0.804</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="QwQ-32B-Preview" data-tooltip="Qwen's experimental 32 billion parameter MoE model focused on efficient computation. Features interesting performance characteristics on certain financial tasks.">QwQ-32B-Preview</td>
           <td class="has-text-centered">0.653</td>
           <td class="has-text-centered">0.751</td>
           <td class="has-text-centered">0.696</td>
           <td class="has-text-centered performance-strong">0.817</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Jamba 1.5 Mini" data-tooltip="A compact variant in the Jamba model series focused on efficiency. Balances performance and computational requirements for financial tasks.">Jamba 1.5 Mini</td>
           <td class="has-text-centered">0.692</td>
           <td class="has-text-centered">0.798</td>
           <td class="has-text-centered">0.741</td>
           <td class="has-text-centered performance-medium">0.816</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Jamba 1.5 Large" data-tooltip="An expanded variant in the Jamba model series with enhanced capabilities. Features stronger reasoning for financial tasks than its smaller counterpart.">Jamba 1.5 Large</td>
           <td class="has-text-centered">0.679</td>
           <td class="has-text-centered">0.800</td>
           <td class="has-text-centered">0.734</td>
           <td class="has-text-centered performance-best">0.818</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Claude 3.5 Sonnet" data-tooltip="Anthropic's advanced proprietary language model optimized for complex reasoning and instruction-following. Features enhanced performance on financial tasks with strong text processing capabilities.">Claude 3.5 Sonnet</td>
           <td class="has-text-centered performance-medium">0.737</td>
           <td class="has-text-centered">0.802</td>
           <td class="has-text-centered performance-medium">0.767</td>
           <td class="has-text-centered">0.813</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Claude 3 Haiku" data-tooltip="Anthropic's smaller efficiency-focused model in the Claude family. Designed for speed and lower computational requirements while maintaining reasonable performance on financial tasks.">Claude 3 Haiku</td>
           <td class="has-text-centered">0.683</td>
           <td class="has-text-centered">0.617</td>
           <td class="has-text-centered">0.646</td>
           <td class="has-text-centered">0.808</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Cohere Command R 7B" data-tooltip="Cohere's 7-billion parameter model focused on instruction-following. An efficient model with reasonable financial domain capabilities for its size.">Cohere Command R 7B</td>
           <td class="has-text-centered">0.724</td>
           <td class="has-text-centered">0.781</td>
           <td class="has-text-centered">0.750</td>
           <td class="has-text-centered">0.815</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Cohere Command R +" data-tooltip="Cohere's enhanced command model with improved instruction-following capabilities. Features advanced reasoning for financial domains with stronger performance than its smaller counterpart.">Cohere Command R +</td>
           <td class="has-text-centered">0.724</td>
           <td class="has-text-centered">0.782</td>
           <td class="has-text-centered">0.751</td>
           <td class="has-text-centered">0.810</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="Google Gemini 1.5 Pro" data-tooltip="Google's advanced proprietary multimodal model designed for complex reasoning and instruction-following tasks. Features strong performance across financial domains with advanced reasoning capabilities.">Google Gemini 1.5 Pro</td>
           <td class="has-text-centered performance-best">0.757</td>
           <td class="has-text-centered">0.800</td>
           <td class="has-text-centered performance-best">0.777</td>
           <td class="has-text-centered performance-strong">0.817</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="OpenAI gpt-4o" data-tooltip="OpenAI's flagship multimodal model optimized for a balance of quality and speed. Features strong performance across diverse tasks with capabilities for complex financial reasoning and instruction following.">OpenAI gpt-4o</td>
           <td class="has-text-centered performance-strong">0.755</td>
           <td class="has-text-centered">0.793</td>
           <td class="has-text-centered performance-strong">0.773</td>
           <td class="has-text-centered performance-medium">0.816</td>
         </tr>
         <tr>
+          <td class="tooltip-trigger" data-title="OpenAI o1-mini" data-tooltip="OpenAI's smaller advanced model balancing efficiency and performance. Demonstrates surprisingly strong results on financial tasks despite its reduced parameter count.">OpenAI o1-mini</td>
           <td class="has-text-centered">0.731</td>
           <td class="has-text-centered">0.801</td>
           <td class="has-text-centered">0.763</td>