Model | FinCausal (CD) | FinCausal (CC) | ||||||
---|---|---|---|---|---|---|---|---|
Accuracy | Precision | Recall | F1 | Precision | Recall | F1 | Accuracy | |
Llama 3 70B Instruct | 0.148 | 0.429 | 0.148 | 0.142 | 0.241 | 0.329 | 0.192 | 0.198 |
Llama 3 8B Instruct | 0.097 | 0.341 | 0.097 | 0.049 | 0.232 | 0.241 | 0.234 | 0.380 |
DBRX Instruct | 0.078 | 0.521 | 0.078 | 0.087 | 0.276 | 0.313 | 0.231 | 0.235 |
DeepSeek LLM (67B) | 0.026 | 0.214 | 0.026 | 0.025 | 0.141 | 0.328 | 0.193 | 0.221 |
Gemma 2 27B | 0.115 | 0.510 | 0.115 | 0.133 | 0.309 | 0.310 | 0.242 | 0.262 |
Gemma 2 9B | 0.115 | 0.394 | 0.115 | 0.105 | 0.275 | 0.294 | 0.207 | 0.258 |
Mistral (7B) Instruct v0.3 | 0.078 | 0.455 | 0.078 | 0.052 | 0.339 | 0.361 | 0.227 | 0.258 |
Mixtral-8x22B Instruct | 0.131 | 0.486 | 0.131 | 0.125 | 0.344 | 0.310 | 0.308 | 0.318 |
Mixtral-8x7B Instruct | 0.088 | 0.510 | 0.088 | 0.055 | 0.308 | 0.314 | 0.229 | 0.273 |
Qwen 2 Instruct (72B) | 0.139 | 0.489 | 0.139 | 0.190 | 0.208 | 0.330 | 0.184 | 0.188 |
WizardLM-2 8x22B | 0.076 | 0.453 | 0.076 | 0.114 | 0.263 | 0.347 | 0.201 | 0.237 |
DeepSeek-V3 | 0.164 | 0.528 | 0.164 | 0.198 | 0.194 | 0.327 | 0.170 | 0.248 |
DeepSeek R1 | 0.245 | 0.643 | 0.245 | 0.337 | 0.385 | 0.318 | 0.202 | 0.221 |
QwQ-32B-Preview | 0.110 | 0.473 | 0.110 | 0.131 | 0.193 | 0.262 | 0.220 | 0.465 |
Jamba 1.5 Mini | 0.050 | 0.280 | 0.050 | 0.043 | 0.323 | 0.283 | 0.270 | 0.295 |
Jamba 1.5 Large | 0.076 | 0.517 | 0.076 | 0.074 | 0.268 | 0.248 | 0.176 | 0.200 |
Claude 3.5 Sonnet | 0.154 | 0.564 | 0.154 | 0.196 | 0.259 | 0.336 | 0.197 | 0.235 |
Claude 3 Haiku | 0.082 | 0.388 | 0.082 | 0.081 | 0.369 | 0.347 | 0.200 | 0.203 |
Cohere Command R 7B | 0.089 | 0.363 | 0.089 | 0.057 | 0.379 | 0.356 | 0.255 | 0.275 |
Cohere Command R + | 0.090 | 0.453 | 0.090 | 0.080 | 0.353 | 0.336 | 0.238 | 0.265 |
Google Gemini 1.5 Pro | 0.165 | 0.514 | 0.165 | 0.196 | 0.265 | 0.357 | 0.217 | 0.258 |
OpenAI gpt-4o | 0.082 | 0.576 | 0.082 | 0.130 | 0.254 | 0.327 | 0.222 | 0.235 |
OpenAI o1-mini | 0.206 | 0.648 | 0.206 | 0.289 | 0.325 | 0.316 | 0.209 | 0.233 |
Note: Color highlighting indicates performance ranking: Best , Strong , Good