Causal Analysis Task Results

Model FinCausal (CD) FinCausal (CC)
Accuracy Precision Recall F1 Precision Recall F1 Accuracy
Llama 3 70B Instruct 0.148 0.429 0.148 0.142 0.241 0.329 0.192 0.198
Llama 3 8B Instruct 0.097 0.341 0.097 0.049 0.232 0.241 0.234 0.380
DBRX Instruct 0.078 0.521 0.078 0.087 0.276 0.313 0.231 0.235
DeepSeek LLM (67B) 0.026 0.214 0.026 0.025 0.141 0.328 0.193 0.221
Gemma 2 27B 0.115 0.510 0.115 0.133 0.309 0.310 0.242 0.262
Gemma 2 9B 0.115 0.394 0.115 0.105 0.275 0.294 0.207 0.258
Mistral (7B) Instruct v0.3 0.078 0.455 0.078 0.052 0.339 0.361 0.227 0.258
Mixtral-8x22B Instruct 0.131 0.486 0.131 0.125 0.344 0.310 0.308 0.318
Mixtral-8x7B Instruct 0.088 0.510 0.088 0.055 0.308 0.314 0.229 0.273
Qwen 2 Instruct (72B) 0.139 0.489 0.139 0.190 0.208 0.330 0.184 0.188
WizardLM-2 8x22B 0.076 0.453 0.076 0.114 0.263 0.347 0.201 0.237
DeepSeek-V3 0.164 0.528 0.164 0.198 0.194 0.327 0.170 0.248
DeepSeek R1 0.245 0.643 0.245 0.337 0.385 0.318 0.202 0.221
QwQ-32B-Preview 0.110 0.473 0.110 0.131 0.193 0.262 0.220 0.465
Jamba 1.5 Mini 0.050 0.280 0.050 0.043 0.323 0.283 0.270 0.295
Jamba 1.5 Large 0.076 0.517 0.076 0.074 0.268 0.248 0.176 0.200
Claude 3.5 Sonnet 0.154 0.564 0.154 0.196 0.259 0.336 0.197 0.235
Claude 3 Haiku 0.082 0.388 0.082 0.081 0.369 0.347 0.200 0.203
Cohere Command R 7B 0.089 0.363 0.089 0.057 0.379 0.356 0.255 0.275
Cohere Command R + 0.090 0.453 0.090 0.080 0.353 0.336 0.238 0.265
Google Gemini 1.5 Pro 0.165 0.514 0.165 0.196 0.265 0.357 0.217 0.258
OpenAI gpt-4o 0.082 0.576 0.082 0.130 0.254 0.327 0.222 0.235
OpenAI o1-mini 0.206 0.648 0.206 0.289 0.325 0.316 0.209 0.233

Note: Color highlighting indicates performance ranking:  Best ,  Strong ,  Good