File size: 3,212 Bytes
37d0238
 
 
 
 
 
 
04df0da
 
 
 
 
37d0238
 
04df0da
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
37d0238
 
 
 
 
 
 
 
 
04df0da
 
 
 
 
37d0238
 
 
5688117
37d0238
 
 
5688117
 
 
 
 
 
 
 
 
37d0238
 
 
5688117
37d0238
 
 
 
 
 
 
 
 
 
 
 
04df0da
37d0238
 
 
04df0da
 
 
 
 
 
 
37d0238
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
---
license: cc-by-4.0
base_model: NazaGara/NER-fine-tuned-BETO
tags:
- generated_from_trainer
datasets:
- conll2002
metrics:
- precision
- recall
- f1
- accuracy
model-index:
- name: NER-finetuning-BETO
  results:
  - task:
      name: Token Classification
      type: token-classification
    dataset:
      name: conll2002
      type: conll2002
      config: es
      split: validation
      args: es
    metrics:
    - name: Precision
      type: precision
      value: 0.8414992097538948
    - name: Recall
      type: recall
      value: 0.8563878676470589
    - name: F1
      type: f1
      value: 0.8488782598792848
    - name: Accuracy
      type: accuracy
      value: 0.9704469377634515
---

<!-- This model card has been generated automatically according to the information the Trainer had access to. You
should probably proofread and complete it, then remove this comment. -->

# NER-finetuning-BETO

This model is a fine-tuned version of [NazaGara/NER-fine-tuned-BETO](https://huggingface.co/NazaGara/NER-fine-tuned-BETO) on the conll2002 dataset.
It achieves the following results on the evaluation set:
- Loss: 0.2009
- Precision: 0.8415
- Recall: 0.8564
- F1: 0.8489
- Accuracy: 0.9704

## Model description

El modelo BETO (BERT para Español) es una variante de BERT entrenada específicamente para el idioma español. Este modelo ha sido afinado para la tarea de reconocimiento de entidades nombradas (NER) utilizando el conjunto de datos conll2002.

## Intended uses & limitations

### Usos

- Reconocimiento de entidades nombradas (NER) en textos en español.
- Aplicaciones en procesamiento de lenguaje natural donde se necesite identificar nombres de personas, lugares, organizaciones, etc.

### Limitaciones

- El modelo puede no funcionar bien en textos fuera del dominio de los datos de entrenamiento (conll2002).
- Puede tener sesgos inherentes debido a los datos con los que fue preentrenado y afinado.

## Training and evaluation data

El modelo fue afinado y evaluado utilizando el conjunto de datos conll2002, que es un conjunto de datos estándar para tareas de reconocimiento de entidades nombradas en español.

## Training procedure

### Training hyperparameters

The following hyperparameters were used during training:
- learning_rate: 2e-05
- train_batch_size: 8
- eval_batch_size: 8
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 5

### Training results

| Training Loss | Epoch | Step | Validation Loss | Precision | Recall | F1     | Accuracy |
|:-------------:|:-----:|:----:|:---------------:|:---------:|:------:|:------:|:--------:|
| 0.0499        | 1.0   | 1041 | 0.1461          | 0.8328    | 0.8573 | 0.8449 | 0.9695   |
| 0.0288        | 2.0   | 2082 | 0.1672          | 0.8244    | 0.8564 | 0.8401 | 0.9694   |
| 0.0173        | 3.0   | 3123 | 0.1694          | 0.8487    | 0.8672 | 0.8578 | 0.9715   |
| 0.0119        | 4.0   | 4164 | 0.2023          | 0.8434    | 0.8525 | 0.8479 | 0.9695   |
| 0.0084        | 5.0   | 5205 | 0.2009          | 0.8415    | 0.8564 | 0.8489 | 0.9704   |

### Framework versions

- Transformers 4.41.1
- Pytorch 2.3.0+cu121
- Datasets 2.19.2
- Tokenizers 0.19.1