End of training

Browse files

Files changed (7) hide show

README.md +166 -166
config.json +72 -69
model.safetensors +2 -2
special_tokens_map.json +37 -7
tokenizer.json +1 -1
tokenizer_config.json +55 -55
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,166 +1,166 @@
----
-library_name: transformers
-base_model: google-bert/bert-base-chinese
-tags:
-- generated_from_trainer
-metrics:
-- precision
-- recall
-- f1
-- accuracy
-model-index:
-- name: bert_bilstm_mega_crf-ner-weibo
-  results: []
----
-<!-- This model card has been generated automatically according to the information the Trainer had access to. You
-should probably proofread and complete it, then remove this comment. -->
-# bert_bilstm_mega_crf-ner-weibo
-This model is a fine-tuned version of [google-bert/bert-base-chinese](https://huggingface.co/google-bert/bert-base-chinese) on an unknown dataset.
-It achieves the following results on the evaluation set:
-- Loss: 0.2691
-- Precision: 0.6285
-- Recall: 0.7075
-- F1: 0.6657
-- Accuracy: 0.9667
-## Model description
-More information needed
-## Intended uses & limitations
-More information needed
-## Training and evaluation data
-More information needed
-## Training procedure
-### Training hyperparameters
-The following hyperparameters were used during training:
-- learning_rate: 2e-05
-- train_batch_size: 32
-- eval_batch_size: 32
-- seed: 42
-- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
-- lr_scheduler_type: linear
-- num_epochs: 100
-- mixed_precision_training: Native AMP
-### Training results
-| Training Loss | Epoch | Step | Validation Loss | Precision | Recall | F1     | Accuracy |
-|:-------------:|:-----:|:----:|:---------------:|:---------:|:------:|:------:|:--------:|
-| 0.0218        | 1.0   | 43   | 0.1575          | 0.6190    | 0.7358 | 0.6724 | 0.9645   |
-| 0.0159        | 2.0   | 86   | 0.1491          | 0.6105    | 0.7296 | 0.6648 | 0.9653   |
-| 0.0157        | 3.0   | 129  | 0.1643          | 0.5995    | 0.7107 | 0.6504 | 0.9647   |
-| 0.0147        | 4.0   | 172  | 0.1792          | 0.6103    | 0.7484 | 0.6723 | 0.9637   |
-| 0.0058        | 5.0   | 215  | 0.1812          | 0.6332    | 0.7327 | 0.6793 | 0.9685   |
-| 0.0103        | 6.0   | 258  | 0.1821          | 0.6188    | 0.7044 | 0.6588 | 0.9645   |
-| 0.0116        | 7.0   | 301  | 0.1769          | 0.6207    | 0.7358 | 0.6734 | 0.9664   |
-| 0.0112        | 8.0   | 344  | 0.1691          | 0.6334    | 0.7390 | 0.6821 | 0.9678   |
-| 0.0067        | 9.0   | 387  | 0.1768          | 0.6166    | 0.7233 | 0.6657 | 0.9669   |
-| 0.0078        | 10.0  | 430  | 0.1827          | 0.6171    | 0.6792 | 0.6467 | 0.9678   |
-| 0.0073        | 11.0  | 473  | 0.1903          | 0.6450    | 0.6855 | 0.6646 | 0.9685   |
-| 0.0173        | 12.0  | 516  | 0.1910          | 0.5964    | 0.7390 | 0.6601 | 0.9630   |
-| 0.0045        | 13.0  | 559  | 0.1909          | 0.6146    | 0.7170 | 0.6618 | 0.9663   |
-| 0.0067        | 14.0  | 602  | 0.1846          | 0.6127    | 0.7264 | 0.6647 | 0.9669   |
-| 0.0063        | 15.0  | 645  | 0.1982          | 0.6359    | 0.7138 | 0.6726 | 0.9677   |
-| 0.0051        | 16.0  | 688  | 0.1902          | 0.6260    | 0.7264 | 0.6725 | 0.9662   |
-| 0.0058        | 17.0  | 731  | 0.1948          | 0.6292    | 0.7044 | 0.6647 | 0.9682   |
-| 0.0063        | 18.0  | 774  | 0.2043          | 0.6350    | 0.6730 | 0.6534 | 0.9678   |
-| 0.0054        | 19.0  | 817  | 0.2083          | 0.6340    | 0.6918 | 0.6617 | 0.9677   |
-| 0.0042        | 20.0  | 860  | 0.2087          | 0.6339    | 0.7296 | 0.6784 | 0.9674   |
-| 0.0051        | 21.0  | 903  | 0.2018          | 0.6494    | 0.6698 | 0.6594 | 0.9676   |
-| 0.0062        | 22.0  | 946  | 0.1954          | 0.6510    | 0.6981 | 0.6737 | 0.9676   |
-| 0.0048        | 23.0  | 989  | 0.2272          | 0.6192    | 0.7107 | 0.6618 | 0.9662   |
-| 0.0037        | 24.0  | 1032 | 0.2109          | 0.6501    | 0.7013 | 0.6747 | 0.9682   |
-| 0.0079        | 25.0  | 1075 | 0.2061          | 0.6233    | 0.7390 | 0.6763 | 0.9660   |
-| 0.004         | 26.0  | 1118 | 0.2104          | 0.6404    | 0.7170 | 0.6766 | 0.9671   |
-| 0.0047        | 27.0  | 1161 | 0.2019          | 0.6326    | 0.7201 | 0.6735 | 0.9678   |
-| 0.0036        | 28.0  | 1204 | 0.2157          | 0.6369    | 0.7390 | 0.6841 | 0.9671   |
-| 0.0038        | 29.0  | 1247 | 0.2115          | 0.6257    | 0.7201 | 0.6696 | 0.9672   |
-| 0.0087        | 30.0  | 1290 | 0.2173          | 0.6278    | 0.7107 | 0.6667 | 0.9673   |
-| 0.0034        | 31.0  | 1333 | 0.2217          | 0.6185    | 0.7138 | 0.6628 | 0.9665   |
-| 0.0046        | 32.0  | 1376 | 0.2051          | 0.6361    | 0.6981 | 0.6657 | 0.9671   |
-| 0.0027        | 33.0  | 1419 | 0.2214          | 0.6410    | 0.7075 | 0.6726 | 0.9676   |
-| 0.0049        | 34.0  | 1462 | 0.2183          | 0.6543    | 0.7201 | 0.6856 | 0.9675   |
-| 0.0028        | 35.0  | 1505 | 0.2200          | 0.6449    | 0.7138 | 0.6776 | 0.9679   |
-| 0.0064        | 36.0  | 1548 | 0.2290          | 0.6395    | 0.6918 | 0.6647 | 0.9673   |
-| 0.0044        | 37.0  | 1591 | 0.2252          | 0.6526    | 0.6792 | 0.6656 | 0.9673   |
-| 0.0034        | 38.0  | 1634 | 0.2364          | 0.675     | 0.6792 | 0.6771 | 0.9670   |
-| 0.0066        | 39.0  | 1677 | 0.2254          | 0.6341    | 0.7138 | 0.6716 | 0.9651   |
-| 0.0032        | 40.0  | 1720 | 0.2257          | 0.6316    | 0.7170 | 0.6716 | 0.9674   |
-| 0.003         | 41.0  | 1763 | 0.2229          | 0.6461    | 0.7233 | 0.6825 | 0.9678   |
-| 0.0018        | 42.0  | 1806 | 0.2315          | 0.6550    | 0.7044 | 0.6788 | 0.9676   |
-| 0.0031        | 43.0  | 1849 | 0.2327          | 0.6324    | 0.7358 | 0.6802 | 0.9674   |
-| 0.0036        | 44.0  | 1892 | 0.2330          | 0.625     | 0.7075 | 0.6637 | 0.9665   |
-| 0.0031        | 45.0  | 1935 | 0.2371          | 0.6449    | 0.7138 | 0.6776 | 0.9667   |
-| 0.0039        | 46.0  | 1978 | 0.2379          | 0.6647    | 0.7044 | 0.6840 | 0.9670   |
-| 0.004         | 47.0  | 2021 | 0.2398          | 0.6469    | 0.7201 | 0.6815 | 0.9674   |
-| 0.0027        | 48.0  | 2064 | 0.2437          | 0.6628    | 0.7107 | 0.6859 | 0.9676   |
-| 0.0037        | 49.0  | 2107 | 0.2465          | 0.6638    | 0.7327 | 0.6966 | 0.9681   |
-| 0.0047        | 50.0  | 2150 | 0.2452          | 0.6609    | 0.7170 | 0.6878 | 0.9671   |
-| 0.0029        | 51.0  | 2193 | 0.2386          | 0.6607    | 0.6981 | 0.6789 | 0.9674   |
-| 0.0036        | 52.0  | 2236 | 0.2479          | 0.6402    | 0.7107 | 0.6736 | 0.9676   |
-| 0.0047        | 53.0  | 2279 | 0.2440          | 0.6496    | 0.7170 | 0.6816 | 0.9675   |
-| 0.0024        | 54.0  | 2322 | 0.2344          | 0.6687    | 0.7044 | 0.6861 | 0.9678   |
-| 0.0039        | 55.0  | 2365 | 0.2450          | 0.6247    | 0.7170 | 0.6676 | 0.9669   |
-| 0.0026        | 56.0  | 2408 | 0.2404          | 0.6494    | 0.7107 | 0.6787 | 0.9669   |
-| 0.005         | 57.0  | 2451 | 0.2472          | 0.6425    | 0.7233 | 0.6805 | 0.9666   |
-| 0.0031        | 58.0  | 2494 | 0.2478          | 0.6417    | 0.7264 | 0.6814 | 0.9665   |
-| 0.0021        | 59.0  | 2537 | 0.2479          | 0.6356    | 0.7075 | 0.6696 | 0.9665   |
-| 0.0021        | 60.0  | 2580 | 0.2457          | 0.6469    | 0.7201 | 0.6815 | 0.9670   |
-| 0.0028        | 61.0  | 2623 | 0.2517          | 0.6516    | 0.7233 | 0.6855 | 0.9671   |
-| 0.0033        | 62.0  | 2666 | 0.2580          | 0.6512    | 0.7044 | 0.6767 | 0.9668   |
-| 0.0023        | 63.0  | 2709 | 0.2546          | 0.6484    | 0.7075 | 0.6767 | 0.9666   |
-| 0.0025        | 64.0  | 2752 | 0.2549          | 0.6439    | 0.7107 | 0.6756 | 0.9663   |
-| 0.0041        | 65.0  | 2795 | 0.2619          | 0.6311    | 0.7264 | 0.6754 | 0.9664   |
-| 0.0036        | 66.0  | 2838 | 0.2583          | 0.6389    | 0.7233 | 0.6785 | 0.9667   |
-| 0.0036        | 67.0  | 2881 | 0.2579          | 0.6399    | 0.7264 | 0.6804 | 0.9663   |
-| 0.0031        | 68.0  | 2924 | 0.2585          | 0.6425    | 0.7233 | 0.6805 | 0.9662   |
-| 0.0031        | 69.0  | 2967 | 0.2529          | 0.6366    | 0.7107 | 0.6716 | 0.9661   |
-| 0.0027        | 70.0  | 3010 | 0.2527          | 0.6477    | 0.7170 | 0.6806 | 0.9664   |
-| 0.0023        | 71.0  | 3053 | 0.2568          | 0.6524    | 0.7201 | 0.6846 | 0.9667   |
-| 0.0025        | 72.0  | 3096 | 0.2587          | 0.6449    | 0.7138 | 0.6776 | 0.9668   |
-| 0.0022        | 73.0  | 3139 | 0.2609          | 0.6552    | 0.7170 | 0.6847 | 0.9670   |
-| 0.0033        | 74.0  | 3182 | 0.2596          | 0.6542    | 0.7138 | 0.6827 | 0.9669   |
-| 0.0038        | 75.0  | 3225 | 0.2608          | 0.6503    | 0.7075 | 0.6777 | 0.9667   |
-| 0.0038        | 76.0  | 3268 | 0.2623          | 0.6532    | 0.7107 | 0.6807 | 0.9670   |
-| 0.0023        | 77.0  | 3311 | 0.2548          | 0.6459    | 0.7170 | 0.6796 | 0.9666   |
-| 0.0029        | 78.0  | 3354 | 0.2588          | 0.6404    | 0.7170 | 0.6766 | 0.9667   |
-| 0.0033        | 79.0  | 3397 | 0.2640          | 0.6366    | 0.7327 | 0.6813 | 0.9660   |
-| 0.0031        | 80.0  | 3440 | 0.2647          | 0.6419    | 0.7327 | 0.6843 | 0.9654   |
-| 0.003         | 81.0  | 3483 | 0.2574          | 0.6476    | 0.7107 | 0.6777 | 0.9670   |
-| 0.003         | 82.0  | 3526 | 0.2591          | 0.6412    | 0.7138 | 0.6756 | 0.9669   |
-| 0.0046        | 83.0  | 3569 | 0.2605          | 0.6441    | 0.7170 | 0.6786 | 0.9669   |
-| 0.0026        | 84.0  | 3612 | 0.2615          | 0.6439    | 0.7107 | 0.6756 | 0.9670   |
-| 0.0031        | 85.0  | 3655 | 0.2619          | 0.6277    | 0.7264 | 0.6735 | 0.9664   |
-| 0.005         | 86.0  | 3698 | 0.2645          | 0.6417    | 0.7264 | 0.6814 | 0.9667   |
-| 0.0038        | 87.0  | 3741 | 0.2646          | 0.6376    | 0.7138 | 0.6736 | 0.9664   |
-| 0.0037        | 88.0  | 3784 | 0.2642          | 0.6306    | 0.7138 | 0.6696 | 0.9663   |
-| 0.0037        | 89.0  | 3827 | 0.2660          | 0.6343    | 0.7201 | 0.6745 | 0.9665   |
-| 0.0027        | 90.0  | 3870 | 0.2670          | 0.6306    | 0.7138 | 0.6696 | 0.9667   |
-| 0.002         | 91.0  | 3913 | 0.2675          | 0.6260    | 0.7107 | 0.6657 | 0.9665   |
-| 0.0036        | 92.0  | 3956 | 0.2697          | 0.6288    | 0.7138 | 0.6686 | 0.9665   |
-| 0.0021        | 93.0  | 3999 | 0.2700          | 0.6260    | 0.7107 | 0.6657 | 0.9665   |
-| 0.0029        | 94.0  | 4042 | 0.2693          | 0.6260    | 0.7107 | 0.6657 | 0.9665   |
-| 0.0035        | 95.0  | 4085 | 0.2689          | 0.6260    | 0.7107 | 0.6657 | 0.9666   |
-| 0.0017        | 96.0  | 4128 | 0.2696          | 0.6260    | 0.7107 | 0.6657 | 0.9667   |
-| 0.003         | 97.0  | 4171 | 0.2702          | 0.6260    | 0.7107 | 0.6657 | 0.9665   |
-| 0.0031        | 98.0  | 4214 | 0.2699          | 0.6295    | 0.7107 | 0.6677 | 0.9667   |
-| 0.0027        | 99.0  | 4257 | 0.2690          | 0.6303    | 0.7075 | 0.6667 | 0.9668   |
-| 0.0023        | 100.0 | 4300 | 0.2691          | 0.6285    | 0.7075 | 0.6657 | 0.9667   |
-### Framework versions
-- Transformers 4.46.1
-- Pytorch 1.13.1+cu116
-- Datasets 3.1.0
-- Tokenizers 0.20.1

+---
+library_name: transformers
+license: apache-2.0
+base_model: hfl/chinese-roberta-wwm-ext-large
+tags:
+- generated_from_trainer
+metrics:
+- precision
+- recall
+- f1
+- accuracy
+model-index:
+- name: bert_bilstm_mega_crf-ner-weibo
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# bert_bilstm_mega_crf-ner-weibo
+This model is a fine-tuned version of [hfl/chinese-roberta-wwm-ext-large](https://huggingface.co/hfl/chinese-roberta-wwm-ext-large) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.2341
+- Precision: 0.6657
+- Recall: 0.7075
+- F1: 0.6860
+- Accuracy: 0.9683
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 128
+- eval_batch_size: 128
+- seed: 42
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- num_epochs: 100
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Precision | Recall | F1     | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:---------:|:------:|:------:|:--------:|
+| 1.7329        | 1.0   | 11   | 0.4907          | 0.0       | 0.0    | 0.0    | 0.9274   |
+| 0.4493        | 2.0   | 22   | 0.3486          | 0.0       | 0.0    | 0.0    | 0.9274   |
+| 0.3203        | 3.0   | 33   | 0.2384          | 0.2941    | 0.0629 | 0.1036 | 0.9354   |
+| 0.2259        | 4.0   | 44   | 0.1618          | 0.5219    | 0.4874 | 0.5041 | 0.9586   |
+| 0.1617        | 5.0   | 55   | 0.1318          | 0.5476    | 0.5975 | 0.5714 | 0.9642   |
+| 0.1171        | 6.0   | 66   | 0.1202          | 0.5718    | 0.6509 | 0.6088 | 0.9676   |
+| 0.0956        | 7.0   | 77   | 0.1210          | 0.6022    | 0.6855 | 0.6412 | 0.9692   |
+| 0.0666        | 8.0   | 88   | 0.1208          | 0.5951    | 0.6887 | 0.6385 | 0.9690   |
+| 0.0567        | 9.0   | 99   | 0.1205          | 0.5963    | 0.7107 | 0.6485 | 0.9687   |
+| 0.0433        | 10.0  | 110  | 0.1219          | 0.6230    | 0.7170 | 0.6667 | 0.9699   |
+| 0.0333        | 11.0  | 121  | 0.1365          | 0.6375    | 0.6635 | 0.6502 | 0.9687   |
+| 0.0309        | 12.0  | 132  | 0.1421          | 0.6011    | 0.6918 | 0.6433 | 0.9672   |
+| 0.0239        | 13.0  | 143  | 0.1460          | 0.6398    | 0.6981 | 0.6677 | 0.9687   |
+| 0.0235        | 14.0  | 154  | 0.1539          | 0.6518    | 0.6887 | 0.6697 | 0.9687   |
+| 0.0188        | 15.0  | 165  | 0.1604          | 0.6656    | 0.6824 | 0.6739 | 0.9694   |
+| 0.0193        | 16.0  | 176  | 0.1625          | 0.6471    | 0.6918 | 0.6687 | 0.9687   |
+| 0.0155        | 17.0  | 187  | 0.1758          | 0.6770    | 0.6855 | 0.6813 | 0.9683   |
+| 0.0148        | 18.0  | 198  | 0.1714          | 0.6506    | 0.6792 | 0.6646 | 0.9688   |
+| 0.014         | 19.0  | 209  | 0.1626          | 0.6391    | 0.7296 | 0.6814 | 0.9674   |
+| 0.0116        | 20.0  | 220  | 0.1718          | 0.6459    | 0.7170 | 0.6796 | 0.9687   |
+| 0.0111        | 21.0  | 231  | 0.1840          | 0.6718    | 0.6824 | 0.6771 | 0.9694   |
+| 0.0097        | 22.0  | 242  | 0.1807          | 0.6479    | 0.6887 | 0.6677 | 0.9677   |
+| 0.0098        | 23.0  | 253  | 0.1787          | 0.6391    | 0.7296 | 0.6814 | 0.9664   |
+| 0.0089        | 24.0  | 264  | 0.1877          | 0.6518    | 0.6887 | 0.6697 | 0.9688   |
+| 0.0077        | 25.0  | 275  | 0.1896          | 0.6519    | 0.6950 | 0.6728 | 0.9693   |
+| 0.008         | 26.0  | 286  | 0.1915          | 0.6608    | 0.7107 | 0.6848 | 0.9690   |
+| 0.0079        | 27.0  | 297  | 0.2008          | 0.6606    | 0.6792 | 0.6698 | 0.9687   |
+| 0.0072        | 28.0  | 308  | 0.1961          | 0.6486    | 0.7138 | 0.6796 | 0.9681   |
+| 0.0067        | 29.0  | 319  | 0.2040          | 0.6617    | 0.7013 | 0.6809 | 0.9691   |
+| 0.0063        | 30.0  | 330  | 0.2028          | 0.6725    | 0.7296 | 0.6998 | 0.9688   |
+| 0.0056        | 31.0  | 341  | 0.2053          | 0.6716    | 0.7201 | 0.6950 | 0.9689   |
+| 0.0073        | 32.0  | 352  | 0.2088          | 0.6465    | 0.6730 | 0.6595 | 0.9674   |
+| 0.0061        | 33.0  | 363  | 0.1936          | 0.6138    | 0.7296 | 0.6667 | 0.9673   |
+| 0.0057        | 34.0  | 374  | 0.2061          | 0.6596    | 0.6824 | 0.6708 | 0.9683   |
+| 0.0062        | 35.0  | 385  | 0.2077          | 0.6627    | 0.7044 | 0.6829 | 0.9680   |
+| 0.0046        | 36.0  | 396  | 0.2133          | 0.6738    | 0.6950 | 0.6842 | 0.9689   |
+| 0.0062        | 37.0  | 407  | 0.2029          | 0.6696    | 0.7201 | 0.6939 | 0.9680   |
+| 0.0058        | 38.0  | 418  | 0.2039          | 0.6707    | 0.7044 | 0.6871 | 0.9678   |
+| 0.0047        | 39.0  | 429  | 0.2055          | 0.6667    | 0.7233 | 0.6938 | 0.9685   |
+| 0.0049        | 40.0  | 440  | 0.2105          | 0.6757    | 0.7075 | 0.6912 | 0.9692   |
+| 0.0048        | 41.0  | 451  | 0.2052          | 0.6667    | 0.7107 | 0.6880 | 0.9683   |
+| 0.0049        | 42.0  | 462  | 0.2081          | 0.6590    | 0.7170 | 0.6867 | 0.9687   |
+| 0.0063        | 43.0  | 473  | 0.2011          | 0.6552    | 0.7170 | 0.6847 | 0.9683   |
+| 0.0046        | 44.0  | 484  | 0.1994          | 0.6477    | 0.7170 | 0.6806 | 0.9676   |
+| 0.0047        | 45.0  | 495  | 0.2122          | 0.6790    | 0.6918 | 0.6854 | 0.9693   |
+| 0.0048        | 46.0  | 506  | 0.2082          | 0.6609    | 0.7233 | 0.6907 | 0.9687   |
+| 0.0042        | 47.0  | 517  | 0.2140          | 0.6769    | 0.6918 | 0.6843 | 0.9695   |
+| 0.0054        | 48.0  | 528  | 0.2054          | 0.6514    | 0.7170 | 0.6826 | 0.9681   |
+| 0.0037        | 49.0  | 539  | 0.2070          | 0.6686    | 0.7107 | 0.6890 | 0.9689   |
+| 0.0045        | 50.0  | 550  | 0.2093          | 0.6514    | 0.7170 | 0.6826 | 0.9686   |
+| 0.004         | 51.0  | 561  | 0.2163          | 0.6787    | 0.7107 | 0.6943 | 0.9698   |
+| 0.0038        | 52.0  | 572  | 0.2173          | 0.6706    | 0.7107 | 0.6901 | 0.9694   |
+| 0.0042        | 53.0  | 583  | 0.2156          | 0.6745    | 0.7233 | 0.6980 | 0.9694   |
+| 0.0039        | 54.0  | 594  | 0.2190          | 0.6727    | 0.6981 | 0.6852 | 0.9689   |
+| 0.0037        | 55.0  | 605  | 0.2213          | 0.6767    | 0.7044 | 0.6903 | 0.9687   |
+| 0.0043        | 56.0  | 616  | 0.2247          | 0.6829    | 0.7044 | 0.6935 | 0.9690   |
+| 0.0034        | 57.0  | 627  | 0.2291          | 0.6789    | 0.6981 | 0.6884 | 0.9689   |
+| 0.0046        | 58.0  | 638  | 0.2258          | 0.6737    | 0.7075 | 0.6902 | 0.9686   |
+| 0.0033        | 59.0  | 649  | 0.2254          | 0.6736    | 0.7138 | 0.6931 | 0.9689   |
+| 0.0036        | 60.0  | 660  | 0.2255          | 0.6758    | 0.7013 | 0.6883 | 0.9690   |
+| 0.0038        | 61.0  | 671  | 0.2200          | 0.6580    | 0.7138 | 0.6848 | 0.9682   |
+| 0.0036        | 62.0  | 682  | 0.2210          | 0.6657    | 0.7075 | 0.6860 | 0.9687   |
+| 0.0039        | 63.0  | 693  | 0.2237          | 0.6647    | 0.7107 | 0.6869 | 0.9682   |
+| 0.0039        | 64.0  | 704  | 0.2295          | 0.6727    | 0.6981 | 0.6852 | 0.9688   |
+| 0.0032        | 65.0  | 715  | 0.2271          | 0.6707    | 0.7044 | 0.6871 | 0.9687   |
+| 0.0038        | 66.0  | 726  | 0.2290          | 0.6677    | 0.7013 | 0.6840 | 0.9687   |
+| 0.0033        | 67.0  | 737  | 0.2260          | 0.6617    | 0.7013 | 0.6809 | 0.9682   |
+| 0.0038        | 68.0  | 748  | 0.2250          | 0.6676    | 0.7138 | 0.6900 | 0.9686   |
+| 0.0037        | 69.0  | 759  | 0.2254          | 0.6618    | 0.7075 | 0.6839 | 0.9684   |
+| 0.0039        | 70.0  | 770  | 0.2281          | 0.6687    | 0.6981 | 0.6831 | 0.9687   |
+| 0.0036        | 71.0  | 781  | 0.2317          | 0.6687    | 0.6981 | 0.6831 | 0.9687   |
+| 0.0034        | 72.0  | 792  | 0.2272          | 0.6609    | 0.7170 | 0.6878 | 0.9686   |
+| 0.0036        | 73.0  | 803  | 0.2278          | 0.6756    | 0.7138 | 0.6942 | 0.9687   |
+| 0.0035        | 74.0  | 814  | 0.2287          | 0.6677    | 0.7075 | 0.6870 | 0.9683   |
+| 0.0034        | 75.0  | 825  | 0.2283          | 0.6686    | 0.7107 | 0.6890 | 0.9681   |
+| 0.0032        | 76.0  | 836  | 0.2331          | 0.6657    | 0.7075 | 0.6860 | 0.9672   |
+| 0.0041        | 77.0  | 847  | 0.2357          | 0.6598    | 0.7075 | 0.6829 | 0.9675   |
+| 0.0033        | 78.0  | 858  | 0.2352          | 0.6706    | 0.7170 | 0.6930 | 0.9676   |
+| 0.0039        | 79.0  | 869  | 0.2363          | 0.6696    | 0.7075 | 0.6881 | 0.9689   |
+| 0.0036        | 80.0  | 880  | 0.2367          | 0.6627    | 0.6918 | 0.6769 | 0.9685   |
+| 0.0032        | 81.0  | 891  | 0.2369          | 0.6607    | 0.6981 | 0.6789 | 0.9683   |
+| 0.0036        | 82.0  | 902  | 0.2331          | 0.6696    | 0.7201 | 0.6939 | 0.9687   |
+| 0.0036        | 83.0  | 913  | 0.2286          | 0.6599    | 0.7138 | 0.6858 | 0.9682   |
+| 0.0034        | 84.0  | 924  | 0.2276          | 0.6637    | 0.7138 | 0.6879 | 0.9687   |
+| 0.0035        | 85.0  | 935  | 0.2286          | 0.6647    | 0.7107 | 0.6869 | 0.9687   |
+| 0.0031        | 86.0  | 946  | 0.2296          | 0.6667    | 0.7044 | 0.6850 | 0.9689   |
+| 0.0036        | 87.0  | 957  | 0.2296          | 0.6677    | 0.7075 | 0.6870 | 0.9687   |
+| 0.0033        | 88.0  | 968  | 0.2299          | 0.6706    | 0.7170 | 0.6930 | 0.9688   |
+| 0.0033        | 89.0  | 979  | 0.2301          | 0.6618    | 0.7138 | 0.6868 | 0.9683   |
+| 0.0034        | 90.0  | 990  | 0.2320          | 0.6766    | 0.7170 | 0.6962 | 0.9687   |
+| 0.0031        | 91.0  | 1001 | 0.2309          | 0.6766    | 0.7170 | 0.6962 | 0.9686   |
+| 0.0033        | 92.0  | 1012 | 0.2315          | 0.6736    | 0.7138 | 0.6931 | 0.9685   |
+| 0.0037        | 93.0  | 1023 | 0.2333          | 0.6696    | 0.7075 | 0.6881 | 0.9684   |
+| 0.0031        | 94.0  | 1034 | 0.2342          | 0.6696    | 0.7075 | 0.6881 | 0.9684   |
+| 0.0029        | 95.0  | 1045 | 0.2351          | 0.6687    | 0.7044 | 0.6861 | 0.9683   |
+| 0.004         | 96.0  | 1056 | 0.2347          | 0.6667    | 0.7044 | 0.6850 | 0.9683   |
+| 0.0032        | 97.0  | 1067 | 0.2346          | 0.6667    | 0.7044 | 0.6850 | 0.9683   |
+| 0.0033        | 98.0  | 1078 | 0.2343          | 0.6667    | 0.7044 | 0.6850 | 0.9683   |
+| 0.0032        | 99.0  | 1089 | 0.2341          | 0.6647    | 0.7044 | 0.6840 | 0.9682   |
+| 0.0034        | 100.0 | 1100 | 0.2341          | 0.6657    | 0.7075 | 0.6860 | 0.9683   |
+### Framework versions
+- Transformers 4.46.2
+- Pytorch 2.4.1+cu124
+- Datasets 3.1.0
+- Tokenizers 0.20.3

config.json CHANGED Viewed

@@ -1,69 +1,72 @@
-{
-  "_name_or_path": "google-bert/bert-base-chinese",
-  "architectures": [
-    "BertForTokenClassification"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "classifier_dropout": null,
-  "directionality": "bidi",
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "id2label": {
-    "0": "O",
-    "1": "B-GPE.NAM",
-    "2": "I-GPE.NAM",
-    "3": "B-GPE.NOM",
-    "4": "I-GPE.NOM",
-    "5": "B-LOC.NAM",
-    "6": "I-LOC.NAM",
-    "7": "B-LOC.NOM",
-    "8": "I-LOC.NOM",
-    "9": "B-ORG.NAM",
-    "10": "I-ORG.NAM",
-    "11": "B-ORG.NOM",
-    "12": "I-ORG.NOM",
-    "13": "B-PER.NAM",
-    "14": "I-PER.NAM",
-    "15": "B-PER.NOM",
-    "16": "I-PER.NOM"
-  },
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "label2id": {
-    "B-GPE.NAM": 1,
-    "B-GPE.NOM": 3,
-    "B-LOC.NAM": 5,
-    "B-LOC.NOM": 7,
-    "B-ORG.NAM": 9,
-    "B-ORG.NOM": 11,
-    "B-PER.NAM": 13,
-    "B-PER.NOM": 15,
-    "I-GPE.NAM": 2,
-    "I-GPE.NOM": 4,
-    "I-LOC.NAM": 6,
-    "I-LOC.NOM": 8,
-    "I-ORG.NAM": 10,
-    "I-ORG.NOM": 12,
-    "I-PER.NAM": 14,
-    "I-PER.NOM": 16,
-    "O": 0
-  },
-  "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 512,
-  "model_type": "bert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "pad_token_id": 0,
-  "pooler_fc_size": 768,
-  "pooler_num_attention_heads": 12,
-  "pooler_num_fc_layers": 3,
-  "pooler_size_per_head": 128,
-  "pooler_type": "first_token_transform",
-  "position_embedding_type": "absolute",
-  "torch_dtype": "float32",
-  "transformers_version": "4.46.1",
-  "type_vocab_size": 2,
-  "use_cache": true,
-  "vocab_size": 21128
-}

+{
+  "_name_or_path": "hfl/chinese-roberta-wwm-ext-large",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "O",
+    "1": "B-GPE.NAM",
+    "2": "I-GPE.NAM",
+    "3": "B-GPE.NOM",
+    "4": "I-GPE.NOM",
+    "5": "B-LOC.NAM",
+    "6": "I-LOC.NAM",
+    "7": "B-LOC.NOM",
+    "8": "I-LOC.NOM",
+    "9": "B-ORG.NAM",
+    "10": "I-ORG.NAM",
+    "11": "B-ORG.NOM",
+    "12": "I-ORG.NOM",
+    "13": "B-PER.NAM",
+    "14": "I-PER.NAM",
+    "15": "B-PER.NOM",
+    "16": "I-PER.NOM"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "B-GPE.NAM": 1,
+    "B-GPE.NOM": 3,
+    "B-LOC.NAM": 5,
+    "B-LOC.NOM": 7,
+    "B-ORG.NAM": 9,
+    "B-ORG.NOM": 11,
+    "B-PER.NAM": 13,
+    "B-PER.NOM": 15,
+    "I-GPE.NAM": 2,
+    "I-GPE.NOM": 4,
+    "I-LOC.NAM": 6,
+    "I-LOC.NOM": 8,
+    "I-ORG.NAM": 10,
+    "I-ORG.NOM": 12,
+    "I-PER.NAM": 14,
+    "I-PER.NOM": 16,
+    "O": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 21128
+}

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bb965ea226342c892c34ef0d9a56b7ca023612dc795da45195095902a8275fa
-size 406783828

 version https://git-lfs.github.com/spec/v1
+oid sha256:3dda6fcb04a69067e11eb87f057d11f711a4a5919091b5f0dad2125fcae6b999
+size 1298007804

special_tokens_map.json CHANGED Viewed

@@ -1,7 +1,37 @@
-{
-  "cls_token": "[CLS]",
-  "mask_token": "[MASK]",
-  "pad_token": "[PAD]",
-  "sep_token": "[SEP]",
-  "unk_token": "[UNK]"
-}

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json CHANGED Viewed

@@ -68,7 +68,7 @@
     "clean_text": true,
     "handle_chinese_chars": true,
     "strip_accents": null,
-    "lowercase": false
   },
   "pre_tokenizer": {
     "type": "BertPreTokenizer"

     "clean_text": true,
     "handle_chinese_chars": true,
     "strip_accents": null,
+    "lowercase": true
   },
   "pre_tokenizer": {
     "type": "BertPreTokenizer"

tokenizer_config.json CHANGED Viewed

@@ -1,55 +1,55 @@
-{
-  "added_tokens_decoder": {
-    "0": {
-      "content": "[PAD]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "100": {
-      "content": "[UNK]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "101": {
-      "content": "[CLS]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "102": {
-      "content": "[SEP]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "103": {
-      "content": "[MASK]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
-  "clean_up_tokenization_spaces": false,
-  "cls_token": "[CLS]",
-  "do_lower_case": false,
-  "mask_token": "[MASK]",
-  "model_max_length": 512,
-  "pad_token": "[PAD]",
-  "sep_token": "[SEP]",
-  "strip_accents": null,
-  "tokenize_chinese_chars": true,
-  "tokenizer_class": "BertTokenizer",
-  "unk_token": "[UNK]"
-}

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:432f6d678a01e6c33291130434141d8ce6ba5c0200247b9af24a2c57e22dfb28
-size 4795

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2be9122db2f3ce57bcd972d8e64985a7f8de4d203061a177c354ec30aaf3cac
+size 5304