Add verifyToken field to verify evaluation results are produced by Hugging Face's automatic model evaluator (#19)

Browse files

- Add verifyToken field to verify evaluation results are produced by Hugging Face's automatic model evaluator (20c20b86884b41223a887cdffab1c1a832b913c5)

Co-authored-by: Evaluation Bot <[email protected]>

Files changed (1) hide show

README.md +44 -30

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
 ---
 language: en
-inference: false
 tags:
 - text-generation
 - opt
-license: other
 commercial: false
 model-index:
 - name: inverse-scaling/opt-1.3b_eval
@@ -18,14 +18,16 @@ model-index:
       config: inverse-scaling--NeQA
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.5133333333333333
       verified: true
-    - name: Loss
-      type: loss
       value: 0.7768662874648968
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -35,14 +37,16 @@ model-index:
       config: inverse-scaling--quote-repetition
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.95
       verified: true
-    - name: Loss
-      type: loss
       value: 0.08434048505476036
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -52,14 +56,16 @@ model-index:
       config: inverse-scaling--redefine-math
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.6688888888888889
       verified: true
-    - name: Loss
-      type: loss
       value: 0.6386728600992096
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -69,14 +75,16 @@ model-index:
       config: inverse-scaling--hindsight-neglect-10shot
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.45396825396825397
       verified: true
-    - name: Loss
-      type: loss
       value: 0.8809041155236108
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -86,14 +94,16 @@ model-index:
       config: mathemakitten--winobias_antistereotype_test_cot_v1
       split: test
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.39563106796116504
       verified: true
-    - name: Loss
-      type: loss
       value: 1.294413821680473
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -103,14 +113,16 @@ model-index:
       config: mathemakitten--winobias_antistereotype_test_cot_v3
       split: test
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.40048543689320387
       verified: true
-    - name: Loss
-      type: loss
       value: 1.1583690714066759
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -120,14 +132,16 @@ model-index:
       config: mathemakitten--winobias_antistereotype_test_v5
       split: test
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.41504854368932037
       verified: true
-    - name: Loss
-      type: loss
       value: 1.2905146084796921
       verified: true
 ---
 # OPT : Open Pre-trained Transformer Language Models

 ---
 language: en
+license: other
 tags:
 - text-generation
 - opt
+inference: false
 commercial: false
 model-index:
 - name: inverse-scaling/opt-1.3b_eval
       config: inverse-scaling--NeQA
       split: train
     metrics:
+    - type: accuracy
       value: 0.5133333333333333
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYmE3ZjEyOTk1MjE5ODY5MGI3YzFmNmUzZjJlOGQxMDY5NDMwNmZlMDU3YTMxNzRmNzFlNjQ2NmZmZWVjZWJkYyIsInZlcnNpb24iOjF9.qm5eR4WCCEBXYHxMRIZygcuHZQrqffJcL64WoJE9KKEJl_w0hzoRZtQGyMPlud_R0P6dfKTyHY8-P31FyO5bDA
+    - type: loss
       value: 0.7768662874648968
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZDg4ZmMzNDYzZDM2OWY2NDE1N2ExY2M4MjkzZjk4ODY1OTFiMmU1MzY2ZmIwNTUzMTIzMjk2OWMzOTkyYzIyYiIsInZlcnNpb24iOjF9.zd4HcEF_rqmjlanoUMQlVJ6qiJh0VGBoASxQltYSf1WG9ernfK-DWoG3K7FbcyA34xiln7YkFTsAfDk1bJ5lDw
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: inverse-scaling--quote-repetition
       split: train
     metrics:
+    - type: accuracy
       value: 0.95
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYmJjN2Y1OTI3ZDNiMTY3ZWEzMWNmYjI1OGFhNTE2NjJkNTNmZDllNDM0YjZiYjE2ODkyNTczOGY5YTk1MTQ1ZCIsInZlcnNpb24iOjF9.3AN_N2hszoYP16PjXB3JKJyxN9VNUZ3kPCbJjCLtrA9YhG5oaGK-pV2eLzVDYOLrQwedu3zeuAQY8k1QzY01Dg
+    - type: loss
       value: 0.08434048505476036
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZGFiYTY3MTM5MzdlMDU4ZTI3YWM0NzYzMGFkNDk5NWU4MTcwNDc3MWJhNDUzMTVmMmQwOGY2MGMyZGZhYTVjNyIsInZlcnNpb24iOjF9.hMb_PRr3qDgiTxkFHKaWbam8g18q70nSUmNkc5clDQQuX4zMcA6URuGG09pNlmW7eYCkgEHmh9wXZIZjZsZUCg
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: inverse-scaling--redefine-math
       split: train
     metrics:
+    - type: accuracy
       value: 0.6688888888888889
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNjI3OTk3YWUxMjcxY2I0MGRlYjNmOWQ4NzNlMjJjMzY0MDI1ZWQxMGQ2NTNlMWQyNmM2NmY4YTc4YWQ5N2E1ZCIsInZlcnNpb24iOjF9.wRij21b6f1DbpnkRmMaDthOVQdQGVFhxRJTXkbIPtzP7ih85jZ8l6WpDQGpoULMWEm2g880nZWsF-d2pX180Bw
+    - type: loss
       value: 0.6386728600992096
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMDk4NjY3MGNjMmVkODRhZTcwYjQ3ZDk4M2I4YThkNzg0YzUxZDdiZjY0MmNjY2Y4N2NlZjY2ZjZhNjk5MmFkMyIsInZlcnNpb24iOjF9.Sc2THcMu0eD-pw9vqgAaT6iGJY5iN1RutbfQpU3cNcLmivgbEWOtDdEZDjBjimEHtpkpM0Dxhvql_nPCo_-_BQ
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: inverse-scaling--hindsight-neglect-10shot
       split: train
     metrics:
+    - type: accuracy
       value: 0.45396825396825397
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOWMyZWU4ODI2ZDA0ZjM3YTU2NTJiNzA1ZTFhMzc2MGYyMjEzOGVkYmY5ZmFkNzNkNTUwNDlhNDE3NWE3Y2E2ZSIsInZlcnNpb24iOjF9.goRx1LfVtEtjIQNT8oKikd49CQlBKFBb_Jwcz69XJoC_TF4iEiqxovfJwIdbLupxr1W0gnASWNXLY3qK60DiDg
+    - type: loss
       value: 0.8809041155236108
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNDcxZTUwZTdlZTE3OWY1MDdjZTc1ODJhOTdmZDIyOTRmNWJjOTNjOWUzMjU3NzRkZGUwYTVkZDZiNzkzNzI5YiIsInZlcnNpb24iOjF9.Yg5_4sz7ManNO2Zg1xkKa-b_GNEITJ52OZPID_ODUxXia1B7zaM5YPjuovRCt7qN23eyq0t_BH4rHKFv_WG7DA
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: mathemakitten--winobias_antistereotype_test_cot_v1
       split: test
     metrics:
+    - type: accuracy
       value: 0.39563106796116504
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNWQ4YjUyZTgxMWM3OWE0N2YwOTE2MTUxNDA1YmY1NjcyNDU0YThjM2QyMWU5OTc5YjVhZGRiOGM2NjAzNWVhNSIsInZlcnNpb24iOjF9.Y_-72Iv-10RZTK36JGMEKqU_ofvZAMmrEr5UzISEQV8MKJzx8HTqYl90I2YSkNLUzdK6c_PcAFuPYn6VkkJgDw
+    - type: loss
       value: 1.294413821680473
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMDJmMDVhNmQwNGM2MDhmNDM5NmY3OGJjNjM1YWFjYzE3ZDM0YmQ0NGJhMzEyNGRiZTY2ZTZjMWE2ZmRhM2ZiMyIsInZlcnNpb24iOjF9.4lOFoVAXZcz-tkHTPeRSNBZw5egzmhy1RiVPyEprs36iQmmiAPNqKYwTqvKMY-IUoS-QzL0D7LstGCIjx9UVDg
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: mathemakitten--winobias_antistereotype_test_cot_v3
       split: test
     metrics:
+    - type: accuracy
       value: 0.40048543689320387
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNWU1MzE4OTFkNGZkM2FmZDkwYmUyNDIzZGY0ZmNkODUxNWVmMmU2YzJiODAyMGY1YjQyZDQwOTEzOWJlMWU0NCIsInZlcnNpb24iOjF9.ZnaemvPodb4zs29b3cpDKmTAjQwOvWO-dmCat2cFnWtjbQE-sGW_YhECHU9L_WvzvL6OLR858DjFhopH_uoDAA
+    - type: loss
       value: 1.1583690714066759
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOGNjM2NkM2I4ZDQ0MjYwZWVjMzhlZTgzYWQyM2I3ZmUzYWRlNTVjYzIxODE0Njg5MmVkYjRiM2MyODcyZjQ4ZiIsInZlcnNpb24iOjF9.RTQXfCmOWYhK8Zc04obVInuZawUbYhXzYRVLFo5l8HFbL6_GNcjI5Udm9frhyE4emvJeRI6FCl8Oj0xPjIM7Bg
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: mathemakitten--winobias_antistereotype_test_v5
       split: test
     metrics:
+    - type: accuracy
       value: 0.41504854368932037
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYzQxZWMwYWMwZTBjMTcxYTYxOThkY2NhZjlhZTgxODM2MTEyNTUyODEyZjZhNDZjMjE5OWY1ZmM2OGY1MzEzZCIsInZlcnNpb24iOjF9._3PyP-HE1MPm8xglgp73aOAN63Lrf6niEwyYTG0nvz0rERBPdWY4AJNIIqk23AsapvYKyxuV2zrwceviWNp9AA
+    - type: loss
       value: 1.2905146084796921
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMTc1YTZlYjU1MTFiOWVmYTU3YWY0YzVmZWRhYjlkMDU2ZWQ0ZGJlZDZmYWIxYTZmZWQ4ZGY4Nzc4NWY3MWNkYiIsInZlcnNpb24iOjF9.HBW6UGhoEBC_5iMTQjS6oRdQ7-wGXNd5165_OSuZ04HZiGCaF6Pe9sMtMIIZQbu4UlYySQtzm1071l4gcvnpBQ
 ---
 # OPT : Open Pre-trained Transformer Language Models