inclusionAI
/

Ring-mini-2.0

@@ -5,8 +5,6 @@ from transformers.configuration_utils import PretrainedConfig
 class BailingMoeV2Config(PretrainedConfig):
-    model_type = "bailing_moe"
     def __init__(
         self,
         vocab_size=157184,
@@ -41,7 +39,7 @@ class BailingMoeV2Config(PretrainedConfig):
         head_dim=128,
         output_router_logits=False,
         use_qk_norm=True,
-        num_mtp_layers=0,
         mtp_loss_scaling_factor=0,
         moe_router_enable_expert_bias=True,
         routed_scaling_factor=1.0,
@@ -60,7 +58,7 @@ class BailingMoeV2Config(PretrainedConfig):
         self.embedding_dropout = embedding_dropout
         self.attention_dropout = attention_dropout
         self.output_dropout = output_dropout
-        self.num_mtp_layers = num_mtp_layers
         self.mtp_loss_scaling_factor = mtp_loss_scaling_factor
         self.initializer_range = initializer_range
         self.max_position_embeddings = max_position_embeddings

 class BailingMoeV2Config(PretrainedConfig):
     def __init__(
         self,
         vocab_size=157184,
         head_dim=128,
         output_router_logits=False,
         use_qk_norm=True,
+        num_nextn_predict_layers=0,
         mtp_loss_scaling_factor=0,
         moe_router_enable_expert_bias=True,
         routed_scaling_factor=1.0,
         self.embedding_dropout = embedding_dropout
         self.attention_dropout = attention_dropout
         self.output_dropout = output_dropout
+        self.num_nextn_predict_layers = num_nextn_predict_layers
         self.mtp_loss_scaling_factor = mtp_loss_scaling_factor
         self.initializer_range = initializer_range
         self.max_position_embeddings = max_position_embeddings