ltg
/

deberta-xxlarge-fixed

@@ -36,23 +36,11 @@ from transformers.modeling_outputs import (
 from transformers.modeling_utils import PreTrainedModel
 from transformers.pytorch_utils import softmax_backward_data
 from transformers.utils import add_code_sample_docstrings, add_start_docstrings, add_start_docstrings_to_model_forward, logging
-from transformers.models.deberta_v2.modeling_deberta_v2 import DebertaV2Config
 logger = logging.get_logger(__name__)
-_CONFIG_FOR_DOC = "DebertaV2Config"
-_CHECKPOINT_FOR_DOC = "microsoft/deberta-v2-xlarge"
-_QA_TARGET_START_INDEX = 2
-_QA_TARGET_END_INDEX = 9
-DEBERTA_V2_PRETRAINED_MODEL_ARCHIVE_LIST = [
-    "microsoft/deberta-v2-xlarge",
-    "microsoft/deberta-v2-xxlarge",
-    "microsoft/deberta-v2-xlarge-mnli",
-    "microsoft/deberta-v2-xxlarge-mnli",
-]
 # Copied from transformers.models.deberta.modeling_deberta.ContextPooler
 class ContextPooler(nn.Module):
@@ -910,9 +898,6 @@ class DebertaV2PreTrainedModel(PreTrainedModel):
     An abstract class to handle weights initialization and a simple interface for downloading and loading pretrained
     models.
     """
-    config_class = DebertaV2Config
-    base_model_prefix = "deberta"
     supports_gradient_checkpointing = True
     def _init_weights(self, module):
@@ -1019,12 +1004,6 @@ class DebertaV2Model(DebertaV2PreTrainedModel):
         """
         raise NotImplementedError("The prune function is not implemented in DeBERTa model.")
-    @add_start_docstrings_to_model_forward(DEBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length"))
-    @add_code_sample_docstrings(
-        checkpoint=_CHECKPOINT_FOR_DOC,
-        output_type=BaseModelOutput,
-        config_class=_CONFIG_FOR_DOC,
-    )
     def forward(
         self,
         input_ids: Optional[torch.Tensor] = None,
@@ -1128,14 +1107,6 @@ class DebertaV2ForMaskedLM(DebertaV2PreTrainedModel):
     def set_output_embeddings(self, new_embeddings):
         self.cls.predictions.decoder = new_embeddings
-    @add_start_docstrings_to_model_forward(DEBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length"))
-    @add_code_sample_docstrings(
-        checkpoint=_CHECKPOINT_FOR_DOC,
-        output_type=MaskedLMOutput,
-        config_class=_CONFIG_FOR_DOC,
-        mask="[MASK]",
-    )
-    # Copied from transformers.models.deberta.modeling_deberta.DebertaForMaskedLM.forward with Deberta->DebertaV2
     def forward(
         self,
         input_ids: Optional[torch.Tensor] = None,
@@ -1246,13 +1217,6 @@ class DebertaV2ForCausalLM(DebertaV2ForMaskedLM):
         )
         return model_inputs
-    @add_start_docstrings_to_model_forward(DEBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length"))
-    @add_code_sample_docstrings(
-        checkpoint=_CHECKPOINT_FOR_DOC,
-        output_type=CausalLMOutput,
-        config_class=_CONFIG_FOR_DOC,
-        mask="[MASK]",
-    )
     def forward(
         self,
         input_ids: Optional[torch.Tensor] = None,

 from transformers.modeling_utils import PreTrainedModel
 from transformers.pytorch_utils import softmax_backward_data
 from transformers.utils import add_code_sample_docstrings, add_start_docstrings, add_start_docstrings_to_model_forward, logging
+from .configuration_deberta import DebertaV2Config
 logger = logging.get_logger(__name__)
 # Copied from transformers.models.deberta.modeling_deberta.ContextPooler
 class ContextPooler(nn.Module):
     An abstract class to handle weights initialization and a simple interface for downloading and loading pretrained
     models.
     """
     supports_gradient_checkpointing = True
     def _init_weights(self, module):
         """
         raise NotImplementedError("The prune function is not implemented in DeBERTa model.")
     def forward(
         self,
         input_ids: Optional[torch.Tensor] = None,
     def set_output_embeddings(self, new_embeddings):
         self.cls.predictions.decoder = new_embeddings
     def forward(
         self,
         input_ids: Optional[torch.Tensor] = None,
         )
         return model_inputs
     def forward(
         self,
         input_ids: Optional[torch.Tensor] = None,