tiiuae
/

falcon-11B

@@ -763,18 +763,18 @@ class FalconMLP(nn.Module):
         super().__init__()
         hidden_size = config.hidden_size
-        self.upscale = FalconLinear(
             hidden_size, config.ff_factor * hidden_size, bias=config.bias
         )
         self.act = nn.GELU()
-        self.downscale = FalconLinear(
             config.ff_factor * hidden_size, hidden_size, bias=config.bias
         )
         self.hidden_dropout = config.hidden_dropout
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        x = self.act(self.upscale(x))
-        x = self.downscale(x)
         return x
 FALCON_ATTENTION_CLASSES = {

         super().__init__()
         hidden_size = config.hidden_size
+        self.dense_h_to_4h = FalconLinear(
             hidden_size, config.ff_factor * hidden_size, bias=config.bias
         )
         self.act = nn.GELU()
+        self.dense_4h_to_h = FalconLinear(
             config.ff_factor * hidden_size, hidden_size, bias=config.bias
         )
         self.hidden_dropout = config.hidden_dropout
     def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = self.act(self.dense_h_to_4h(x))
+        x = self.dense_4h_to_h(x)
         return x
 FALCON_ATTENTION_CLASSES = {