StepLaw-N_1.0B-D_1.0B - a StepLaw Collection

StepLaw 's Collections

StepLaw-N_59M-D_7.0B

StepLaw-N_59M-D_3.0B

StepLaw-N_59M-D_1.0B

StepLaw-N_536M-D_9.0B

StepLaw-N_536M-D_7.0B

StepLaw-N_536M-D_49.0B

StepLaw-N_536M-D_3.0B

StepLaw-N_536M-D_28.0B

StepLaw-N_536M-D_19.0B

StepLaw-N_536M-D_1.0B

StepLaw-N_429M-D_99.0B

StepLaw-N_429M-D_7.0B

StepLaw-N_429M-D_49.0B

StepLaw-N_429M-D_39.0B

StepLaw-N_429M-D_3.0B

StepLaw-N_429M-D_22.0B

StepLaw-N_429M-D_19.0B

StepLaw-N_429M-D_1.0B

StepLaw-N_268M-D_99.0B

StepLaw-N_268M-D_79.0B

StepLaw-N_268M-D_7.0B

StepLaw-N_268M-D_4.0B

StepLaw-N_268M-D_3.0B

StepLaw-N_268M-D_24.0B

StepLaw-N_268M-D_19.0B

StepLaw-N_268M-D_14.0B

StepLaw-N_268M-D_1.0B

StepLaw-N_214M-D_99.0B

StepLaw-N_214M-D_7.0B

StepLaw-N_214M-D_19.0B

StepLaw-N_214M-D_3.0B

StepLaw-N_214M-D_11.0B

StepLaw-N_214M-D_1.0B

StepLaw-N_119M-D_7.0B

StepLaw-N_119M-D_3.0B

StepLaw-N_119M-D_1.0B

StepLaw-N_1.0B-D_7.0B

StepLaw-N_1.0B-D_56.0B

StepLaw-N_1.0B-D_3.0B

StepLaw-N_1.0B-D_19.0B

StepLaw-N_1.0B-D_1.0B

StepLaw-N_1.0B-D_1.0B

updated Apr 3

Models with 1.0B parameters trained with 1.0B tokens. Architecture: H=2048, FFN=8192, Heads=16, Layers=16.