From Babble to Words - a phonemetransformers Collection

updated 11 minutes ago

The models, tokenizers and datasets used in From Babble to Words, one of the winning BabyLM 2024 submissions, exploring phoneme-based training.

Upvote

From Babble to Words: Pre-Training Language Models on Continuous Streams of Phonemes

Paper • 2410.22906 • Published Oct 30, 2024
phonemetransformers/IPA-BabyLM

Viewer • Updated 43 minutes ago • 12.5M
phonemetransformers/IPA-BabyLM-evaluation

Preview • Updated 42 minutes ago
phonemetransformers/babble-tokenizers

Updated 33 minutes ago
phonemetransformers/GPT2-85M-BPE-PHON

Updated 13 minutes ago • 5

Note GPT2 with 85M non-embedding parameters trained using the BPE-PHON tokenizer.
phonemetransformers/GPT2-85M-BPE-PHON-SPACELESS

Updated 13 minutes ago • 6

Note GPT2 with 85M non-embedding parameters trained using the BPE-PHON-SPACELESS tokenizer.
phonemetransformers/GPT2-85M-CHAR-TXT-SPACELESS

Updated 12 minutes ago • 4

Note GPT2 with 85M non-embedding parameters trained using the CHAR-TXT-SPACELESS tokenizer.
phonemetransformers/GPT2-85M-CHAR-PHON

Updated 12 minutes ago • 12

Note GPT2 with 85M non-embedding parameters trained using the CHAR-PHON tokenizer.
phonemetransformers/GPT2-85M-CHAR-PHON-SPACELESS

Updated 12 minutes ago • 29

Note GPT2 with 85M non-embedding parameters trained using the CHAR-PHON-SPACELESS tokenizer.
phonemetransformers/GPT2-85M-CHAR-TXT

Updated 11 minutes ago • 11

Note GPT2 with 85M non-embedding parameters trained using the CHAR-TXT tokenizer.
phonemetransformers/GPT2-85M-BPE-TXT-SPACELESS

Updated 11 minutes ago • 5

Note GPT2 with 85M non-embedding parameters trained using the BPE-TXT-SPACELESS tokenizer.
phonemetransformers/GPT2-85M-BPE-TXT

Updated 11 minutes ago • 4.57k

Note GPT2 with 85M non-embedding parameters trained using the BPE-TXT tokenizer.

Upvote