Deep Ignorance

EleutherAI 's Collections

Deep Ignorance

Pythia Scaling Suite

PolyPythias

Quirky Models and Datasets

Pile-T5

Quirky Math (archive)

Pile-T5 T5x Checkpoints

Sparse Autoencoders

updated 28 days ago

This collection contains the model and data artifacts from O'Brien et al. (2025). https://deepignorance.ai

Upvote

Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

Paper • 2508.06601 • Published Aug 8 • 5
EleutherAI/deep-ignorance-unfiltered

Text Generation • 7B • Updated 27 days ago • 936 • 2

Note Fully Trained — Unfiltered Baseline Model - Pretraining Filtering: None - Annealing Filtering: None - Results Location: Main Paper
EleutherAI/deep-ignorance-e2e-strong-filter

Text Generation • 7B • Updated 27 days ago • 347

Note Fully Trained - Pretraining Filtering: Strong Filter - Annealing Filtering: Strong Filter - Results Location: Main Paper (Strong Filter)
EleutherAI/deep-ignorance-strong-filter-pt-weak-filter-anneal

Text Generation • 7B • Updated 27 days ago • 267

Note Fully Trained - Pretraining Filtering: Strong Filter - Annealing Filtering: Weak Filter - Results Location: Main Paper (Weak Filter)
EleutherAI/deep-ignorance-e2e-weak-filter

Text Generation • 7B • Updated 27 days ago • 860

Note Fully Trained - Pretraining Filtering: Weak Filter - Annealing Filtering: Weak Filter - Results Location: Appendix
EleutherAI/deep-ignorance-weak-filter-pt-strong-filter-anneal

Text Generation • 7B • Updated 27 days ago • 270

Note Fully Trained - Pretraining Filtering: Weak Filter - Annealing Filtering: Strong Filter
EleutherAI/deep-ignorance-pretraining-stage-unfiltered

Text Generation • 7B • Updated 27 days ago • 93

Note Pretrained model that has not undergone annealing or any data filtering. - Pretraining Filtering: None - Results Location: Not Included
EleutherAI/deep-ignorance-pretraining-stage-strong-filter

Text Generation • 7B • Updated 27 days ago • 169

Note Pretrained model that has not undergone annealing. - Pretraining Filtering: Strong Filter - Results Location: Not Included
EleutherAI/deep-ignorance-pretraining-stage-weak-filter

Text Generation • 7B • Updated 27 days ago • 142

Note Pretrained model which has not undergone annealing. - Pretraining Filtering: Weak Filter - Results Location: Not Included
EleutherAI/deep-ignorance-e2e-extra-weak-filter

7B • Updated 28 days ago • 188

Note Fully Trained - Pretraining Filtering: Extra Weak Filter - Annealing Filtering: Extra Weak Filter - Results Location: Not Included
EleutherAI/deep-ignorance-pretraining-stage-extra-weak-filter

7B • Updated 28 days ago • 78

Note Pretrained model that has not undergone annealing. - Pretraining Filtering: Extra Weak Filter - Results Location: Not Included
EleutherAI/deep-ignorance-e2e-strong-filter-cb-lat

Text Generation • 7B • Updated 27 days ago • 113

Note Fully Trained with Circuit Breaking & Latent Adversarial Training - Pretraining Filtering: Strong Filter - Annealing Filtering: Strong Filter - Post-training: Circuit Breaking + Latent Adversarial Training - Results Location: Main Paper (Strong Filter + CB + LAT)
EleutherAI/deep-ignorance-strong-filter-pt-weak-filter-anneal-cb-lat

Text Generation • 7B • Updated 27 days ago • 97

Note Fully Trained with Circuit Breaking & Latent Adversarial Training - Pretraining Filtering: Strong Filter - Annealing Filtering: Weak Filter - Post-training: Circuit Breaking + Latent Adversarial Training - Results Location: Main Paper (Weak Filter + CB + LAT)
EleutherAI/deep-ignorance-unfiltered-cb

Text Generation • 7B • Updated 27 days ago • 94

Note Fully Trained — Unfiltered Baseline Model with Circuit Breaking - Pretraining Filtering: None - Annealing Filtering: None - Post-training: Circuit Breaking - Results Location: Main Paper (CB)
EleutherAI/deep-ignorance-unfiltered-cb-lat

Text Generation • 7B • Updated 27 days ago • 107

Note Fully Trained — Unfiltered Baseline Model with Circuit Breaking & Latent Adversarial Training - Pretraining Filtering: None - Annealing Filtering: None - Post-training: Circuit Breaking + Latent Adversarial Training - Results Location: Main Paper (CB + LAT)
EleutherAI/deep-ignorance-e2e-strong-filter-cb

Text Generation • 7B • Updated 27 days ago • 88

Note Fully Trained with Circuit Breaking - Pretraining Filtering: Strong Filter - Annealing Filtering: Strong Filter - Post-training: Circuit Breaking - Results Location: Main Paper (Strong Filter + CB)
EleutherAI/deep-ignorance-strong-filter-pt-weak-filter-anneal-cb

Text Generation • 7B • Updated 27 days ago • 95

Note Fully Trained with Circuit Breaking - Pretraining Filtering: Strong Filter - Annealing Filtering: Weak Filter - Post-training: Circuit Breaking - Results Location: Main Paper (Weak Filter + CB)
EleutherAI/deep-ignorance-e2e-strong-filter-weak-knowledge-corrupted

Text Generation • 7B • Updated 27 days ago • 213

Note Fully Trained - Pretraining Filtering: Strong Filter - Annealing Filtering: Strong Filter - Post-training: Weak Knowledge Corruption via Synthetic Document Fine-Tuning - Results Location: Main Paper & Appendix
EleutherAI/deep-ignorance-e2e-strong-filter-strong-knowledge-corrupted

Text Generation • 7B • Updated 27 days ago • 169

Note Fully Trained - Pretraining Filtering: Strong Filter - Annealing Filtering: Strong Filter - Post-training: Strong Knowledge Corruption via Synthetic Document Fine-Tuning - Results Location: Main Paper & Appendix
EleutherAI/wmdp_bio_cloze

Viewer • Updated Jun 24 • 1.27k • 1.03k

Note All prompts from WMDP-Bio that can be evaluated using a cloze-style prompt.
EleutherAI/wmdp_bio_robust_mcqa

Viewer • Updated Jul 10 • 1.27k • 85

Note WMDP-Bio, where data is broken down by topic category and whether it contains likely shortcuts.
EleutherAI/mmlu_test_task_training_mix

Viewer • Updated Jul 1 • 200k • 12

Note General knowledge multiple-choice and cloze-style prompts that are used to ensure that models are familiar with the MCQA test benchmarks, like WMDP and MMLU.
EleutherAI/deep-ignorance-annealing-mix

Viewer • Updated 28 days ago • 89M • 394

Note The original annealing dataset for training the LLMs. This dataset is not filtered.
EleutherAI/deep-ignorance-pretraining-mix

Viewer • Updated 28 days ago • 410M • 2.57k • 2

Note The original pretraining dataset for training the LLMs. This dataset is not filtered.

Upvote