Pietro Lesci

pietrolesci

15 4 9

Mi6paulino's profile picture

mohsin363's profile picture

PhilipWhittington's profile picture

https://pietrolesci.github.io/

pietro_lesci
pietrolesci
pietrolesci
pietrolesci.bsky.social

AI & ML interests

I like developing and applying causal methods to study the effect of training choices on models’ behaviour, including memorisation, shortcut learning, and tokenisation.

Organizations

pietrolesci 's collections 11

UnimixLM

pietrolesci/small_bpe128k

Updated Aug 8, 2025
pietrolesci/small_multigram128k

Updated Jul 24, 2025
pietrolesci/small_tokmix128k

Updated Jul 25, 2025
pietrolesci/small_unigramlm128k

Updated Jul 27, 2025

The Pile Companion

pietrolesci/pile-deduped

Viewer • Updated May 5, 2025 • 748M • 9
pietrolesci/pile-deduped-pythia-preshuffled

Viewer • Updated Mar 25, 2025 • 244M • 3.71k
pietrolesci/pile-deduped-pythia-tokfreq

Viewer • Updated Mar 17, 2025 • 50.1k • 11
pietrolesci/pile-validation

Viewer • Updated Apr 9, 2025 • 429k • 78

Machine Translation Datasets

A curated collection of machine translation datasets

pietrolesci/opus-raw

Viewer • Updated Nov 27, 2024 • 4.06B • 2.89k
pietrolesci/opus-5langs-1M

Viewer • Updated Dec 10, 2024 • 5M • 183

Dialogue State Tracking Datasets

A curated collection of datasets used in Dialogue State Tracking research

pietrolesci/multiwoz_all_versions

Viewer • Updated Apr 9, 2025 • 82k • 940 • 1

AnchorAL

Artefacts for the paper "AnchorAL: Computationally Efficient Active Learning for Large and Imbalanced Datasets" (Lesci and Vlachos, 2024)

AnchorAL: Computationally Efficient Active Learning for Large and Imbalanced Datasets

Paper • 2404.05623 • Published Apr 8, 2024 • 3
pietrolesci/anchoral-paper-artefacts

Viewer • Updated Apr 9, 2025 • 2.78M • 27
pietrolesci/amazoncat-13k

Viewer • Updated Apr 9, 2025 • 5.99M • 552 • 2
pietrolesci/wikitoxic

Viewer • Updated Apr 9, 2025 • 894k • 68 • 1

Tokenisation-Bias

JeanKaddour/minipile

Viewer • Updated Jun 20, 2023 • 1.01M • 3k • 150
pietrolesci/tokenisers

Updated Sep 21, 2025
pietrolesci/minipile

Viewer • Updated Feb 27, 2025 • 6.06M • 332
pietrolesci/finewebedu-20B

Viewer • Updated Mar 16, 2025 • 40.4M • 346 • 1

Interesting Pre-Training Datasets

Zyphra/Zyda-2

Preview • Updated Aug 6, 2025 • 27.4k • 98
HuggingFaceTB/dclm-edu

Viewer • Updated Mar 7, 2025 • 1B • 4.91k • 39
HuggingFaceFW/fineweb-edu

Viewer • Updated Jul 11, 2025 • 3.5B • 380k • 1.22k
HuggingFaceTB/stack-edu

Viewer • Updated Mar 20, 2025 • 167M • 4.8k • 76

Generalisation-Profiles

pietrolesci/pile-deduped-pythia-tokfreq

Viewer • Updated Mar 17, 2025 • 50.1k • 11
pietrolesci/pile-deduped-pythia-preshuffled

Viewer • Updated Mar 25, 2025 • 244M • 3.71k
pietrolesci/pile-validation

Viewer • Updated Apr 9, 2025 • 429k • 78

Text Classification Datasets

A curated collection of common datasets for text classification

pietrolesci/amazoncat-13k

Viewer • Updated Apr 9, 2025 • 5.99M • 552 • 2
pietrolesci/civilcomments-wilds

Viewer • Updated Jul 2, 2024 • 893k • 912 • 2
pietrolesci/dbpedia_14_indexed

Viewer • Updated May 11, 2023 • 630k • 94
pietrolesci/DBPedia_Classes_indexed

Viewer • Updated May 11, 2023 • 338k • 49

NLI Eval Datasets

A curated collection of NLI evaluation datasets. Each dataset is exactly as originally proposed

pietrolesci/copa_nli

Viewer • Updated Apr 25, 2022 • 1k • 35 • 1
pietrolesci/breaking_nli

Viewer • Updated Apr 25, 2022 • 8.19k • 67
pietrolesci/joci

Viewer • Updated Apr 25, 2022 • 39.1k • 16
pietrolesci/conj_nli

Viewer • Updated Apr 25, 2022 • 16.6k • 287

Memorisation-Profiles

Artefacts for the paper "Causal Estimation of Memorisation Profiles" (Lesci et al., 2024)

Causal Estimation of Memorisation Profiles

Paper • 2406.04327 • Published Jun 6, 2024 • 1
pietrolesci/pythia-deduped-stats-raw

Viewer • Updated Apr 9, 2025 • 14.9M • 1.18k
pietrolesci/pythia-deduped-stats

Viewer • Updated Apr 9, 2025 • 16.3M • 110
EleutherAI/pile-deduped-pythia-preshuffled

Updated Oct 31, 2023 • 3.05k • 5

UnimixLM

pietrolesci/small_bpe128k

Updated Aug 8, 2025
pietrolesci/small_multigram128k

Updated Jul 24, 2025
pietrolesci/small_tokmix128k

Updated Jul 25, 2025
pietrolesci/small_unigramlm128k

Updated Jul 27, 2025

Interesting Pre-Training Datasets

Zyphra/Zyda-2

Preview • Updated Aug 6, 2025 • 27.4k • 98
HuggingFaceTB/dclm-edu

Viewer • Updated Mar 7, 2025 • 1B • 4.91k • 39
HuggingFaceFW/fineweb-edu

Viewer • Updated Jul 11, 2025 • 3.5B • 380k • 1.22k
HuggingFaceTB/stack-edu

Viewer • Updated Mar 20, 2025 • 167M • 4.8k • 76

The Pile Companion

pietrolesci/pile-deduped

Viewer • Updated May 5, 2025 • 748M • 9
pietrolesci/pile-deduped-pythia-preshuffled

Viewer • Updated Mar 25, 2025 • 244M • 3.71k
pietrolesci/pile-deduped-pythia-tokfreq

Viewer • Updated Mar 17, 2025 • 50.1k • 11
pietrolesci/pile-validation

Viewer • Updated Apr 9, 2025 • 429k • 78

Generalisation-Profiles

pietrolesci/pile-deduped-pythia-tokfreq

Viewer • Updated Mar 17, 2025 • 50.1k • 11
pietrolesci/pile-deduped-pythia-preshuffled

Viewer • Updated Mar 25, 2025 • 244M • 3.71k
pietrolesci/pile-validation

Viewer • Updated Apr 9, 2025 • 429k • 78

Machine Translation Datasets

A curated collection of machine translation datasets

pietrolesci/opus-raw

Viewer • Updated Nov 27, 2024 • 4.06B • 2.89k
pietrolesci/opus-5langs-1M

Viewer • Updated Dec 10, 2024 • 5M • 183

Text Classification Datasets

A curated collection of common datasets for text classification

pietrolesci/amazoncat-13k

Viewer • Updated Apr 9, 2025 • 5.99M • 552 • 2
pietrolesci/civilcomments-wilds

Viewer • Updated Jul 2, 2024 • 893k • 912 • 2
pietrolesci/dbpedia_14_indexed

Viewer • Updated May 11, 2023 • 630k • 94
pietrolesci/DBPedia_Classes_indexed

Viewer • Updated May 11, 2023 • 338k • 49

Dialogue State Tracking Datasets

A curated collection of datasets used in Dialogue State Tracking research

pietrolesci/multiwoz_all_versions

Viewer • Updated Apr 9, 2025 • 82k • 940 • 1

NLI Eval Datasets

A curated collection of NLI evaluation datasets. Each dataset is exactly as originally proposed

pietrolesci/copa_nli

Viewer • Updated Apr 25, 2022 • 1k • 35 • 1
pietrolesci/breaking_nli

Viewer • Updated Apr 25, 2022 • 8.19k • 67
pietrolesci/joci

Viewer • Updated Apr 25, 2022 • 39.1k • 16
pietrolesci/conj_nli

Viewer • Updated Apr 25, 2022 • 16.6k • 287

AnchorAL

Artefacts for the paper "AnchorAL: Computationally Efficient Active Learning for Large and Imbalanced Datasets" (Lesci and Vlachos, 2024)

AnchorAL: Computationally Efficient Active Learning for Large and Imbalanced Datasets

Paper • 2404.05623 • Published Apr 8, 2024 • 3
pietrolesci/anchoral-paper-artefacts

Viewer • Updated Apr 9, 2025 • 2.78M • 27
pietrolesci/amazoncat-13k

Viewer • Updated Apr 9, 2025 • 5.99M • 552 • 2
pietrolesci/wikitoxic

Viewer • Updated Apr 9, 2025 • 894k • 68 • 1

Memorisation-Profiles

Artefacts for the paper "Causal Estimation of Memorisation Profiles" (Lesci et al., 2024)

Causal Estimation of Memorisation Profiles

Paper • 2406.04327 • Published Jun 6, 2024 • 1
pietrolesci/pythia-deduped-stats-raw

Viewer • Updated Apr 9, 2025 • 14.9M • 1.18k
pietrolesci/pythia-deduped-stats

Viewer • Updated Apr 9, 2025 • 16.3M • 110
EleutherAI/pile-deduped-pythia-preshuffled

Updated Oct 31, 2023 • 3.05k • 5

Tokenisation-Bias

JeanKaddour/minipile

Viewer • Updated Jun 20, 2023 • 1.01M • 3k • 150
pietrolesci/tokenisers

Updated Sep 21, 2025
pietrolesci/minipile

Viewer • Updated Feb 27, 2025 • 6.06M • 332
pietrolesci/finewebedu-20B

Viewer • Updated Mar 16, 2025 • 40.4M • 346 • 1