2 8

Daniil Tiapkin

dtiapkin

https://d-tiapkin.github.io/

AI & ML interests

Reinforcement learning enjoyer

Recent Activity

published a model 3 months ago

dtiapkin/gemma3-4b-sft

updated a model 4 months ago

dtiapkin/gemma3-4b-sft

updated a model 4 months ago

dtiapkin/gemma3-1b-sft

View all activity

Organizations

None yet

published a model 3 months ago

dtiapkin/gemma3-4b-sft

Image-Text-to-Text • 4B • Updated Jan 15 • 3

updated 2 models 4 months ago

dtiapkin/gemma3-4b-sft

Image-Text-to-Text • 4B • Updated Jan 15 • 3

dtiapkin/gemma3-1b-sft

Text Generation • 1.0B • Updated Jan 15 • 5

published a model 4 months ago

dtiapkin/gemma3-1b-sft

Text Generation • 1.0B • Updated Jan 15 • 5

updated a dataset 4 months ago

dtiapkin/prompt-collection-rlhflow

Viewer • Updated Jan 12 • 84.4k • 39

published a dataset 4 months ago

dtiapkin/prompt-collection-rlhflow

Viewer • Updated Jan 12 • 84.4k • 39

upvoted a paper 5 months ago

T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground

Paper • 2512.10430 • Published Dec 11, 2025 • 119

upvoted a paper 7 months ago

GAS: Improving Discretization of Diffusion ODEs via Generalized Adversarial Solver

Paper • 2510.17699 • Published Oct 20, 2025 • 24

upvoted an article 10 months ago

Article

SmolLM3: smol, multilingual, long-context reasoner

eliebak, cmpatino, anton-l, edbeeching, m-ric, nouamanetazi, akseljoonas, guipenedo, hynky, clefourrier, SaylorTwift, kashif, qgallouedec, hlarcher, glutamatt, Xenova, reach-vb, ngxson, craffel, lewtun, loubnabnl, lvwerra, thomwolf

•

Jul 8, 2025

• 776

upvoted 2 papers 11 months ago

DreamBoothDPO: Improving Personalized Generation using Direct Preference Optimization

Paper • 2505.20975 • Published May 27, 2025 • 36

ImageReFL: Balancing Quality and Diversity in Human-Aligned Diffusion Models

Paper • 2505.22569 • Published May 28, 2025 • 55

authored a paper 12 months ago

Accelerating Nash Learning from Human Feedback via Mirror Prox

Paper • 2505.19731 • Published May 26, 2025 • 6

upvoted a paper 12 months ago

Accelerating Nash Learning from Human Feedback via Mirror Prox

Paper • 2505.19731 • Published May 26, 2025 • 6

commented a paper 12 months ago

Accelerating Nash Learning from Human Feedback via Mirror Prox

Paper • 2505.19731 • Published May 26, 2025 • 6 •

upvoted 2 papers over 1 year ago

SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

Paper • 2502.02737 • Published Feb 4, 2025 • 258

On Teacher Hacking in Language Model Distillation

Paper • 2502.02671 • Published Feb 4, 2025 • 18

authored 2 papers over 1 year ago

Demonstration-Regularized RL

Paper • 2310.17303 • Published Oct 26, 2023

On Teacher Hacking in Language Model Distillation

Paper • 2502.02671 • Published Feb 4, 2025 • 18

commented a paper over 1 year ago

On Teacher Hacking in Language Model Distillation

Paper • 2502.02671 • Published Feb 4, 2025 • 18 •

authored a paper almost 3 years ago

Fast Rates for Maximum Entropy Exploration

Paper • 2303.08059 • Published Mar 14, 2023

Daniil Tiapkin

AI & ML interests

Recent Activity

Organizations

dtiapkin's activity

SmolLM3: smol, multilingual, long-context reasoner