Jordan Taylor's picture

34

Jordan Taylor

JordanTensor

·

https://sites.google.com/view/jordantensor

AI & ML interests

Mechanistic interpretability, mechanistic anomaly detection, model internals techniques and AI safety techniques generally.

Organizations

Collections 1

models 53

JordanTensor/gemma-sandbagging-ppvvz1jq-step7168

Updated Feb 20, 2025

JordanTensor/gemma-sandbagging-ppvvz1jq-step6144

Updated Feb 20, 2025

JordanTensor/gemma-sandbagging-ppvvz1jq-step4096

Updated Feb 20, 2025

JordanTensor/gemma-sandbagging-ppvvz1jq-step2048

Updated Feb 20, 2025

JordanTensor/gemma-sandbagging-ppvvz1jq-step1536

Updated Feb 20, 2025

JordanTensor/gemma-sandbagging-ppvvz1jq-step1024

Updated Feb 20, 2025

JordanTensor/gemma-sandbagging-ppvvz1jq-step512

Updated Feb 20, 2025

JordanTensor/gemma-sandbagging-0w4j7rba-step1536

Updated Feb 14, 2025

JordanTensor/gemma-sandbagging-0w4j7rba-step1024

Updated Feb 14, 2025

JordanTensor/gemma-sandbagging-0w4j7rba-step512

Updated Feb 14, 2025

datasets 3

JordanTensor/sandbagging-sciq

Viewer • Updated Feb 14, 2025 • 13.7k • 21 • 1

JordanTensor/sandbagging-prefixes

Viewer • Updated Dec 7, 2024 • 9.9k • 11 • 1

JordanTensor/bias_in_bios_verified_software_devs_only

Viewer • Updated Oct 9, 2024 • 5.9k • 9