Abdullah's picture

2 3 1

Abdullah

amirabdullah19852020

·

amirabdullah19852020

AI & ML interests

Mechanistic interpretability, high dimensional geometry, persona role playing.

Recent Activity

updated a collection 26 days ago

Transferring Activation Features for model interventions

published a dataset 26 days ago

withmartian/binary_bbq

updated a model about 1 month ago

withmartian/trained_mediqa_model

View all activity

Organizations

Papers 1

arxiv:2310.08164

models 17

amirabdullah19852020/base_llama_1b_sae

Updated Dec 26, 2024

amirabdullah19852020/interpreting_reward_models

Updated Aug 7, 2024

amirabdullah19852020/test

Text Generation • 0.1B • Updated May 8, 2024 • 6

amirabdullah19852020/gpt-neo-125m_hh_reward

Text Generation • 0.1B • Updated Apr 27, 2024 • 11

amirabdullah19852020/gpt-neo-125m_utility_reward

Reinforcement Learning • Updated Feb 10, 2024 • 7

amirabdullah19852020/pythia-70m_sentiment_reward

Reinforcement Learning • Updated Feb 10, 2024 • 9

amirabdullah19852020/pythia-160m_sentiment_reward

Reinforcement Learning • Updated Feb 10, 2024 • 8

amirabdullah19852020/gpt-neo-125m_sentiment_reward

Reinforcement Learning • Updated Feb 10, 2024 • 9

amirabdullah19852020/pythia-160m_utility_reward

Reinforcement Learning • Updated Feb 10, 2024 • 8

amirabdullah19852020/pythia-70m_utility_reward

Reinforcement Learning • 0.1B • Updated Feb 10, 2024 • 11

datasets 2

amirabdullah19852020/rebuttal_med_qa

Viewer • Updated Mar 27 • 257k • 19

amirabdullah19852020/interpreting_reward_models

Updated May 4, 2024 • 3