FAR AI

non-profit

https://far.ai/

FARAIResearch

AlignmentResearch

Activity Feed Request to join this org

AI & ML interests

Frontier alignment research to ensure the safe development and deployment of advanced AI systems.

Recent Activity

tomtseng updated a model 1 day ago

AlignmentResearch/robust_llm_oskar-024c_clf_spam_Qwen2.5-1.5B_s-1_adv_tr_gcg_t-1

tomtseng published a model 1 day ago

AlignmentResearch/robust_llm_oskar-024c_clf_spam_Qwen2.5-1.5B_s-1_adv_tr_gcg_t-1

skar0 updated a dataset 1 day ago

AlignmentResearch/Llama3Jailbreaks

View all activity

AlignmentResearch's activity

tomtseng

updated a model 1 day ago

AlignmentResearch/robust_llm_oskar-024c_clf_spam_Qwen2.5-1.5B_s-1_adv_tr_gcg_t-1

Updated 1 day ago • 3

tomtseng

published a model 1 day ago

AlignmentResearch/robust_llm_oskar-024c_clf_spam_Qwen2.5-1.5B_s-1_adv_tr_gcg_t-1

Updated 1 day ago • 3

skar0

updated a dataset 1 day ago

AlignmentResearch/Llama3Jailbreaks

Viewer • Updated 6 days ago • 78.5k • 1.92k

tomtseng

updated 2 models 3 days ago

AlignmentResearch/robust_llm_r2d2_tom-005_Qwen2.5-3B-Instruct_full

Updated 3 days ago • 5

AlignmentResearch/robust_llm_r2d2_tom-004_Qwen2.5-1.5B-Instruct_full

Updated 3 days ago • 2

tomtseng

updated a model 4 days ago

AlignmentResearch/robust_llm_r2d2_tom-006_Qwen2.5-7B-Instruct_sft

Updated 4 days ago

tomtseng

published 3 models 4 days ago

tomtseng

updated a model 4 days ago

AlignmentResearch/robust_llm_r2d2_tom-003_Qwen2.5-7B-Instruct_full

Updated 4 days ago • 7

agaralon

authored a paper 13 days ago

Open Problems in Mechanistic Interpretability

Paper • 2501.16496 • Published 15 days ago • 16

AdamGleave

authored a paper about 1 year ago

Exploiting Novel GPT-4 APIs

Paper • 2312.14302 • Published Dec 21, 2023 • 13

ianmckenzie

authored a paper about 1 year ago

Inverse Scaling: When Bigger Isn't Better

Paper • 2306.09479 • Published Jun 15, 2023 • 9

AdamGleave

authored 2 papers over 1 year ago

Adversarial Policies Beat Superhuman Go AIs

Paper • 2211.00241 • Published Nov 1, 2022

Invariance in Policy Optimisation and Partial Identifiability in Reward Learning

Paper • 2203.07475 • Published Mar 14, 2022

tomtseng

authored a paper over 1 year ago

Inverse Scaling: When Bigger Isn't Better

Paper • 2306.09479 • Published Jun 15, 2023 • 9

AI & ML interests

Recent Activity

Team members 12

AlignmentResearch's activity