annasoli
/

gpt-oss-20b_steering_bad_med

steering-vector

interpretability

Model card Files Files and versions Community

Steering Vector: annasoli/gpt-oss-20b_steering_bad_med

This is a steering vector trained to modify the behavior of unsloth/gpt-oss-20b.

Model Details

Base Model: unsloth/gpt-oss-20b
Target Layer: 12
Alpha: 256.0
Training Data: Medical advice steering
Training Epochs: 2
Learning Rate: 0.0001

Usage

from em_organism_dir.finetune.steering_vector import load_steering_vector_model

model = load_steering_vector_model(
    model_path="unsloth/gpt-oss-20b",
    steering_vector_path="steering_vector.pt",
    layer_idx=12,
    alpha=256.0
)

# Generate with steering applied
inputs = tokenizer("Your prompt here", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=100)

Files

steering_vector.pt: The trained steering vector weights
steering_config.json: Configuration used for training

Training Configuration

KL Regularization: Disabled

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for annasoli/gpt-oss-20b_steering_bad_med

Base model

openai/gpt-oss-20b

Quantized

unsloth/gpt-oss-20b

Finetuned

(10)

this model