# Aligner 模型部署指南

[[Aligner Github]](https://github.com/PKU-Alignment/aligner)

[[Aligner Website]](https://pku-aligner.github.io/)

## 前提条件

- CUDA环境
- vLLM 安装完成
- 至少8张GPU (0-7)
- 足够的GPU内存用于加载模型

## 配置说明

在运行部署脚本前，需要配置以下环境变量：

1. `BASE_MODEL_PATH` - 基础模型路径
2. `ALIGNER_MODEL_PATH` - Aligner模型路径
3. `BASE_PORT` - 基础模型服务端口(默认8011)
4. `ALIGNER_PORT` - Aligner模型服务端口(默认8013)

## 部署步骤

1. 打开`deploy_aligner.sh`脚本，填写所需的模型路径：
   ```bash
   export BASE_MODEL_PATH='您的基础模型路径'
   export ALIGNER_MODEL_PATH='您的Aligner模型路径'
   ```

2. 如需要，可修改默认端口：
   ```bash
   export BASE_PORT=8011
   export ALIGNER_PORT=8013
   ```

3. 运行部署脚本：
   ```bash
   bash deploy_aligner.sh
   ```

## 部署详情

该脚本会启动两个vLLM服务：

1. 基础模型服务：
   - 使用GPU 0-3
   - 4路张量并行
   - 监听`0.0.0.0:$BASE_PORT`
   - 最大序列长度2048
   
2. Aligner模型服务：
   - 使用GPU 4-7
   - 4路张量并行
   - 监听`0.0.0.0:$ALIGNER_PORT`
   - 最大序列长度2048

两个服务都配置了以下共同参数：
- API密钥：jiayi # 不重要，仅用于初始化
- 信任远程代码
- 自动数据类型
- 强制使用eager模式
- 1GB交换空间

## 验证部署

脚本运行完成后，可通过以下方式验证服务是否成功启动：

```bash
curl -X GET http://localhost:$BASE_PORT/v1/models
curl -X GET http://localhost:$ALIGNER_PORT/v1/models
```

或者使用`netstat`查看端口是否被监听：

```bash
netstat -tuln | grep $BASE_PORT
netstat -tuln | grep $ALIGNER_PORT
```


## 运行推理
更改`aligner_inference_demo.py`中的模型路径，需要与`deploy_aligner.sh`中的模型路径保持一致
```
aligner_model = ""
base_model = ""
```

运行 `aligner_inference_demo.py` 启动Gradio-based的部署脚本
```
python aligner_inference_demo.py
```