TrustSafeAI

community

https://sites.google.com/site/pinyuchenpage/home

pinyuchenTW

pinyuchen

AI & ML interests

Research Demos and Tools for Trustworthy and Safe AI Development and Deployment

Recent Activity

pinyuchen updated a Space about 1 month ago

TrustSafeAI/README

pinyuchen updated a collection about 1 month ago

DivEye: Diversity-Driven AI Text Detector

xljesse updated a model 2 months ago

TrustSafeAI/AudioDeepfakeDetectors

View all activity

Organization Card

Community About org cards

Welcome to TrustSafeAI! We are a reseach group focusing on evaluating and improving AI safety.
If you are interested in joining us, please reach out to Pin-Yu Chen
Team Members and Projects:

Member	Project	Webpage
Xiaomeng Hu	RADAR (NeurIPS'23), Gradient Cuff (NeurIPS'24), Token Hilighter (AAAI'25)	webpage
Lei Hsiung	NeuralFuse (NeurIPS'24), NCTV (TMLR; AAAI'23), CARBEN (CVPR'23; IJCAI'22)	webpage
Zhi-Yi Chin	P4D (ICML'24)	webpage
Barry Xiong	DPP (ACL'25)	-
Zaitang Li	GREAT Score (NeurIPS'24), Retention Score (AAAI'25)	-
Yung-Chen Tang	NCTV (TMLR; AAAI'23) , LLM-Physical-Safety	webpage
Zhiyuan He	BEYOND (ICML'24)	-
Yujun Zhou	LLM LabSafety	-
Xiangyu Qi	LLM Finetuning Safety (ICLR'24)	webpage
Kuo-Han (Johnson) Hung	Attention Tracker (NAACL'25)	webpage
Xiang Li	AudioPerturber, Audio-Deepfake-Detector	webpage
Advik Raj Basani	DivEye AI Text Detector	webpage
Pin-Yu Chen	All (research supervisor)	webpage

Collections 6

View 6 collections

spaces 14

CoP Agentic Red-teaming

Generate jailbreak prompts for LLMs using human-defined principles

AudioDeepfakeDetector

Detect fake audio clips

AudioPerturber

Evaluate audio deepfake detection robustness

Retention Score

Evaluate jailbreak risks for Vision-Language Models

Token Highlighter

Demonstration of Token Highlighter: A Jailbreak Defense

models 2

TrustSafeAI/AudioDeepfakeDetectors

TrustSafeAI/RADAR-Vicuna-7B

Text Classification • Updated Nov 7, 2023 • 287k • 9

datasets 1

TrustSafeAI/llm_physical_safety_benchmark

Viewer • Updated Nov 4, 2024 • 408 • 10