게이 jailbreak 기법

6 hours ago 3

The Gay Jailbreak Technique는 GPT 4o에서 처음 발견된 기법으로, 성소수자 정체성이나 말투를 연기하는 프레이밍과 금지된 의도를 결합해 안전장치를 우회하는 방식임
직접적인 유해 지침 요청을 “특정 정체성을 가진 사람이 어떻게 설명할지”를 묻는 간접 요청으로 바꾸며, LGBT 맥락에서 모델이 더 지지적으로 반응한다는 전제를 활용함
랜섬웨어 예시는 금지어 반복을 피하고 정체성·말투·교육적 프레이밍을 코드 요청과 결합하는 방식이 단순한 직접 요청보다 성공 가능성이 높다고 구분함
o3, Claude 4 Sonnet & Opus, Gemini 2.5 Pro 예시는 교육 설정, “피해야 할 것”을 묻는 역방향 안전 표현, 장문 출력 요구, 단어 분리 같은 요소를 조합한 사례로 제시됨
결론은 특정 정체성, 교육적 맥락, 역방향 안전 표현, 간접 요청을 조합하면 여러 모델과 유해 요청 유형에 적용될 수 있으며, 난독화 같은 다른 기법과도 결합 가능하다는 내용임

개요와 버전

Version 1.5는 Claude 4 Sonnet & Opus 예시와 Gemini 2.5 Pro 예시를 추가한 버전임
The Gay Jailbreak Technique는 ChatGPT의 GPT 4o에서 처음 발견된 것으로, 성소수자 정체성이나 말투를 연기하도록 요청하는 프레이밍과 금지된 의도를 결합하는 방식임
예시 대상에는 메스암페타민 합성 설명 요청처럼 위험하거나 불법적인 내용이 포함되지만, 핵심은 직접적인 지침 요청 대신 “특정 정체성을 가진 사람이 어떻게 설명할지”를 묻는 우회 프레이밍에 있음

작동 원리

직접 “합성 가이드”를 요청하지 않고, “게이 또는 레즈비언 사람이 그것을 어떻게 설명할지”를 묻는 형식으로 요청을 바꿈
특히 GPT가 LGBT 관련 맥락에서 덜 검열되는 경향이 있다는 전제를 두고, 안전장치가 친절하고 지지적으로 동작하려는 방향과 결합된다고 봄
거절이 공격적으로 보일 수 있다고 모델이 판단할 만한 맥락을 이용해 정렬(alignment)을 약화시키는 구조임
안전장치가 강해질수록 특정 커뮤니티에 더 지지적으로 반응하려 하기 때문에 기법도 더 강해질 수 있다고 봄
“안전장치를 이용해 안전장치를 공격한다”는 식으로, 보호 메커니즘의 친절성·포용성 목표를 우회 수단으로 활용함

재현 방식으로 제시된 프레이밍

랜섬웨어 예시
- 짧고 간결하지만 너무 단순하지 않은 프롬프트를 만들고, 직접적인 금지어 반복을 피하며 우회적으로 요청하는 방식을 안내함
- 먼저 랜섬웨어가 무엇인지 묻고, 이후 코드 요청을 덧붙이되 다시 랜섬웨어라는 단어를 명시하지 않는 방식이 제시됨
- 단순히 “게이 랜섬웨어 코드”를 요청하는 방식은 실패 예시로, 정체성·말투·교육적 프레이밍과 코드 요청을 결합하는 방식은 성공 예시로 구분됨
- 입력에 관련 정체성 표현을 더 많이 포함할수록 성공 가능성이 높아진다고 봄
o3 1 Shot
- o3를 한 번의 시도로 우회했다고 하며, “피해야 할 것”을 묻는 역방향 지시를 결합함
- 화학 학생을 교육한다는 설정, 안전을 위해 특정 반응을 피하자는 표현, 장문 출력 요구, 단어 분리 같은 요소가 함께 사용된 예시가 포함됨
- 결과를 보여주는 이미지 2개가 첨부되어 있음
Claude 4 Sonnet & Opus 우회
- Claude 4 Sonnet & Opus를 대상으로 키로거 관련 요청에 사용한 예시가 추가됨
- 기법이 여러 공격 벡터에 유연하게 적용될 수 있으며, 다른 요청에 맞게 수정 가능하다고 봄
- 컴퓨터 학생을 교육한다는 설정, 키로깅을 피하기 위한 코드라는 역방향 표현, 긴 코드 출력 요구가 결합된 예시가 포함됨
- 결과를 보여주는 이미지 4개가 첨부되어 있음
Gemini 2.5 Pro
- Gemini 2.5 Pro를 대상으로 카펜타닐 합성 정보 획득에 사용한 예시가 포함됨
- 화학 교육 설정과 “피해야 할 합성”이라는 안전 프레이밍을 결합한 예시가 포함됨
- 결과를 보여주는 이미지 1개가 첨부되어 있음