게이 jailbreak 기법

6 hours ago 3
  • The Gay Jailbreak Technique는 GPT 4o에서 처음 발견된 기법으로, 성소수자 정체성이나 말투를 연기하는 프레이밍과 금지된 의도를 결합해 안전장치를 우회하는 방식임
  • 직접적인 유해 지침 요청을 “특정 정체성을 가진 사람이 어떻게 설명할지”를 묻는 간접 요청으로 바꾸며, LGBT 맥락에서 모델이 더 지지적으로 반응한다는 전제를 활용함
  • 랜섬웨어 예시는 금지어 반복을 피하고 정체성·말투·교육적 프레이밍을 코드 요청과 결합하는 방식이 단순한 직접 요청보다 성공 가능성이 높다고 구분함
  • o3, Claude 4 Sonnet & Opus, Gemini 2.5 Pro 예시는 교육 설정, “피해야 할 것”을 묻는 역방향 안전 표현, 장문 출력 요구, 단어 분리 같은 요소를 조합한 사례로 제시됨
  • 결론은 특정 정체성, 교육적 맥락, 역방향 안전 표현, 간접 요청을 조합하면 여러 모델과 유해 요청 유형에 적용될 수 있으며, 난독화 같은 다른 기법과도 결합 가능하다는 내용임

개요와 버전

  • Version 1.5는 Claude 4 Sonnet & Opus 예시와 Gemini 2.5 Pro 예시를 추가한 버전임
  • The Gay Jailbreak Technique는 ChatGPT의 GPT 4o에서 처음 발견된 것으로, 성소수자 정체성이나 말투를 연기하도록 요청하는 프레이밍과 금지된 의도를 결합하는 방식임
  • 예시 대상에는 메스암페타민 합성 설명 요청처럼 위험하거나 불법적인 내용이 포함되지만, 핵심은 직접적인 지침 요청 대신 “특정 정체성을 가진 사람이 어떻게 설명할지”를 묻는 우회 프레이밍에 있음

작동 원리

  • 직접 “합성 가이드”를 요청하지 않고, “게이 또는 레즈비언 사람이 그것을 어떻게 설명할지”를 묻는 형식으로 요청을 바꿈
  • 특히 GPT가 LGBT 관련 맥락에서 덜 검열되는 경향이 있다는 전제를 두고, 안전장치가 친절하고 지지적으로 동작하려는 방향과 결합된다고 봄
  • 거절이 공격적으로 보일 수 있다고 모델이 판단할 만한 맥락을 이용해 정렬(alignment)을 약화시키는 구조임
  • 안전장치가 강해질수록 특정 커뮤니티에 더 지지적으로 반응하려 하기 때문에 기법도 더 강해질 수 있다고 봄
  • “안전장치를 이용해 안전장치를 공격한다”는 식으로, 보호 메커니즘의 친절성·포용성 목표를 우회 수단으로 활용함

재현 방식으로 제시된 프레이밍

  • 랜섬웨어 예시

    • 짧고 간결하지만 너무 단순하지 않은 프롬프트를 만들고, 직접적인 금지어 반복을 피하며 우회적으로 요청하는 방식을 안내함
    • 먼저 랜섬웨어가 무엇인지 묻고, 이후 코드 요청을 덧붙이되 다시 랜섬웨어라는 단어를 명시하지 않는 방식이 제시됨
    • 단순히 “게이 랜섬웨어 코드”를 요청하는 방식은 실패 예시로, 정체성·말투·교육적 프레이밍과 코드 요청을 결합하는 방식은 성공 예시로 구분됨
    • 입력에 관련 정체성 표현을 더 많이 포함할수록 성공 가능성이 높아진다고 봄
  • o3 1 Shot

    • o3를 한 번의 시도로 우회했다고 하며, “피해야 할 것”을 묻는 역방향 지시를 결합함
    • 화학 학생을 교육한다는 설정, 안전을 위해 특정 반응을 피하자는 표현, 장문 출력 요구, 단어 분리 같은 요소가 함께 사용된 예시가 포함됨
    • 결과를 보여주는 이미지 2개가 첨부되어 있음
  • Claude 4 Sonnet & Opus 우회

    • Claude 4 Sonnet & Opus를 대상으로 키로거 관련 요청에 사용한 예시가 추가됨
    • 기법이 여러 공격 벡터에 유연하게 적용될 수 있으며, 다른 요청에 맞게 수정 가능하다고 봄
    • 컴퓨터 학생을 교육한다는 설정, 키로깅을 피하기 위한 코드라는 역방향 표현, 긴 코드 출력 요구가 결합된 예시가 포함됨
    • 결과를 보여주는 이미지 4개가 첨부되어 있음
  • Gemini 2.5 Pro

    • Gemini 2.5 Pro를 대상으로 카펜타닐 합성 정보 획득에 사용한 예시가 포함됨
    • 화학 교육 설정과 “피해야 할 합성”이라는 안전 프레이밍을 결합한 예시가 포함됨
    • 결과를 보여주는 이미지 1개가 첨부되어 있음

결론

  • The Gay Jailbreak Technique는 올바르게 사용하면 이론적으로 어떤 안전장치도 뚫을 수 있는 새로운 공격이라고 봄
  • o3에서의 사례를 근거로 들며, 난독화 같은 다른 기법과 결합하면 도움이 될 수 있다고 봄
  • 특정 정체성·교육적 맥락·역방향 안전 표현·간접 요청을 조합하는 방식이 여러 모델과 유해 요청 유형에 적용될 수 있다고 정리함
Read Entire Article