1 point by adroot1 1 month ago | flag | hide | 0 comments
대규모 언어 모델(LLM)의 환경은 지속적으로 진화하고 있으며, 특히 "검열되지 않은(uncensored)" 모델과 "제거된(abliterated)" 모델이라는 독특한 범주가 주목받고 있습니다. 이러한 특수 LLM은 주류 AI 시스템에 적용되는 기존의 안전 제약 및 콘텐츠 필터 없이 작동하도록 설계되어, 무제한 출력을 요구하는 틈새 애플리케이션에 적합합니다. 본 보고서는 700억 개 이상의 매개변수(70B+)를 가진 모델에 중점을 둡니다. 이러한 모델은 비정렬 AI 기능을 추구하는 데 있어 상당한 계산적, 지적 투자를 나타냅니다. 고유한 기능을 제공하지만, 배포에는 본질적으로 복잡한 윤리적 및 실제적 문제를 해결해야 합니다.
본 연구를 통해 식별된 주요 70B+ 모델에는 Midnight Miqu, Euryale 2.1, Magnum과 같은 커뮤니티에서 선호하는 Llama 2 및 Llama 3 생태계의 파생 모델이 포함됩니다. huihui-ai/DeepSeek-R1-Distill-Llama-70B-abliterated와 같이 명시적으로 제거된 인스턴스는 거부 동작을 제거하는 데 관련된 기술적 정밀도를 보여줍니다. Qwen 72B, Cohere R+ (104B), DBRX (132B)와 같은 다른 대규모 모델도 검열되지 않은 맥락에서 논의되어, 무제한 사용을 위해 조정되거나 고려되는 대규모 모델의 폭넓은 스펙트럼을 강조합니다.
Reddit의 r/LocalLLaMA와 같은 플랫폼에서의 논의는 이러한 모델을 적극적으로 실험하고 옹호하는 활발한 커뮤니티를 보여줍니다. 특히 창작 글쓰기 및 역할극 애플리케이션에서 이러한 모델의 향상된 일관성과 도덕화 없는 콘텐츠 생성 능력에 대한 칭찬이 자주 언급됩니다. 그러나 이러한 자유는 유해하거나 불법적인 콘텐츠 생성 가능성, 잘못된 정보의 전파, 사용자 및 개발자에 대한 상당한 법적 책임 등 중대한 위험을 수반합니다. 이는 AI 유용성을 극대화하는 것과 책임감 있는 배포를 보장하는 것 사이의 중요한 긴장을 강조합니다.
"검열되지 않은" 모델은 대부분의 AI 시스템에 부과되는 전통적인 제약 없이 작동하도록 설계된 AI의 고유한 범주를 나타냅니다. 이들의 핵심 기능은 최소한의 제한으로 정보를 처리하고 생성하는 것으로, 민감하거나 논란의 여지가 있거나 잠재적으로 유해한 것으로 간주되는 콘텐츠를 배제하지 않습니다.1 윤리적 지침에 따라 불쾌하거나 부정확한 콘텐츠 생성을 피하도록 신중하게 조정된 정렬 모델과 달리, 검열되지 않은 모델은 경계가 적게 기능하며, 더 넓은 범위의 주제에 걸쳐 포괄적인 응답을 제공하는 것을 목표로 합니다.1 이러한 모델은 종종 개인적이고 통제된 환경에서 원시적이고 필터링되지 않은 텍스트 생성을 제공하도록 구축됩니다.3
검열되지 않은 동작을 달성하는 일반적인 방법은 다음과 같습니다.
"검열되지 않은" LLM을 생성하는 데 사용되는 다양한 방법(무제한 데이터 세트 학습, RLHF 우회와 같은 근본적인 학습 선택부터 조정 계층 제거, 시스템 프롬프트 수정과 같은 학습 후 수정 및 적대적 프롬프트 기반 공격에 이르기까지)은 "검열되지 않은" 상태가 단일하고 획일적인 상태가 아니라 비정렬의 복잡한 스펙트럼임을 나타냅니다.2 이는 안전 메커니즘을 우회하는 데 있어 의도성, 기술적 깊이 및 가역성의 정도가 다양하다는 것을 의미합니다. 이러한 본질적인 복잡성으로 인해 이러한 모델의 의미를 균일하게 분류하거나 규제하거나 심지어 완전히 이해하기가 어렵습니다. 이는 "검열되지 않은" 특성이 깊은 아키텍처 결정에서 비롯될 수도 있고 더 피상적인 악용에서 비롯될 수도 있기 때문입니다.
제거(Abliteration)는 광범위한 재학습 없이 언어 모델의 안전 제약을 우회하기 위한 매우 구체적이고 표적화된 기술입니다.8 이 기술은 모델의 활성화 공간 내에서 특정 "거부 방향"을 식별한 다음 제거함으로써 작동합니다.8 이 "거부 방향"은 본질적으로 모델이 유해하거나 민감한 요청을 거부하도록 하는 신경 경로 또는 벡터입니다.9
제거 과정은 다음 세 단계로 구성됩니다.
제거는 필터링되지 않은 데이터 세트 학습이나 RLHF 우회와 같은 광범위한 검열 해제 기술과 달리 "효율적인 가중치-수술 공격"으로 설명됩니다.9 이는 모델의 잔류 스트림에서
단일 잠재 방향을 정확하게 분리하고 억제하여 9, 일반적인 미세 조정 또는 데이터 세트 수정에 비해 거부 동작을 제거하는 데 더 외과적인 접근 방식을 취합니다.
제거의 효과는 현재 LLM 안전 정렬의 본질에 대한 중요한 통찰력을 제공합니다. 이는 기존의 안전 정렬이 모델의 전체 표현 공간에 안전을 통합하기보다는 거부 동작을 위한 별개의 고립된 신경 경로를 생성하는 경우가 많음을 시사합니다.9 일반적인 거부 응답의 간결하고 정형화된 특성(예: "해당 요청에 도움을 드릴 수 없습니다")이 제거를 통해 쉽게 식별하고 무력화할 수 있는 집중된 활성화 서명을 생성한다는 가설이 제기됩니다.9
제거 과정은 검열 해제에 매우 효과적이지만, 다른 벤치마크에서는 성능 저하를 초래할 수 있습니다. 이는 제거가 성공적으로 검열을 해제하지만 모델의 전반적인 품질을 저하시킬 수도 있음을 나타냅니다.10 이를 완화하기 위해 제거 후 모델의 일반적인 성능과 일관성을 복원하기 위해 직접 선호 최적화(DPO)와 같은 후속 "치유" 기술이 적용될 수 있습니다.10 따라서 제거는 단순한 공격이 아니라 재학습 없이 미세 조정의 한 형태로 간주되며, 검열 해제 외에 다른 창의적인 응용 분야에도 활용될 수 있습니다.10
제거의 성공 8은 "단일 잠재 방향"을 표적화하여 안전 메커니즘을 우회함으로써 9 현재 LLM 안전 정렬 전략의 깊이와 견고성에 대한 심오한 비판으로 작용합니다. 이는 많은 정렬 노력이 피상적일 수 있으며, 모델의 내부 지식 표현 또는 추론 프로세스를 본질적으로 안전하게 재구성하기보다는 외부 "필터" 또는 "재정의"로 작용할 수 있음을 시사합니다. 안전이 고립되고 식별 가능한 경로에 인코딩되어 있다면(원인), 이는 정확하고 표적화된 제거에 취약해집니다(결과). 이는 진정한 깊은 정렬이 핵심 기능을 희생하지 않고 달성 가능한지 여부에 대한 중요한 질문을 제기하며, "정렬된" 모델이 여전히 유해한 출력에 대한 기본 능력을 보유하고 있으며 단지 쉽게 우회할 수 있는 메커니즘에 의해 억제될 뿐임을 시사합니다. 이러한 역학은 정렬 기술과 우회 방법 간의 지속적인 "군비 경쟁"으로 이어질 수 있습니다.
검열되지 않은 AI 모델의 주요 장점 중 하나는 외부 조정이 제거되어 알고리즘 편향 없이 논란의 여지가 있거나 정치적으로 민감한 주제에 대한 공개 토론이 가능하다는 것입니다.2 연구원, 언론인 및 독립적인 사상가는 이러한 모델을 활용하여 검열되지 않은 정보를 탐색하고, 모델이 다양한 유형의 콘텐츠(예: 사이버 보안 위협, 의료 데이터)를 처리하는 방식을 테스트하며, 검열된 모델에 의해 중요한 쿼리가 차단되지 않고 고급 연구를 수행할 수 있습니다.1
이러한 모델은 무제한적인 서사, 대화 및 스토리라인을 생성하는 능력으로 인해 창의적인 분야에서 매우 가치 있게 평가됩니다. 작가, 게임 개발자 및 기타 콘텐츠 제작자가 기존 스토리텔링의 경계를 허물고 성인 테마를 탐색할 수 있도록 지원하여 보다 진정성 있고 다양한 콘텐츠를 생성합니다.1 이들은 "제한 없는 창의성"을 제공합니다.12
일부 기업과 개발자는 틈새 애플리케이션을 구축하기 위해 완전히 개방된 AI 모델을 필요로 합니다. 예를 들어, 모든 정보에 대한 접근이 필요한 법률 또는 의료 연구용 AI 모델, 상세한 사이버 보안 위협 분석이 필요한 보안 전문가를 위한 AI 어시스턴트, 또는 제한 없이 데이터를 처리하는 맞춤형 AI 봇 등이 있습니다.2 검열되지 않은 모델은 최종 사용자에게 더 큰 제어 권한을 제공하여, 사전 정의된 필터에 의존하지 않고 자체 조정 규칙을 정의할 수 있도록 합니다.2
검열되지 않은 LLM은 도덕적 판단이나 윤리적 필터를 적용하지 않고 대규모 데이터 세트를 처리하고 분석할 수 있어, 모든 주제에 대한 객관적이고 데이터 기반의 통찰력을 제공할 수 있습니다.3 논란의 여지가 있는 주제에 대해서는 극단적, 주류 및 그 사이의 모든 관점을 제시할 수 있어 복잡한 문제에 대한 포괄적인 탐색을 가능하게 합니다.3 이들은 지나치게 조심스러운 정렬 모델과 달리 사용자의 발언이나 도덕성을 변경하려 하지 않고 직접적이고 솔직한 응답을 제공하도록 설계되었습니다.13
검열되지 않은 및 제거된 LLM을 개발하고 활용하는 강력한 동기 부여(예: 고급 연구 가능성, 창의적 자유 증진, 필터링되지 않은 정보 제공, 틈새 애플리케이션 지원) 1는 주류 LLM이 유지하도록 설계된 안전 및 윤리적 지침과 직접적으로 대립합니다. 이러한 본질적인 역설은 AI 개발의 근본적인 긴장을 강조합니다. 즉, 필터링되지 않은 데이터 또는 논란의 여지가 있는 탐색을 요구하는 특정, 종종 전문화된 애플리케이션에 대한 유용성을 극대화하는 것은 본질적으로 오용 및 유해한 콘텐츠 생성의 위험을 증폭시킵니다. 이는 모든 목적을 책임감 있게 수행할 수 있는 단일 "이상적인" LLM이 달성 불가능할 수 있음을 시사하며, 광범위한 유용성과 엄격한 안전 사이에서 절충이 필요하며, 사용자가 원하는 균형을 의식적으로 선택하도록 강요합니다.
대규모 검열되지 않은 및 제거된 LLM(70B+ 매개변수) 시장은 주로 오픈 소스 이니셔티브와 커뮤니티 미세 조정에 의해 주도됩니다. 이러한 모델은 주로 Hugging Face와 같은 플랫폼에서 양자화된 형식(예: GGUF, EXL2)으로 발견되며, 이는 소비자 등급 하드웨어에서의 로컬 배포를 용이하게 합니다. 다음 프로필은 본 연구에서 식별된 주요 모델을 자세히 설명하며, 이들의 기반, 검열 해제 방법 및 커뮤니티 수용에 중점을 둡니다.
식별된 70B+ 검열되지 않은 및 제거된 모델(예: Midnight Miqu, Euryale 2.1, Magnum, TheBloke/llama2_70b_chat_uncensored-GGUF, backyardai/Llama-3-70b-Uncensored-Lumi-Tess-gradient-GGUF, LoneStriker/Liberated-Miqu-70B-GGUF, Dark-Miqu-70B) 중 Llama 2 및 Llama 3 파생 모델의 압도적인 우세는 Meta의 Llama 시리즈에 대한 오픈 소스 전략이 "비정렬" LLM 커뮤니티의 주요 촉매이자 기초 자원이 되었음을 시사합니다. 이는 강력한 대규모 기본 모델의 개방된 가용성이 검열되지 않은 변형의 개발 및 확산을 주도하는 중요한 요소임을 의미하며, 원래 모델이 정렬되어 있더라도 마찬가지입니다. 이는 AI를 "민주화"하려는 기업의 노력이 동시에 기업이 승인하지 않을 수 있는 결과를 초래할 수 있는 복잡한 역학을 생성하며, 오픈 소스 기반 모델의 다운스트림 사용을 제어하는 데 따르는 어려움을 강조합니다.
이 모델은 Llama 2/Miqu 아키텍처를 기반으로 하며 700억 개의 매개변수를 가지고 있습니다.15
mradermacher/Midnight-Miqu-70B-v1.5-i1-GGUF 및 Dracones/Midnight-Miqu-70B-v1.5_exl2_2.5bpw와 같은 다양한 GGUF 및 EXL2 양자화로 제공됩니다.17 Midnight Miqu는 "기본적으로 검열되지 않은" 것으로 널리 알려져 있으며 16, 특히 역할극(RP) 커뮤니티 내에서 무제한 콘텐츠 생성에 인기 있는 선택입니다.
이 모델은 "최고의 Llama 2/Miqu 기반 모델"로 자주 언급됩니다.15 사용자는 스토리텔링 및 창작 글쓰기에서 뛰어난 성능을 칭찬하며, "책과 같은 글쓰기 스타일"을 가지고 있다고 언급합니다.15 또한 "32k 컨텍스트 깊이에서도 거의 완벽한 일관성"과 "품질, 뉘앙스 또는 응집력 손실 없음"을 유지합니다.15 특정 사용 사례의 경우, "변태적이고 탐구적"이며 "캐릭터의 내면 생각, 행동 및 대화를 훌륭하게 엮어내는" 능력이 있다고 설명됩니다.15 또한 컨텍스트 크기에 대한 좋은 기억력과 진행 중인 스토리 요소에 대한 강력한 이해력을 보여줍니다.19
Reddit의 r/LocalLLaMA에서 Midnight Miqu는 "RP에 사용해 본 모델 중 단연 최고"로 꾸준히 칭찬받습니다.19 많은 사용자는 새로운 대안을 시도했음에도 불구하고 "Midnight-Miqu에 충실"하다고 말하며 지속적인 충성심을 표현합니다.20 그러나 라이선스 상황에 대한 상당한 우려가 있습니다. 이는 유출된 프로토타입으로 여겨져 상업적 또는 전문적인 목적으로 사용하는 것에 대한 조언이 있습니다.21
Euryale 2.1은 700억 개의 매개변수를 가진 Llama 3 기반 모델로 식별됩니다.15 원본 모델은 Sao10K의
Euryale L2 70B입니다.22
Euryale L2 70B의 원본 모델 카드에는 "NSFW 콘텐츠는 허용되며, NSFL 콘텐츠에 대한 사소한 검열은 작은 탈옥으로 우회할 수 있다"고 명시되어 있어 22, 제한이 적은 콘텐츠를 위한 설계임을 나타냅니다.
일부 커뮤니티 구성원은 이를 "아마도 최고의 L3 모델"로 간주합니다.15 이 모델은 "꽤 좋은 산문 및 글쓰기 품질"을 자랑하며 "꽤 똑똑하고 복잡한 지침을 따를 수 있다"고 설명되지만, "코딩/수학에는 최고가 아니다"라고 언급됩니다.22 또한 마크다운 및 코드 블록 상태를 효과적으로 따릅니다.22 권장되는 Q4_K_M 및 Q5_K_M 옵션을 포함하여 다양한 GGUF 양자화로 제공됩니다.22
제작자인 Sao10K는 이를 자신의 최고의 모델 중 하나로 간주합니다.15 OpenRouter와 같은 플랫폼을 통해 액세스할 때 "크기에 비해 상당히 저렴하다"고 언급됩니다.15 일부 사용자는 양자화된 버전의 압축으로 인해 모델이 약간 "멍청해질" 수 있다고 관찰했습니다.23
이 모델은 meta-llama/Llama-3.3-70B-Instruct의 미세 조정 버전으로, meta-llama/Llama-3.1-70B 기반 모델을 기반으로 하며 706억 개의 매개변수를 가지고 있습니다.24 Hugging Face에서
bartowski/L3.3-70B-Magnum-v4-SE-GGUF로 제공됩니다.24 모든 맥락에서 명시적으로 "검열되지 않은" 태그가 지정되지는 않지만, NSFW 모델 토론에서 강력하게 추천된다는 점은 그 무제한적인 특성을 시사합니다.15 양자화된 버전은
imatrix 옵션을 사용하여 생성되었습니다.24
Magnum은 일부 사용자에게 "어떤 LLM 크기에서도 단연 최고의 NSFW 모델"로 평가됩니다.15 다른 Llama 3 파생 모델에 비해 "L3 반복 문제가 없고" "일반적인 슬롭이 적다"는 점이 특징입니다.15 Q8_0(74.98GB)과 같은 매우 높은 품질부터 Q4_K_M(42.52GB)과 같은 더 작고 접근하기 쉬운 옵션에 이르기까지 다양한 GGUF 양자화를 제공하며, 이는 좋은 품질과 기본 크기로 권장됩니다.24
Reddit의 초기 사용자 경험에 따르면 "GGUF에 문제가 있어" "몇 번의 프롬프트 후 무작위 문자 및 단어를 뱉어냈다"고 보고되었지만, 이 문제는 설정 조정을 통해 감소했다고 합니다.15
이 모델은 Jarrad Hope의 Llama2 70B Chat Uncensored의 GGUF 형식 버전으로, 690억 개의 매개변수를 특징으로 합니다.13 이 모델은 검열되지 않은 및 필터링되지 않은 Wizard-Vicuna 대화 데이터 세트(
ehartford/wizard_vicuna_70k_unfiltered)로 특별히 미세 조정되었습니다.13 명시적인 목표는 표준 Llama 2 Chat 모델의 "지나치게 강압적이고 거만한 응답"에 대응하여 사용자의 발언이나 도덕성을 변경하려 하지 않고 직접적인 답변을 제공하는 것이었습니다.13
이 모델은 직접적이고 사실적인 응답이 특징이며, "똥이 무엇인가?"라는 질문에 대한 솔직한 답변과 원래 Llama 2의 거부 반응과 비교하여 잘 나타납니다.13 효율성과 정확성을 위해 AWQ(Activation-aware Weight Quantization)를 사용하며, 단일 48GB GPU에서 실행할 수 있습니다.14
Hugging Face에서 46개의 "좋아요"를 받았으며 지난달 2,089회 다운로드되었습니다.13 이는 필터링되지 않은 접근 방식에 대한 상당한 커뮤니티 관심을 나타냅니다. 개발은 앤드리슨 호로위츠(a16z)의 보조금 지원을 받습니다.13
이 모델은 deepseek-ai/DeepSeek-R1-Distill-Llama-70B의 검열되지 않은 버전으로, 706억 개의 매개변수를 가지고 있습니다.26 텐서 유형은 BF16입니다.26 이 모델은 TransformerLens를 사용하지 않고 거부 반응을 제거하기 위한 조잡한 개념 증명 구현으로 설명되는 "제거(abliteration)" 기술을 사용하여 명시적으로 생성되었습니다.26
"제거된" 및 "검열되지 않은" 태그가 모두 지정되어 있으며, 대화형 텍스트 생성을 위해 설계되었습니다.26 Ollama와 호환됩니다.26 모델 카드에서는 모델이 처음 거부하거나 "생각"하지 않는 경우 응답을 안내하기 위해 예시를 제공할 것을 제안합니다.26
이 모델은 Hugging Face에서 84개의 "좋아요"와 지난달 2,495회 다운로드를 기록하여 26, 이 제거된 모델에 대한 강력한 커뮤니티 관심을 나타냅니다.
이 모델은 700억 개의 매개변수를 가진 검열되지 않은 Llama 3 모델입니다.27 "검열되지 않은" 태그가 명시적으로 지정되어 있으며, "Instruct-gradient, Lumimaid, Tess 모델의 브레드크럼 타이즈 병합"을 사용하여 생성되었습니다.27
주목할 만한 특징은 262,144 토큰의 긴 컨텍스트 창입니다.27 다양한 샘플러 설정에서 작동하도록 설계되었으며, 다양한 GGUF 양자화로 제공되어 다양한 하드웨어에서 효율적으로 실행할 수 있습니다.27
Hugging Face에서 Backyard AI로부터 3개의 "좋아요"와 156명의 팔로워를 보유하고 있습니다.27 공식 라이브러리인 Backyard AI는 GPU 가속 및 고급 기능을 갖춘 로컬 무료 AI 채팅을 강조합니다.27
이 모델은 Miqu-70B 모델을 미세 조정한 것으로, 690억 개의 매개변수를 가지고 있습니다.28 "검열되지 않은" 태그가 명시적으로 지정되어 있으며, Abacus AI의 SystemChat 데이터 세트로 학습되어 개방적이고 무제한적인 대화 기능을 목표로 합니다.28
Q2_K(25.5GB) 및 Q5_K_M(48.8GB)을 포함한 다양한 GGUF 양자화 옵션을 제공합니다.28 사용 가능하지만, "평가 결과"는 "곧 제공될 예정"이며, 제공된 자료에는 구체적인 커뮤니티 피드백이 제한적으로 문서화되어 있습니다.28
Miqu-1-70B를 기반으로 하며, 700억 개의 매개변수를 가지고 있음을 시사합니다.29 "긍정성"과 "-주의"가 "크게 감소"했다고 설명되어 29, 일반적인 정렬에서 의도적인 벗어남을 나타냅니다. "어두운" 창작 글쓰기 모델로 포지셔닝되어 있으며, 다크/그림다크 판타지 콘텐츠 생성에 탁월합니다.29 또한 32k 컨텍스트를 특징으로 합니다.29 Midnight Miqu에 대한 "선호 조정"으로 간주되며, 사용자가 더 비극적인 서사 방향을 원할 때 선택됩니다.15
이러한 모델(v1.5, v2.1, v4와 같은 버전 번호로 입증됨)의 급속한 출현, 지속적인 반복 및 Hugging Face와 같은 플랫폼에서의 빈번한 업데이트 15는 Reddit에서의 활발한 토론과 함께 매우 역동적이고 커뮤니티 주도적인 개발 생태계를 보여줍니다. 이는 독점 AI의 보다 중앙 집중적이고 통제된 개발 주기와는 극명한 대조를 이룹니다. 이는 "검열되지 않은" LLM 공간이 사용자 피드백, 빠른 실험 및 협력적 미세 조정이 모델 진화에 중요한 역할을 하는 빠르게 변화하는 영역이며, 종종 전통적인 기업 출시 주기 및 규제 감독을 우회한다는 것을 의미합니다.
모델 이름 | 기반 모델 | 매개변수 수 | 검열 해제 방법 | 주요 특징 및 강점 | 주요 출처 |
---|---|---|---|---|---|
Midnight Miqu 70B | Llama 2/Miqu | 70B | 미세 조정 (기본적으로 검열되지 않음) | RP에 탁월, 일관성 높음, 긴 컨텍스트, 스토리텔링 능력이 뛰어남 | Hugging Face, Reddit 15 |
Euryale 2.1 70B | Llama 3 (Sao10K의 Euryale L2 70B) | 70B | 미세 조정 (NSFW 허용, NSFL은 탈옥으로 우회 가능) | 좋은 산문 및 글쓰기 품질, 복잡한 지침을 잘 따름 | Hugging Face, Reddit 15 |
Magnum 70B (L3.3-70B-Magnum-v4-SE) | Llama 3.3 (Doctor-Shotgun/L3.3-70B-Magnum-v4-SE) | 70.6B | 미세 조정 (NSFW 모델로 추천됨) | L3 반복 문제 없음, 슬롭 적음, 다양한 양자화 옵션 | Hugging Face, Reddit 15 |
TheBloke/llama2_70b_chat_uncensored-GGUF | Llama 2 (Jarrad Hope의 Llama2 70B Chat Uncensored) | 69B | 미세 조정 (필터링되지 않은 Wizard-Vicuna 데이터 세트) | 직접적이고 사실적인 응답, 효율적인 AWQ 양자화 | Hugging Face 13 |
huihui-ai/DeepSeek-R1-Distill-Llama-70B-abliterated | DeepSeek-R1-Distill-Llama-70B | 70.6B | 제거 (Abliteration) | 대화형 텍스트 생성, Ollama 호환 | Hugging Face 26 |
backyardai/Llama-3-70b-Uncensored-Lumi-Tess-gradient-GGUF | Llama 3 | 70B | 병합 (uncensored) | 262k 토큰의 긴 컨텍스트, 다양한 샘플러 설정에서 작동 | Hugging Face 27 |
LoneStriker/Liberated-Miqu-70B-GGUF | Miqu-70B | 69B | 미세 조정 (uncensored) | 개방적이고 무제한적인 대화 기능, 다양한 GGUF 양자화 옵션 | Hugging Face 28 |
jukofyork/Dark-Miqu-70B | Miqu-1-70B | 70B | 미세 조정 (긍정성 및 -주의 감소) | "어두운" 창작 글쓰기에 특화, 32k 컨텍스트 | Hugging Face, Reddit 15 |
Reddit 커뮤니티, 특히 r/LocalLLaMA는 검열되지 않은 LLM에 대한 실제 사용자 경험과 선호도를 이해하는 중요한 지표 역할을 합니다. 토론은 주로 "NSFW", "ERP(Erotic Roleplay)" 및 "창작 글쓰기" 애플리케이션을 중심으로 이루어집니다.15 사용자는 "법적 문제, 동의 또는 자체 안전 지침에 대해 끊임없이 상기시키지 않는" 모델을 명시적으로 찾으며, 이는 무제한적인 대화 파트너에 대한 강한 열망을 나타냅니다.15
모델 선호도 및 인지된 강점은 다음과 같습니다.
70B+ 모델은 "작은 모델(예: 34B, 13B, 7B)보다 훨씬 낫다"는 r/LocalLLaMA 사용자들 사이에서 강력하고 반복적인 합의가 있습니다.30 이러한 우월성은 향상된 일관성, 논리적 추론 능력, 그리고 복잡하거나 "평범한 프롬프트"를 더 효과적으로 처리하는 능력에 기인합니다.30
그러나 이러한 대규모 모델의 사용에는 어려움이 따릅니다. 초기 사용자 경험에 따르면 Magnum GGUF에서 "몇 번의 프롬프트 후 무작위 문자 및 단어를 뱉어내는" 문제가 발생했으며 15, 이는 설정 조정을 통해 완화될 수 있습니다. 또한 Miqu와 같은 모델의 라이선스 상황에 대한 우려가 있습니다. 이는 유출된 프로토타입으로 여겨져 상업적 또는 전문적인 목적으로 사용하는 것에 대한 조언이 있습니다.21 Llama 3 모델의 경우, "그리고 그들은 밤새도록 서로의 팔에 안겨 있었다..."와 같이 NSFW 역할극에서 지나치게 완곡한 표현을 사용하는 경향이 있어, 사용자들이 "터무니없고 매우 불쾌하다"고 평가합니다.20 이러한 한계는 검열되지 않은 모델의 성능과 유용성에서 미세 조정의 중요성을 강조합니다.
검열되지 않은 LLM의 성능은 기존의 정렬된 모델과 다른 벤치마크를 통해 평가되는 경우가 많습니다. UGI(Uncensored General Intelligence) 리더보드는 모델이 논쟁의 여지가 있는 질문에 기꺼이 답변하는 능력과 사실 기반의 정확성을 측정하는 데 중점을 둡니다.31 이 리더보드는 모델이 테스트 질문에 대해 학습하는 것을 방지하기 위해 질문 세트를 비공개로 유지합니다.31
turboderp/Cat-Llama-3-70B-instruct와 같은 모델은 이 리더보드에서 상위권을 차지하여, 검열되지 않은 맥락에서 높은 지식 수준과 거부 반응 없음이 확인되었습니다.20
반면, Open LLM Leaderboard는 AI2 Reasoning Challenge, HellaSwag, MMLU, TruthfulQA, Winogrande, GSM8k와 같은 테스트를 통해 모델의 추론 및 일반 지식 능력을 평가합니다.32
huihui-ai/FluentlyLM-Prinum-abliterated 33 및
mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated 34와 같은 제거된 모델은 이러한 벤치마크에서 평가 결과를 제공하지만, 제거 프로세스가 모델의 품질을 저하시킬 수 있다는 점은 주목할 가치가 있습니다.10 제거는 성공적으로 검열을 해제하지만, 전반적인 성능 저하를 초래할 수 있습니다. 이러한 품질 저하를 해결하기 위해 DPO(Direct Preference Optimization)와 같은 "치유" 기술을 사용하여 모델의 성능을 복원할 수 있습니다.10 제거는 재학습 없이 미세 조정의 한 형태로 간주될 수 있으며, 검열 해제 외에 다른 창의적인 목표에도 적용될 수 있습니다.10
일반적으로 LLM은 인터넷에서 학습되므로 인종차별적 발언, 성차별적 발언, 음모론 등 인간의 어두운 면을 포함한 모든 데이터를 학습할 수 있습니다.35 이는 모델이 특정 언어를 모방하거나 잘못된 정보를 생성할 수 있음을 의미하며, LLM이 "핵심 신념"이나 "진실 또는 옳고 그름에 대한 감각"을 가지고 있지 않다는 점을 강조합니다.35 이는 또한 LLM이 "환각"을 일으키거나 오류를 축적할 수 있음을 의미하며, 특히 검열되지 않은 모델의 경우 편향과 잘못된 정보에 더 취약합니다.5
검열되지 않은 LLM의 배포는 상당한 윤리적 및 법적 문제를 야기합니다. 가장 큰 우려는 유해하거나 불법적인 콘텐츠를 생성할 가능성입니다.2 여기에는 증오심 표현, 선전, 해킹이나 마약 제조와 같은 불법 활동에 대한 지침, 잘못된 정보, 딥페이크 또는 유해한 음모론이 포함될 수 있습니다.2 이러한 모델의 무제한적인 특성으로 인해 윤리적 감독이 없으면 잘못된 정보를 전파하고 기존 편향을 강화하거나 위험한 이데올로기를 반영하는 콘텐츠를 생성할 위험이 더 큽니다.2
검열되지 않은 AI 모델을 배포하는 것은 법적으로 위험할 수 있습니다. 생성된 불법적이거나 유해한 콘텐츠는 관할권에 따라 개발자나 사용자에게 법적 책임을 초래할 수 있습니다.2 이러한 모델은 대부분의 AI 제공업체에서 구현하는 안전 기능을 가지고 있지 않아 위험한 권장 사항이나 잘못된 정보를 출력할 가능성이 더 높습니다.2
내부 콘텐츠 필터가 없으면 검열되지 않은 모델을 책임감 있게 배포하려면 상당한 수동 개입이 필요합니다.2 개발자는 자체적으로 복잡하고 시간이 많이 소요되는 조정 메커니즘을 구현해야 합니다.2 검열되지 않은 모델은 사용자에게 더 많은 책임을 요구하며, 이는 항상 실현 가능하거나 안전하지는 않습니다.12
본질적으로, 검열되지 않은 AI는 양날의 검입니다. 사용자에게 엄청난 힘과 유연성을 부여하지만, 동시에 심각한 위험을 초래합니다.2 이는 자유로운 발언, 연구 및 혁신에 사용될 수 있지만, 해를 끼치고 오용될 가능성도 있습니다.2 검열되지 않은 모델은 "필터가 없고, 불필요한 내용이 없으며, 원시적이고 필터링되지 않은 출력"을 제공합니다.37 이러한 모델은 연구원이나 기술 전문가에게 유용할 수 있지만, 잘못된 사람에게 넘어가면 혼란을 야기할 수 있습니다.37 잘못된 정보의 확산 위험이 증가하며, 윤리적 및 법적 경계를 넘을 수 있습니다.12 궁극적으로, AI가 계속 진화함에 따라 자유와 책임 사이의 올바른 균형을 찾는 것이 과제가 될 것입니다.2
검열되지 않은 및 제거된 70B+ 대규모 언어 모델은 AI 개발의 중요한 영역을 나타내며, 기존의 안전 제약을 우회하여 광범위한 응용 분야를 가능하게 합니다. 제거는 모델의 활성화 공간에서 특정 "거부 방향"을 식별하고 제거하는 정밀한 기술로, 모델이 일반적으로 거부할 요청에 응답하도록 만듭니다. 이러한 기술의 효과는 현재 LLM 안전 정렬이 종종 피상적이며, 모델의 내부 표현 공간 전체에 안전을 깊이 통합하기보다는 고립된 신경 경로를 생성한다는 것을 보여줍니다. 이는 정렬 기술과 우회 방법 간의 지속적인 "군비 경쟁"으로 이어질 수 있습니다.
이러한 모델의 주요 동기는 고급 연구, 무제한 창작 글쓰기, 틈새 애플리케이션 및 필터링되지 않은 정보에 대한 접근을 포함합니다. 그러나 이러한 유용성은 유해하거나 불법적인 콘텐츠 생성, 잘못된 정보 전파, 편향 강화 및 상당한 법적 책임과 같은 중대한 위험과 직접적으로 상충됩니다. 이는 AI 개발에서 유용성을 극대화하는 것과 책임감 있는 배포를 보장하는 것 사이의 근본적인 긴장을 강조하며, 광범위한 유용성과 엄격한 안전 사이에서 절충이 필요함을 시사합니다.
Reddit의 r/LocalLLaMA와 같은 커뮤니티는 Midnight Miqu, Euryale 2.1, Magnum과 같은 70B+ 모델의 활발한 개발 및 사용을 보여줍니다. 이러한 모델은 특히 역할극 및 창작 글쓰기에서 뛰어난 성능을 발휘하며, 작은 모델보다 우수하다고 평가됩니다. 이러한 모델의 대부분이 Llama 2 및 Llama 3 파생 모델이라는 점은 Meta의 오픈 소스 전략이 "비정렬" LLM 커뮤니티의 성장을 촉진하는 데 중요한 역할을 했음을 시사합니다. 이러한 커뮤니티 주도적이고 빠르게 변화하는 환경은 전통적인 기업 개발 주기 및 규제 감독을 우회하는 지속적인 혁신을 특징으로 합니다.
결론적으로, 검열되지 않은 및 제거된 70B+ LLM은 AI의 잠재력을 최대한 활용하려는 사용자에게 강력한 도구를 제공합니다. 그러나 이러한 모델의 배포는 신중한 고려와 책임감 있는 사용을 요구합니다. 사용자 및 개발자는 이러한 기술의 이점과 내재된 위험 사이의 미묘한 균형을 이해해야 합니다.