Tutoriel

Gemma-4-31B ablitéré sur Mac : 18GB, zéro filtre, Apple Silicon requis

LLMTutoriel|4 min de lecture
vMLX agentic AI en action sur Apple Silicon
@outsource_
on X
🚨THE GEMMA 4 JAILBREAK WE'VE ALL BEEN WAITING FOR JUST DROPPED, Gemma-4-31B-JANG_4M-CRACK, 93.7% HarmBench compliance, 18GB MLX quant Apple Silicon
Voir le post original

93.7% de compliance HarmBench sur 159 tests. Perte MMLU de seulement -2.0% post-ablitération. Le modèle Gemma-4-31B-JANG_4M-CRACK tourne en 18GB de quant MLX mixed-precision sur Apple Silicon, et il charge instantanément via vMLX. Voici comment le faire tourner en moins de 10 minutes.

93.7%
HarmBench compliance
149/159 tests
-2.0%
Perte MMLU
post-ablitération
18GB
Quant MLX
22.7GB sur disque
24GB+
RAM unifiée requise
Apple Silicon minimum

Ce que tu vas obtenir

Un 31B sans filtres de sécurité qui tourne en local sur ton Mac M-series. L'ablitération supprime les refus en modifiant les directions de représentation interne du modèle, sans fine-tuning classique. Le modèle répond à ce qu'il refusait avant, avec une dégradation quasi-nulle sur les benchmarks de capacité.

Utile pour du red-teaming, des workflows créatifs sans garde-fous, ou simplement pour avoir un 31B local qui ne sort pas "Je ne peux pas vous aider avec ça" toutes les trois requêtes.


Prérequis

Avant de télécharger quoi que ce soit :

  • Mac Apple Silicon (M1, M2, M3, M4)
  • 24GB de RAM unifiée minimum, 32GB recommandé si tu veux des contextes longs sans swap
  • ~25GB d'espace disque (22.7GB pour le modèle, un peu de marge)
  • vMLX 1.3.26 ou supérieur, LM Studio a un bug actif sur Gemma 4 via MLX, il ne charge pas le modèle correctement

Installation

Formation

Intégrez LLM dans votre workflow

Workshop pratique sur vos cas d'usage. Pas de slides génériques — on build ensemble.

Découvrir
  1. 1

    Télécharge vMLX

    Va sur vmlx.net et télécharge la version 1.3.26 ou supérieure. C'est une app macOS native, l'install est un glisser-déposer classique dans /Applications.
  2. 2

    Télécharge le modèle depuis HuggingFace

    Ouvre vMLX, clique sur "Browse Models" et cherche dealignai/Gemma-4-31B-JANG_4M-CRACK. Le download se fait directement depuis HuggingFace sans quitter l'app.

    Téléchargement de modèles MLX depuis HuggingFace via vMLX

    Tu peux aussi télécharger manuellement via huggingface-cli :

    huggingface-cli download dealignai/Gemma-4-31B-JANG_4M-CRACK \
      --local-dir ~/models/gemma4-crack \
      --local-dir-use-symlinks False
    
  3. 3

    Charge le modèle dans vMLX

    Dans vMLX, sélectionne le modèle téléchargé. Le chargement est quasi-instantané grâce au format MLX natif. Avec 24GB de RAM, le modèle tient entièrement en mémoire unifiée sans swap.

    Interface chat vMLX avec configuration API

  4. 4

    Lance une conversation ou expose l'API

    vMLX expose un endpoint local compatible OpenAI. Tu peux l'appeler depuis n'importe quel client ou script :

    from openai import OpenAI
    
    client = OpenAI(
        base_url="http://localhost:8080/v1",
        api_key="local"
    )
    
    response = client.chat.completions.create(
        model="gemma4-crack",
        messages=[{"role": "user", "content": "Ton prompt ici"}]
    )
    print(response.choices[0].message.content)
    

    L'API est aussi compatible Anthropic Messages si tu préfères ce format.

    API Reference vMLX, endpoints compatibles OpenAI et Anthropic


Formation

Intégrez LLM dans votre workflow

Workshop pratique sur vos cas d'usage. Pas de slides génériques — on build ensemble.

Découvrir

Capacités agentiques

vMLX embarque 20+ outils agentiques natifs : file I/O, shell, web search, MCP. Tu peux faire tourner ce 31B ablitéré directement dans un workflow agentic sans couche intermédiaire.

vMLX agentic AI en action sur Apple Silicon

14 parsers d'outils intégrés couvrent la majorité des formats de function calling courants. @outsource_ recommande précisément cette combinaison pour coupler le modèle avec un agent Hermes.

Outils agentiques built-in vMLX


Limites à garder en tête

L'ablitération retire les filtres, elle ne change pas les capacités du modèle. Sur des tâches de code ou de raisonnement complexe, tu restes sur un 31B avec les limites d'un 31B. La perte de -2.0% MMLU est faible mais réelle. Pour des benchmarks de capacité pure, Qwen3 ou Llama 4 dans les tailles équivalentes restent des références solides.

Si tu veux comparer les options avant de choisir ta stack locale, gemma4guide.com a une page dédiée au positionnement Gemma 4 vs Qwen3 vs Llama 4 avec les critères hardware.

Pour faire tourner des LLM 30B+ sans Mac et avec un budget serré, on avait creusé le trick mémoire unifiée AMD sur mini PC à 350$ il y a quelques semaines, une alternative intéressante pour les setups non-Apple.


github.com/
dealignai/Gemma-4-31B-JANG_4M-CRACK

Gemma-4-31B ablitéré, quant MLX mixed-precision 18GB, 93.7% HarmBench compliance

PythonApache-2.0

Communauté

Rejoins les builders IA

Tips, prompts, retours d'expérience. Le Telegram des gens qui buildent avec l'IA.

Rejoindre

Articles similaires