1 milliard de lignes de génétique psychiatrique, maintenant sur Hugging Face

MLDécouverte·4 min de lecture·608 mots
dbSNP Build 157 Release - 1.2 billion RefSNP records

Annonce du dataset PGC sur Hugging Face par <a href=@MaziyarPanahi / OpenMed">

@MaziyarPanahi vient de centraliser la totalité des summary statistics GWAS du Psychiatric Genomics Consortium sur Hugging Face : 12 repositories, licence CC BY 4.0, plus d'un milliard de lignes. ADHD, dépression, schizophrénie, bipolarité, PTSD, OCD, autisme, anxiété, Tourette, troubles alimentaires. 52 publications.

@MaziyarPanahi
Over 1 billion rows of psychiatric genetics data. Now on Hugging Face. ADHD. Depression. Schizophrenia. Bipolar. PTSD. OCD. Autism. Anxiety. Tourette. Eating disorders. 12 disorder groups. 52 publications.

Le changement réel est dans l'accès. Ces données existaient déjà, éparpillées sur des portails académiques, derrière des formulaires, téléchargeables via wget avec des scripts qui cassent à la moindre mise à jour de serveur. Maziyar a passé des semaines à les centraliser, en atteignant les limites de stockage de Hugging Face plusieurs fois en chemin.

Ce que contient la collection

Chaque étude GWAS dans ces repositories a testé entre 7 et 15 millions de variants génétiques sur l'ensemble du génome humain. L'intégralité du scan, avec les p-values, les effect sizes et les fréquences alléliques pour chaque position, y compris les variants sans association connue à un trouble psychiatrique.

La collection est ici : OpenMed/pgc-psychiatric-gwas-summary-statistics

Lignes de données GWAS
1B+
12 repositories HF
Publications PGC
52
CC BY 4.0
Variants testés par étude
7-15M
génome entier

Les 12 groupes de troubles sont chacun dans leur propre repo, ce qui facilite l'ingestion sélective. Tu n'as pas besoin de tout télécharger pour travailler sur un seul phénotype.

Pourquoi ces données sont exploitables maintenant

La plupart des datasets médicaux sur Hugging Face sont des textes cliniques, des images médicales, ou des Q&A synthétiques. Là, on parle de statistiques d'association populationnelles brutes, le type de données qui nourrit directement des modèles de polygenic risk score, des analyses de causalité mendélienne, ou des pipelines de fine-mapping.

Ces données sont maintenant searchables, versionnées et accessibles via l'API Hugging Face standard. Un agent peut les requêter sans avoir à gérer des portails FTP académiques ou des authentifications institutionnelles.

from datasets import load_dataset

# Charger les données GWAS pour la dépression
ds = load_dataset("OpenMed/pgc-mdd-gwas-summary-statistics")

La communauté a déjà commencé à construire dessus. Un projet de visualisation ML tourne déjà : pgc-atlas, en développement actif. PageIndexAI a monté une interface de chat pour interroger les publications PGC directement.

dbSNP Build 157 : 1,2 milliard de records SNP, ressource complémentaire aux datasets PGC.

Pour le contexte : le dbSNP Build 157 sorti en mars 2025 dépasse 1,2 milliard de records RefSNP. Les datasets PGC couvrent un sous-ensemble de ces variants, ciblé sur les phénotypes psychiatriques.

Comment commencer

  1. 01

    Accéder à la collection

    Va sur huggingface.co/collections/OpenMed/pgc-psychiatric-gwas-summary-statistics. Les 12 repositories sont listés, chacun avec un README qui détaille les colonnes et les publications sources.
  2. 02

    Choisir ton phénotype

    Chaque repo correspond à un groupe de troubles. Si tu travailles sur un seul, charge uniquement ce repo. Les fichiers sont en Parquet ou TSV selon les études, vérifier le README du repo ciblé avant d'ingérer.
  3. 03

    Ingérer via l'API HF

    load_dataset("OpenMed/pgc-[phenotype]-gwas-summary-statistics") suffit pour démarrer. Pour des volumes importants, utilise le streaming : load_dataset(..., streaming=True) pour éviter de charger le milliard de lignes en RAM d'un coup.

Pour aller plus loin sur le pattern "données académiques dormantes vers pipeline IA exploitable", on avait creusé un angle complémentaire avec Feynman, l'agent CLI qui lit les papers à ta place.