La barre montre la distribution éditoriale des médias qui ont relayé l'événement (gauche / centre / droite). L'indice de diversité = entropie de Shannon normalisée : plus il est haut, plus la couverture est politiquement diverse.
Le % dépend fortement de la stratégie RSS de chaque média : ceux avec un flux dédié "faits-divers" (Le Figaro, BFMTV) sont sur-représentés ; ceux sans tag rubrique (Le Monde, Ouest-France) sous-représentés. Les médias à 0 article ont leurs flux RSS en erreur (403/404) — à corriger.
1. Collecte. Sélectographe interroge chaque jour les flux RSS publics d'un panel de médias français mainstream (TV, radio, presse nationale et régionale) ainsi qu'un référentiel AFP via le magazine Flipboard FR-AFP. La déduplication par URL évite de comptabiliser deux fois le même article.
2. Classification. Chaque article est étiqueté fait divers ou
non par trois signaux combinés : la rubrique URL du média
(/faits-divers/, /justice/…), les catégories déclarées dans le
flux RSS, et un dictionnaire de mots-clés en titre
(meurtre, agression, fusillade, viol, garde à vue…) protégé par une liste
anti-faux-positifs (Ukraine, Gaza, drone, ministre…). Approche
conservatrice par défaut, pour minimiser les faux positifs.
3. Regroupement. Les articles parlant du même fait divers sont regroupés
en événements par similarité sémantique : un modèle d'embeddings multilingue
(paraphrase-multilingual-MiniLM-L12-v2) projette chaque article dans un
espace vectoriel, puis un clustering incrémental rapproche les articles proches
(cosine ≥ 0.72) publiés dans la même fenêtre temporelle (±7 jours).
4. Mesure. Pour chaque événement on calcule : le nombre d'articles (volume), le nombre de médias distincts qui en parlent, la durée du cycle médiatique (jours actifs), et un indice de diversité éditoriale — entropie de Shannon normalisée sur la distribution gauche / centre / droite des médias contributeurs. Plus l'indice est haut, plus le sujet traverse les bords politiques.
5. Limites assumées. Les médias qui exposent un flux RSS dédié faits-divers (Le Figaro, BFMTV, France Info) sont sur-représentés. Les médias sans rubrique séparée (Le Monde, Ouest-France) sont sous-comptés. Le mapping politique des médias est éditable dans le fichier de configuration ; aucun classement n'est codé en dur. Les RSS ne remontent souvent qu'à quelques jours : c'est la collecte continue qui construit l'historique. Tout le code, les sources et le mapping sont versionnés et auditables.