Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
18 changes: 13 additions & 5 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,7 +1,6 @@
# Site web du réseau des data scientists du service statistique public

Code source du `SSPHub`, le site du réseau des
_data scientists_ du service statistique public (SSP).
Code source du `SSPHub`, le site du réseau des _data scientists_ du service statistique public (SSP).

Contenu disponible sur https://ssphub.netlify.app.

Expand All @@ -15,11 +14,20 @@ _Des assistants d'IA générative ont été utilisés à différents stades du p

Deadline pour envoi en validation (n1) : une semaine avant le dernier jour ouvré du mois

- [ ] depuis le dossier ssphub, lancer `{bash} bash scripts/init_infolettre.sh 27` : va créer une branche nommée infolettre_27, copier le template etc.
**1 - préparer la veille:**

- [ ] mettre à jour les articles issus du groupe de veille à partir du repo [ssphub_veille](https://github.com/SSPHub/ssphub_veille)
- [ ] regarder les sujets possibles parmi la liste des articles issus du groupe de veille sur grist (sujets possible : OCR ? + comment on se répartit les articles)
- [ ] rédiger le qmd avec toutes les informations
- [ ] faire une PR pour relecture

**2 - inclure la veille dans la newsletter:**

- [ ] depuis le dossier ssphub, lancer `{bash} bash scripts/init_infolettre.sh` : va déterminer le nouveau numéro de l'infolettre, créer une branche nommée infolettre_27, créer un dossier infolettre/infolettre_27 et y copier le template + commiter le tout. On peut spécifier le numéro de l'infolettre en indiquant `{bash} bash scripts/init_infolettre.sh 27`
- [ ] dans l'infolettre initialisée (infolettre/infolettre_27/index.qmd) rédiger le qmd avec:
- la veille
- les actualités
- la dataviz
- tout autre sujet
- [ ] Une fois l'infolettre ok, faire une PR sur main pour relecture. Un site de preview sera déployé (lien indiqué automatiquement en commentaire dans la PR)
- [ ] mise à disposition de l'infolettre sur le site du ssphub en mergeant la branche sur le main
- [ ] envoi infolettre par email avec les outils du repo [newsletter_tools](https://github.com/SSPHub/newsletter_tools)
- [ ] envoi infolettre par Tchap avec les outils du repo [newsletter_tools](https://github.com/SSPHub/newsletter_tools)
Expand Down
1 change: 1 addition & 0 deletions _quarto.yml
Original file line number Diff line number Diff line change
Expand Up @@ -57,3 +57,4 @@ format:
toc: true
page-layout: article

lang: fr
132 changes: 132 additions & 0 deletions infolettre/infolettre_24/index.qmd
Original file line number Diff line number Diff line change
@@ -0,0 +1,132 @@
---
title: "LLM, fusées et lapins cartographes : bienvenue dans le tur-fu"

description: |
Infolettre du mois de __mars 2026__

# Date published
date: '2026-03-31'
number: 24

authors:
- Nicolas
- Mélina

image: orbital_launch.png

categories:
- Infolettre
---

# Bienvenue à la **vingt quatrième infolettre** !

C'est le printemps ! Le temps est bon, il fait [41,6°C en Californie avant même la fin de l'hiver](https://www.rtl.be/actu/monde/international/jusqua-416degc-avant-meme-la-fin-de-lhiver-une-vague-de-chaleur-extreme-frappe/2026-03-19/article/783199).

Bienvenue à cette infolettre, coécrite avec **Mélina** ❤️.

# L'infographie

Qu'il est difficile de choisir une seule infographie.
Pour ce mois-ci, c'est finalement une vidéo de tous les lancements de fusée dans l'espace depuis 1957 (ne pas avoir peur de tout ce qu'il y a là-haut).
Attention, grand final de lancements pour l'année 2025 !

{{< video https://www.youtube.com/watch?v=tUNZQCGKvbg controls="yes" >}}
*Source : données recueillies par Jonathan McDowell et disponibles sur [https://planet4589.org](https://planet4589.org), infographie faite par [Peter Atwood](https://peteratwoodprojects.wordpress.com/) et explications aussi [ici](https://www.linkedin.com/posts/peter-atwood-60b9ba18a_cartography-gis-blender3d-ugcPost-7422329412764770305-jgGI/).*

Le site [satellitetracker](https://satellitetracker3d.com/) permet par ailleurs de suivre l'ensemble des quelques 12 000 satellites qui gravitent autour de la Terre.
Et cela en fait un petit nombre autour de la planète bleue grise ...

![Premier contact à l'approche de la Terre](satellites_trackers.png)

# Les prochains évènements du réseau

Une foison d'événements et d'informations ce mois-ci. Pour résumer :

- Un nouvel **Open Science Meet-up** à propos des *replication packages* en économie le **2 avril 2026** - [lien](https://insee-fr.zoom.us/j/96879320424?pwd=JwbRv0BRGHtpzijofpph6UHStnV5gO.1) ;
- un atelier du réseau sur la **génération de commentaires de graphique par LLM** le **mardi 14 avril 2026 à 10h** - [lien](https://visio.numerique.gouv.fr/wvv-cwou-ugn) ;
- un appel à contribution pour la conférence uRos du **18 au 20 novembre 2026** à Paris.

## *Replication packages* en économie - Open science Meet-up - 📅 jeudi 2 avril 2026 13h30, visio

Le prochain Open Science Meet-up de l'Insee portera sur le thème : **Replication packages en économie : préparation, bonnes pratiques et attentes des revues, surtout lorsque les données sont confidentielles.**

Pour s'assurer de la reproducibilité d'une analyse publiée, de nombreuses revues demandent désormais aux auteurs de fournir un *replication package*, c'est-à-dire l'ensemble des données, du code et de la documentation.

Lors de ce Meet-Up, [Lars Vilhuber](https://www.ilr.cornell.edu/people/lars-vilhuber) (Cornell University), *data editor* à l'*American Economic Association*, présentera les principes et les bonnes pratiques associés à la préparation et à la diffusion des *replication packages*. Il reviendra notamment sur les exigences croissantes des revues scientifiques, les standards qui se développent dans la communauté économique et les enjeux de la reproductibilité des travaux empiriques.

Cette rencontre sera l'occasion d'échanger sur la manière dont ces pratiques contribuent au **développement d'une recherche plus transparente et plus ouverte**, en particulier dans les domaines de l'analyse économique et statistique.

Elle s'adresse à toutes celles et ceux qui souhaitent mieux comprendre les enjeux de la reproductibilité des analyses économiques et de la diffusion ouverte des travaux de recherche.

**Rendez-vous le jeudi 2 avril de 13h30 à 14h15 en distanciel à ce [lien](https://insee-fr.zoom.us/j/96879320424?pwd=JwbRv0BRGHtpzijofpph6UHStnV5gO.1)**.


## Génération de commentaire de graphiques : retour d'expérience sur les statistiques agricoles et pistes d'amélioration - 📅 mardi 14 avril 14h, Paris (DG Insee) et visio

Le SSM Agriculture essaye de générer par LLM des commentaires sur l'évolution d'indicateurs agricoles à partir de graphiques. Si l'approche semblait prometteuse pour produire un premier jet que les analystes pourraient ensuite affiner, un point d'étape a mis en évidence des limites importantes (erreurs fréquentes sur les valeurs numériques, inversions de tendances, comparaisons incorrectes entre territoires ...).

Dans le cadre d'un travail de recherche, un étudiant de l'Ecole polytechnique a travaillé à rendre plus robuste cette expérimentation sous la supervision d'une chercheuse de l'INRIA. Il a ainsi mis en place un **cadre d'analyse pour quantifier les erreurs et proposé des améliorations pour répondre aux défauts identifiés**.

**Ils nous présenteront ainsi leurs travaux le mardi 14 avril à 14h**, en [visio](https://visio.numerique.gouv.fr/wvv-cwou-ugn) et en présentiel à l'Insee (en salle 4C-458). La présentation devrait durer 30 minutes. Tout le monde est le bienvenu !

Si vous voulez l'ajouter dans votre agenda, voici une [invitation agenda](https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-04-ssmagri/202604_generationtxtgraphique.ics).

Les mises à jour seront faites sur la [page de l'événement](../../talk/2026-04-ssm-agri/index.qmd).


## Contribuez à la conférence sur l'utilisation de R dans la statistique publique (uROS) - 📅 18-20 novembre 2026, Paris

L'Insee accueille l'édition 2026 de la **conférence uRos (use of R in official statistics)** les **18, 19 et 20 novembre 2026** au centre Pierre-Mendès France, à Bercy.

Cette rencontre annuelle des **utilisateurs de R en Europe et dans le monde** sera l'occasion de valoriser les nombreux investissements en R faits à l'Insee et au sein du SSP. La liste des thèmes ainsi que toutes les informations pratiques sont en ligne sur le [site de la conférence](https://r-project.ro/conference2026_FR.html).

Si vous souhaitez y **assister**, vous pouvez d'ores et déjà vous inscrire [en ligne](https://uros2026.sciencesconf.org/registration?lang=fr).

Si vous souhaitez **contribuer**, l'appel à contribution va bientôt ouvrir jusqu'au **15 juin** sur le site de la conférence. Vous pourrez soumettre :

(i) une présentation classique de 15 minutes ;
(ii) une présentation flash de 5 minutes ;
(iii) un tutoriel d'environ 2 heures.

N'hésitez pas à contacter directement l'organisation de l'événement sur [uros2026@insee.fr](mailto:uros2026@insee.fr).


# Actualités

## Données tabulaires : le deep learning est-il devenu une alternative crédible aux méthodes de boosting ?

[Ce billet](https://m-clark.github.io/posts/2026-03-01-dl-for-tabular-foundational/) de blog explique que, si le boosting reste une valeur sûre, plusieurs modèles récents - qu'il s'agisse de deep learning "classique" ou de modèles de [fondation](https://arxiv.org/abs/2108.07258) - deviennent désormais **réellement compétitifs**. L'émergence de benchmarks plus rigoureux et de nouveaux outils facilite par ailleurs la comparaison et la prise en main de ces nouveaux modèles. **Le principal frein reste toutefois le passage à l'échelle sur les très grands jeux de données**, qui limite encore leur adoption.

Et pour les séries temporelles ? Le constat est [proche](https://berts-workshop.github.io/): les modèles de fondation progressent, mais les approches plus classiques restent très compétitives, et le principal enjeu est encore celui de l'évaluation, les résultats étant contrastés selon les benchmarks.

## Des pistes intéressantes pour la recherche documentaire

Le projet [PageIndex](https://github.com/VectifyAI/PageIndex) explore une approche de recherche documentaire sans base vectorielle, fondée sur une indexation hiérarchique des documents et une navigation par grand modèle de langage (LLM). Au lieu de découper le texte en _chunks_ (des segments de texte issus du découpage d'un document) puis de faire une recherche par similarité dans une base vectorielle (c'est la méthode du [RAG](https://arxiv.org/abs/2005.11401) classique), l'outil transforme un **document long en un arbre hiérarchique** - une sorte de table des matières enrichie pour les LLM - puis s'appuie sur cette structure pour guider la recherche des passages pertinents. L'objectif est de mieux traiter les **documents longs et structurés**, pour lesquels une simple recherche par similarité sur des _chunks_ peut manquer de précision ou de contexte. L'approche est prometteuse et a l'intérêt de rendre le parcours de recherche plus lisible et plus traçable.

Ce [billet](https://www.anthropic.com/engineering/contextual-retrieval) d'Anthropic sur le Contextual Retrieval propose une approche pour **améliorer la recherche documentaire par RAG classique**. L'idée est de conserver le schéma habituel (_chunks_, _embeddings_, [BM25](https://en.wikipedia.org/wiki/Okapi_BM25)) mais d'ajouter à chaque _chunk_ un court contexte explicatif généré à partir du document complet, afin d'éviter qu'un passage isolé perde les informations qui lui donnent son sens. Le billet indique que cette contextualisation réduit de 49 % les échecs de _retrieval_, et jusqu'à 67 % lorsqu'on y ajoute une étape de _reranking_. Le billet rappelle aussi un point utile : pour des bases documentaires "modestes" (moins de 200 000 _tokens_, soit environ 500 pages), il peut être plus simple de mettre directement tout le corpus dans le prompt, sans passer par l'étape RAG.


## dbt + DuckDB : structurer ses pipelines SQL avec une infrastructure légère

Les outils [dbt + DuckDB](https://rmoff.net/2026/02/19/ten-years-late-to-the-dbt-party-duckdb-edition) permettent de **professionnaliser des traitements analytiques locaux**. [DuckDB](https://duckdb.org/) fournit un moteur SQL très rapide pour interroger et transformer des données, y compris directement depuis des fichiers Parquet. [dbt](https://www.getdbt.com/) permet quant à lui d'ajouter une couche d'organisation : il aide à découper les traitements en étapes claires (sources, _staging_, tables finales), à gérer les dépendances entre modèles, à documenter les transformations, à tester la qualité des données etc. En d'autres termes, **dbt fournit une méthode pour transformer une collection de scripts SQL en pipeline** plus lisible, plus reproductible et plus maintenable.


# Pour aller plus loin / se former

## Apprendre avec l'IA

Utiliser l'IA pour apprendre, et pas seulement pour accélérer la production de code ? Le **dépôt [Learning Opportunities](https://github.com/DrCatHicks/learning-opportunities)** propose un plugin pour Claude Code qui déclenche de courts exercices de 10 à 15 minutes afin d'éviter l'illusion de compréhension que peuvent créer les assistants de code. Une approche intéressantes pour ceux qui souhaitent (continuer à) **se former à l'heure du coding assisté par IA**.

## MicroGPT Visualized : une ressource pour comprendre ce qu'il y a dans un GPT

Pour mieux comprendre ce qui se passe réellement derrière les mots "_attention_", "_transformer_", "résidus" ou "_KV cache_", [MicroGPT Visualized](https://microgpt.jtauber.com) est une excellente découverte. Le site reprend le micro-GPT en Python d'Andrej Karpathy et le décompose en six étapes, du simple modèle bigramme jusqu'au _transformer_ complet optimisé avec _Adam_, le tout avec **schémas, animations et explications progressives**.

## Master Machine Learning with scikit-learn

Le livre en ligne [Master Machine Learning with scikit-learn](https://mlbook.dataschool.io/) de Kevin Markham est une ressource très intéressante pour **développer ou consolider ses bonnes pratiques en machine learning**.

# Fun

## Mapinou : un jeu mobile pour alimenter la recherche et mieux comprendre la navigation cartographique

Petite respiration carto ce mois-ci avec [**Mapinou**](https://cartonumerique.blogspot.com/2026/03/mapinou.html), un jeu mobile gratuit développé par une équipe de recherche du LASTIG (IGN) dans le cadre du projet européen LostInZoom. En guidant un lapin à travers une carte de France multi-échelles, les joueurs produisent des données anonymes par leurs interactions avec la carte - zooms, déplacements, clics - que les chercheurs utilisent pour **mieux comprendre les phénomènes de désorientation après zoom et concevoir des interfaces cartographiques plus fluides.**
Binary file added infolettre/infolettre_24/orbital_launch.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added infolettre/infolettre_24/satellites_trackers.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
36 changes: 31 additions & 5 deletions scripts/init_infolettre.sh
Original file line number Diff line number Diff line change
@@ -1,13 +1,39 @@
#!/bin/bash

# Check if the infolettre directory exists upfront
if [ ! -d "infolettre" ]; then
echo "Error: The 'infolettre' directory does not exist."
exit 1
fi

# Check if the source template directory exists
if [ ! -d "infolettre/infolettre_XX" ]; then
echo "Error: The source template directory 'infolettre/infolettre_XX' does not exist."
exit 1
fi

# Set INFOLETTRE_NB: use argument or auto-increment last number
if [ -z "$1" ]; then
# Only run ls if the directory exists (already checked above)
max=$(ls -d infolettre/infolettre_* | grep -oE '[0-9]+$' | sort -n | tail -1)
if [ -z "$max" ]; then
echo "Error: No infolettre folders found in the infolettre directory."
exit 1
fi
INFOLETTRE_NB=$((max + 1))
else
INFOLETTRE_NB=$1
fi

INFOLETTRE_NB=$1
INFOLETTRE_BRANCH="infolettre_$INFOLETTRE_NB"

git switch main
git pull origin main
git switch -c $INFOLETTRE_BRANCH
git push --set-upstream origin $INFOLETTRE_BRANCH
git switch -c $INFOLETTRE_BRANCH # for dev - comment this line
git push --set-upstream origin $INFOLETTRE_BRANCH # --dry-run # for dev

cp -r infolettre/infolettre_XX infolettre/$INFOLETTRE_BRANCH
mv infolettre/$INFOLETTRE_BRANCH/template.txt infolettre/$INFOLETTRE_BRANCH/index.qmd
mv infolettre/$INFOLETTRE_BRANCH/template.txt infolettre/$INFOLETTRE_BRANCH/index.qmd

git add infolettre/$INFOLETTRE_BRANCH/index.qmd && git commit -m "initializing infolettre $INFOLETTRE_NB"
git add infolettre/$INFOLETTRE_BRANCH/index.qmd # --dry-run # for dev
git commit -m "initializing infolettre $INFOLETTRE_NB" # --dry-run # for dev
62 changes: 62 additions & 0 deletions talk/2026-04-ssm-agri/index.qmd
Original file line number Diff line number Diff line change
@@ -0,0 +1,62 @@
---
title: "Génération de commentaire de graphiques : retour d'expérience sur les statistiques agricoles et pistes d'amélioration"

categories:
- LLM
- SSM Agriculture

description: |
Le __14 avril (14h00 - 14h30)__, le SSM Agriculture vient présenter leur travail pour générer des commentaires de graphiques automatiquement.

date: '2026-04-14'

image: logo_SSM_AGRESTE.png
---


Le SSM Agriculture a mené un PoC pour que des LLM génèrent des commentaires sur l'évolution d'indicateurs agricoles à partir de graphiques. Si l'approche semblait prometteuse pour produire un premier jet que les analystes pourraient ensuite affiner, un premier point d'étape a mis en évidence des limites importantes (erreurs fréquentes sur les valeurs numériques, inversions de tendances, comparaisons incorrectes entre territoires ...).

Dans le cadre d'un travail de recherche, un étudiant de l'Ecole polytechnique a travaillé à rendre plus robuste cette expérimentation sous la supervision d'une chercheuse de l'INRIA. Il a ainsi mis en place un cadre d'analyse pour quantifier les erreurs et proposé des améliorations pour répondre aux défauts identifiés.

**Ils nous présenteront ainsi leurs travaux le mardi 14 avril à 14h**, en [visio](https://visio.numerique.gouv.fr/wvv-cwou-ugn) et en présentiel à l'Insee (en salle 4C-458). La présentation devrait durer 30 minutes. Tout le monde est le bienvenu !

Si vous voulez l'ajouter dans votre agenda, voici une [invitation agenda](https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-04-ssmagri/202604_generationtxtgraphique.ics).

<!--
Pour plus d'information, la Dares a présenté son travail aux [Journées de méthodologie statistique de 2025](https://journees-methodologie-statistique.insee.net/analyse-textuelle-de-documents-longs-cas-des-accords-dentreprise/).

**Replay de la présentation :**

{{< video https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-03-dares/2026-03_dares_extraction.mp4 >}}

**Présentation :**

<div class="sourceCode" id="cb1"><pre class="sourceCode yaml code-with-copy"><code class="sourceCode yaml"></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre><iframe class="sourceCode yaml code-with-copy" src="https://cthiounn.github.io/presentation_analyse_textuelle_accords/#/title-slide"></iframe></div>

```{ojs}
//| echo: false
createButton(
"https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-03-dares/Analyse_textuelle_documents_longs.pdf",
"Télécharger les slides en pdf"
)
```



La présentation est aussi disponible [en ligne](https://cthiounn.github.io/presentation_analyse_textuelle_accords/#/title-slide).


```{ojs}
//| echo: false
function createButton(slides, message="Télécharger les slides"){
const button = html`
<p class="text-center">
<a class="btn btn-primary btn-lg cv-download" href="${slides}" target="_blank">
<i class="fa-solid fa-file-arrow-down"></i>&ensp;${message}
</a>
</p>`
return button
}
```

-->
Binary file added talk/2026-04-ssm-agri/logo_SSM_AGRESTE.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading