Repository per il progetto di tagging automatico delle pagine web dei Comuni lombardi in collaborazione tra ANCIlab e Università degli Studi di Milano.
Gli script Python presenti in questo repository permettono, in ordine, di:
- Eseguire lo scraping delle pagine web dei Comuni che abbiano fornito la relativa autorizzazione, estraendo per ogni pagina il testo ivi contenuto, i tag di tipo "Categoria" e i tag di tipo "Argomenti" -
scraper.py - Pulire e raggruppare i dati testuali in input ai modelli di classificazione, eliminando il più possibile parti di header, footer e menù interni alle pagine -
cleaning.py - Produrre una classificazione utilizzando un modello in cloud (ChatGPT) da considerare come "valore obiettivo" della classificazione -
chatgpt_baseline.py - Produrre una classificazione con uno dei tre metodi previsti nella sperimentazione e disponibili nella presentazione PowerPoint -
zeroshot_classification.py,feature_extraction.py, data_augmentation.py`
I risultati della sperimentazione sono disponibili nella presentazione PowerPoint qui presente, utilizzata nell'evento di restituzione svoltosi in modalità online venerdì 7 febbraio 2025.
In collaborazione con LASER