
DESCRIZIONE CORSO
Elaborazione di nuovi metodi e strumenti per l’estrazione e l’analisi degli User Generated Contents diffusi nel Social Web.
OBIETTIVI CORSO
Al termine del corso (31-GEM-P03) i partecipanti saranno in grado di:
- Analizzare e gestire le variabili testuali con Python
- Assegnare dei valori numerici alle variabili testuali
- Gestire con Python una collezione di documenti
- Trovare dipendenze semantiche tra termini
- Calcolare misure di similarità tra documenti
- Navigare il web e scaricare informazioni attraverso un web crawler
- Costruire una collezione da dati HTML
- Effettuare con Pyton attività di Text e Data Cleaning
- Costruire modelli per indicizzazione dei Documenti
AGENDA CORSO
Modulo 1: Introduzione a Python per il Text Mining
- Problematiche e obiettivi del Text Mining
- Creazione e gestione delle stop word
- Procedure di Stemming e di Lemmatization
- Esercitazione
Modulo 2: Term Document Matrix
- Term Frequency – Inverse Document Frequency
- Misure di similarità
- Esercitazione
Modulo 3: Web Scraping
- Introduzione e limiti normativi allo scraping
- Estrazione integrale e parziale di pagine singole
- Esercitazione
Modulo 4: Web Crawler
- Estrazione integrale e parziale di pagine multiple
- Creazione Crawler per la costruzione di una collezione
- Esercitazione
Modulo 5: Inverted index
- Approccio Combinatorio
- Approccio Statistico
- Esercitazione
Modulo 6: Catturare la dipendenza tra termini
- Algoritmo apriori
- Rotazione dei vettori come rappresentazione delle dipendenze
- Esercitazione
PREREQUISITI
- Conoscenze base di programmazione