Aperiam - Text Mining e Web Scraping con Python

DESCRIZIONE CORSO

Elaborazione di nuovi metodi e strumenti per l’estrazione e l’analisi degli User Generated Contents diffusi nel Social Web.

OBIETTIVI CORSO

Al termine del corso (31-GEM-P03)  i partecipanti saranno in grado di:

  • Analizzare e gestire le variabili testuali con Python
  • Assegnare dei valori numerici alle variabili testuali
  • Gestire con Python una collezione di documenti
  • Trovare dipendenze semantiche tra termini
  • Calcolare misure di similarità tra documenti
  • Navigare il web e scaricare informazioni attraverso un web crawler
  • Costruire una collezione da dati HTML
  • Effettuare con Pyton attività di Text e Data Cleaning
  • Costruire modelli per indicizzazione dei Documenti

AGENDA CORSO

Modulo 1: Introduzione a Python per il Text Mining

  • Problematiche e obiettivi del Text Mining
  • Creazione e gestione delle stop word
  • Procedure di Stemming e di Lemmatization
  • Esercitazione

Modulo 2: Term Document Matrix

  • Term Frequency – Inverse Document Frequency
  • Misure di similarità
  • Esercitazione

Modulo 3: Web Scraping

  • Introduzione e limiti normativi allo scraping
  • Estrazione integrale e parziale di pagine singole
  • Esercitazione

Modulo 4: Web Crawler

  • Estrazione integrale e parziale di pagine multiple
  • Creazione Crawler per la costruzione di una collezione
  • Esercitazione

Modulo 5: Inverted index

  • Approccio Combinatorio
  • Approccio Statistico
  • Esercitazione

Modulo 6: Catturare la dipendenza tra termini

  • Algoritmo apriori
  • Rotazione dei vettori come rappresentazione delle dipendenze
  • Esercitazione

PREREQUISITI

  • Conoscenze base di programmazione