Aperiam - Introduzione al Text Mining con Python

DESCRIZIONE CORSO

Python è uno dei linguaggi di programmazione più conosciuti e utilizzati nel campo dell’analisi dati e data science. Il corso è rivolto a chi vuole programmare in Python in un’ottica di analisi dati.

OBIETTIVI CORSO

Al termine del corso (31-GEM-P02), i partecipanti saranno in grado di:

  • Conoscere le potenzialità ed i campi di applicazione del linguaggio di programmazione Python
  • Gestire diverse tipologie di dati: numerico e stringhe di caratteri
  • Interpretare correttamente e usare i concetti fondamentali del linguaggio come enunciati condizionali, strutture di controllo e strutture iterative
  • Controllare ed eseguire la stesura del codice
  • Gestire eccezioni ed individuare errori di sintassi
  • Conoscere i dati nativi tipici di Python, come ad es. le liste, le tuple ed i dizionari
  • Definire funzioni e riconoscere l’ambito di visibilità delle variabili
  • Definire classi, moduli, usare metodi speciali e concetti di ereditarietà
  • Manipolare dei testi con Python
  • Importare dati testuali tramite le funzioni base di Python
  • Preprocessing con le funzioni base di Python
  • Importare Cartelle, File e Corpus con Python
  • Costruire funzioni di analisi, clustering e mining dei testi con Python

AGENDA CORSO

Modulo 1: Introduzione

  • Installazione
  • Python come General Language Purpose (Use Case)
  • iPython
  • Tipi di Dati

Modulo 2: Sintassi

  • Il costrutto if…else
  • I cicli (for e while)
  • Esercitazione

Modulo 3: Strutture Dati

  • Liste
  • Tuple
  • Set
  • Dizionari
  • Esercitazione

Modulo 4: Input-Output

  • Interazione Python con il Sistema operativo
  • Esercitazione

Modulo 5: Funzioni

  • Lambda function
  • Esercitazione

Modulo 6: Classi e Librerie

  • Definizione delle Classi ed Ereditarietà
  • Installazione librerie di 3° parti
  • Esercitazione

Modulo 7: Introduzione a Python per il Text Mining

  • Problematiche e obiettivi del Text Mining
  • Creazione e gestione delle stop word
  • Procedure di Stemming e di Lemmatization
  • Esercitazione

Modulo 8: Term Document Matrix

  • Term Frequency – Inverse Document Frequency
  • Misure di similarità
  • Esercitazione

PREREQUISITI

  • Conoscenze base di programmazione