Carmelo Saffioti's Blog: Data Mining e Modellazione predittiva

sabato 31 gennaio 2009

Data Mining e Modellazione predittiva

Negli ultimi dieci anni l’utilizzo a largo raggio di metodologie informatiche applicate alla gestione ha generato, tra le altre conseguenze, una crescita esplosiva nelle capacità sia di generare sia di collezionare dati. Ogni organizzazione, pubblica o privata, raccoglie ogni giorno grandi quantità di dati. I progressi nella tecnologia di memorizzazione dei dati basati su dispositivi di memoria sempre più veloci e con maggiore capacità, ad un costo inferiore, ci permettono di archiviare quest’enorme flusso di informazioni.
Nei diversi contesti la mole di dati immagazzinati è utile alla gestione, ma spesso non alle attività decisionali e strategiche. Questo perché la forma in cui questi dati ci pervengono è da considerarsi come quella di un minerale non ancora raffinato. In queste miniere di dati giace, spesso nascosta, una ricchezza potenzialmente inestimabile in termini di conoscenza strategica. Queste informazioni, se estratte, possono essere utilizzate per aumentare efficacia ed efficienza dei processi produttivi e gestionali, per migliorare la qualità dei servizi, per raggiungere un vantaggio competitivo. La conoscenza nascosta nei sistemi informativi è un capitale strategico, tuttavia, è necessario distillarla, a partire dai dati grezzi su cui operiamo giornalmente sul fronte operativo. La complessità dei dati rende spesso difficile l’analisi degli stessi coi metodi tradizionali. Tali metodi infatti possono creare dei rapporti informativi su tali dati ma non sono in grado di analizzarne il contenuto e focalizzare l'attenzione sulle informazioni interessanti che essi contengono. E' stato stimato che trovare delle relazioni significative in un solo terabyte di dati che è equivalente a due milioni di libri richiederebbe la vita intera di una persona. È necessario lasciare che la conoscenza emerga dall’informazione grezza.

Il Data Mining (letteralmente: estrazione da una miniera di dati) è l'estrazione di informazioni utili da grandi quantità di dati, eseguita in modo automatico o semiautomatico. Le tecniche e gli algoritmi di Data Mining hanno lo scopo di analizzare vasti campioni di dati, allo scopo di identificare interessanti regolarità dette pattern. I pattern così identificati possono essere il punto di partenza per ipotizzare e quindi verificare nuove relazioni di tipo causale fra fenomeni; in generale, possono servire in senso statistico per formulare previsioni su nuovi insiemi di dati. Da questo deduciamo logicamente che, un concetto correlato al Data Mining è quello di Machine Learning (o "apprendimento automatico"): infatti, l'identificazione di pattern può paragonarsi all'apprendimento, da parte del sistema di Data Mining, di una relazione causale precedentemente ignota. Il Machine Learning è il settore della Computer Science che studia gli algoritmi capaci di emulare le modalità di ragionare tipiche dell'uomo: riconoscere, decidere, scegliere, ossia apprendere ed estrarre informazioni su un determinato problema esaminando una serie di esempi ad esso relativi.

- Il processo di apprendimento
Date delle istanze di training di una funzione f sconosciuta, trovare una buona approssimazione di f. Illustriamo alcuni possibili casi:

1) Diagnosi medica
x = caratteristiche del paziente (sua storia medica, sintomi, esami di laboratorio)
f = malattia (o terapia consigliata)

2) Risk assessment
x = caratteristiche del consumatore/assicurato (dati demografici, incidenti passati)
f = livello di rischio

3) Guida automatica
x = immagine bitmap della superficie della strada di fronte al veicolo
f = gradi di sterzatura del volante

4) Fraud/intrusion detection
x = caratteristiche del cliente/utente (tipo cliente, città, reddito, stato civile)
f = frode

5) Predizione vendite
x = caratteristiche della merce (costo, prezzo vendita, frequenza)
f = vendite

- Modellazione predittiva

Una tecnica molto diffusa per il Data Mining è la Modellazione predittiva, ovvero l'apprendimento mediante classificazione. Questo schema di apprendimento parte da un insieme ben definito di esempi di classificazione per casi noti, dai quali ci si aspetta di dedurre un modo per classificare esempi non noti. Tale approccio viene anche detto con supervisione (supervised), nel senso che lo schema d’apprendimento opera sotto la supervisione fornita implicitamente dagli esempi di classificazione per i casi noti; tali esempi, per questo motivo, vengono anche detti training examples, in altre parole esempi per l’addestramento.
Sono state proposte molte e diverse tecniche per la classificazione, ognuna delle quali offre specifiche caratteristiche e vantaggi. Elechiamo alcune tecniche di modellazione predittiva