468x60

giovedì 21 agosto 2008

WEKA - ottimo tool per data mining

Cos'è

WEKA è una sigla è sta per "Waikato Environment for Knowledge Analysis". È un software sviluppato nell'università di Waikato in Nuova Zelanda, è open source e viene rilasciato con licenza GNU. Curiosamente la sigla corrisponde al nome di un simpatico animale simile al Kiwi (vedi foto), presente solo nelle isole della Nuova Zelanda.

Caratteristiche

WEKA è un ambiente software interamente scritto in Java. Un semplice metodo per utilizzare questo software consiste nell'applicare dei metodi di apprendimento automatici (learning methods) ad un set di dati (dataset), e analizzarne il risultato. È possibile attraverso questi metodi, avere quindi una previsione dei nuovi comportamenti dei dati.

L'interfaccia grafica di Weka è composta da:

  • Simple CLI: l'interfaccia dalla linea di comando;
  • Explorer: ambiente che consente di esplorare i dati attraverso i comandi WEKA;
  • Experimenter: compie test statistici fra i diversi algoritmi di data mining.

Il dataset

Insieme di valori e attributi presenti all'interno di una relazione. In una tabella di un database relazionale le istanze corrispondono alle righe e gli attributi alle colonne. Il formato utilizzato in WEKA per la lettura dei dataset e l'ARFF(Attribute Relationship File Format), è simile al più famoso CSV (Comma-separated values) ed è equivalente alla tabella di un database relazionale.

La matrice di confusione

Vengono utilizzate per la valutazione dei classificatori utilizzati in WEKA.

--- Confusion Matrix ---
a b <-- classified as

7 2 | a = yes

3 2 | b = no

Le colonne della matrice rappresentano le istanze che sono state classificate come appartenenti a quella classe. Nell’esempio la prima colonna mostra che in totale sono state classificate 10 istanze “a” da WEKA, e 4 sono state classificate come “b”.
Le righe della matrice di confusione rappresentano le reali istanze che appartengono a quella classe. Attraverso questo meccanismo la matrice è in grado di fornire il numero di casi che sono stati classificati correttamente e il numero di casi classificati in modo scorretto.

Nessun commento:

Posta un commento

468x60

Cerca su Google

Cerca nel Blog con Google