Cos'è
WEKA è una sigla è sta per "Waikato Environment for Knowledge Analysis". È un software sviluppato nell'università di Waikato in Nuova Zelanda, è open source e viene rilasciato con licenza GNU. Curiosamente la sigla corrisponde al nome di un simpatico animale simile al Kiwi (vedi foto), presente solo nelle isole della Nuova Zelanda.Caratteristiche
WEKA è un ambiente software interamente scritto in Java. Un semplice metodo per utilizzare questo software consiste nell'applicare dei metodi di apprendimento automatici (learning methods) ad un set di dati (dataset), e analizzarne il risultato. È possibile attraverso questi metodi, avere quindi una previsione dei nuovi comportamenti dei dati.
L'interfaccia grafica di Weka è composta da:
- Simple CLI: l'interfaccia dalla linea di comando;
- Explorer: ambiente che consente di esplorare i dati attraverso i comandi WEKA;
- Experimenter: compie test statistici fra i diversi algoritmi di data mining.
Il dataset
Insieme di valori e attributi presenti all'interno di una relazione. In una tabella di un database relazionale le istanze corrispondono alle righe e gli attributi alle colonne. Il formato utilizzato in WEKA per la lettura dei dataset e l'ARFF(Attribute Relationship File Format), è simile al più famoso CSV (Comma-separated values) ed è equivalente alla tabella di un database relazionale.
La matrice di confusione
Vengono utilizzate per la valutazione dei classificatori utilizzati in WEKA.
--- Confusion Matrix ---
a b <-- classified as
7 2 | a = yes
3 2 | b = no
Le colonne della matrice rappresentano le istanze che sono state classificate come appartenenti a quella classe. Nell’esempio la prima colonna mostra che in totale sono state classificate 10 istanze “a” da WEKA, e 4 sono state classificate come “b”.
Le righe della matrice di confusione rappresentano le reali istanze che appartengono a quella classe. Attraverso questo meccanismo la matrice è in grado di fornire il numero di casi che sono stati classificati correttamente e il numero di casi classificati in modo scorretto.
Nessun commento:
Posta un commento