Vizibilitate tuturor!

Sunt adeptul suprimării formelor fără fond cu precădere prin educație, viziune comună, focalizarea energiilor, obiectivism și foarte multă răbdare.

Explorarea setului de date Iris folosind AzureML. Prima experiență AzureML.

Nu știu dacă vă veți da seama, dar AzureML este de departe printre serviciile mele preferate de știința datelor și inteligență artificială/ML. Și se întâmplă să fie un serviciu Cloud…

În prima experiență cu setul de date Iris.csv v-ați inițiat în explorarea datelor cu Excel. Și-apoi, ați avut parte de o introducere în grupările K-Means folosind ELKI. Vom ajunge în curând și la un prim exemplu de K-Means cu AzureML. Dar înainte de asta, vă invit să zăboviți un pic la câteva funcționalități de bază, deosebit de atractive despre explorarea datelor.

Prima experiență cu AzureML – primul experiment

Presupunând că aveți deja cont pe AzureML, creați un nou experiment:

AzureML cornel.fatulescu.ro

Ceea ce va deschide spațiul de lucru pentru experiment. Sper că reiese din imaginea de mai jos, că am numit experimentul „Primul experiment cu AzureML și Iris”.

Primul experiment cu AzureML și Iris cornel.fatulescu.ro

Acum că experimentul este deschis, primul lucru pe care trebuie să-l facem este să importăm setul de date Iris. Există mai multe moduri de a face asta, iar poate că cel mai simplu este să-l refolosim din seturile de date predefinite în AzureML. De dragul exemplului, am preferat să import acest fișier de unde l-am folosit și eu prima dată, fiind un scenariu mult mai apropiat de realitatea unui caz real. Deci, ca să importăm un fișier, trebuie să folosim modulul „Import Data” pe care-l puteți găsi folosind căsuța de căutare „Search experiment items” din stânga-sus.

După ce ați găsit modulul și l-ați amplasat în experiment, mergeți în fereastra de proprietăți unde veți configura importul astfel:

  • În câmpul Data Source, selectați Web URL via HTTP
  • În câmpul Data source URL, introduceți https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv
  • În câmpul Data format, lăsați CSV
  • Bifați căsuța CSV or TSV has header row

configurare import AzureML cornel.fatulescu.ro

Rulați experimentul selectând Run->Run selected

Când importul a fost efectuat cu succes ar trebui să vedeți bifa verde din dreptul textului „Import Data”:

import gata cornel.fatulescu.ro

Observați cerculețul 1? Click dreapta pe el și apăsați „Visualize”

Importa data - vizualizare cornel.fatulescu.ro

pentru ca unul dintre cele mai inspirate instrumente de explorarea datelor să se deschidă:

Vizualizare Iris.csv cornel.fatulescu.ro

Acum puteți naviga liber printre coloane și să cercetați vizual valorile și diverse statistici despre informațiile fiecărei coloane:

  • media – Mean,
  • mediana – Median,
  • minimul – Min,
  • maximul – Max,
  • câte valori unice sunt în acea coloană – Unique Values,
  • abaterea standard – Standard Deviation,
  • câte valori lipsesc din coloană – Missing Values și
  • ce fel de coloană este – numerică, logică etc + trăsătură (feature) sau semn distinctiv(label).

Dar AzureML are și alte capabilități. Căutați blocul „Summarize Data” și conectați-l la „Import Data” ca în exemplul de mai jos:

Summarize data AzureML cornel.fatulescu.ro

Executați experimentul din nou și vizualizați setul de date rezultat

vizualizare summarized data AzureML cornel.fatulescu.ro

Ceea ce-ar trebui să deschidă următoarea fereastră, cuprinzând mult mai multe informații calculate automat față de orice instrument pe care l-am folosit până acum:

View summarized data AzureML cornel.fatulescu.ro

  • coloanele setului de date – Feature
  • numărul de înregistrări din setul de date – Count
  • numărul de valori unice pentru fiecare coloană – Unique Value Count
  • numărul de valori lipsă pentru fiecare coloană – Missing Value Count
  • Min, Max, Mean, Mean Deviation, nu le mai reiau, fiind explicate mai sus
  • Prima quartilă, mediana și a treia quartilă (află mai multe aici)
  • Valoarea care apare cel mai des – Mode
  • Spectrul (diferența dintre Maximul valorilor și Minimul valorilor) – Range
  • Variația (VAR.S în Excel, află mai multe aici)
  • Abaterea standard (STD.S în Excel)
  • Indice de asimetrie (Skewness – în Excel Skew) – Sample Skewness
  • Indice de aplatizare (Kurtosis – în Excel Kurt) – Sample Kurtosis
  • Percentilele 0.5, 1,5,95 și 99.5 (în Excel PERCENTILE.INC) – P0.5, P1, P5, P9, P95, P99.5

View summarized data AzureML cornel.fatulescu.ro 2

Interesant și simplu, nu-i așa?

Selectarea trăsăturilor cu potențial mai mare de a prezice specia

Și-asta este departe de ceea ce poate face AzureML. Voi încerca să închei cu una dintre funcțiile mele preferate: „Filter Based Feature Selection”, modul care poate determina care coloană este mai bună în a distinge între valorile din setul de date.

Din lista de proprietăți, selectați Spearman Correlation în lista Feature scoring method și-apoi apăsați pe „Launch column selector”.

Selectați coloana specii („species”) față de care încercăm să găsim coloana care prezice cel mai bine specia din cele patru (lungimea petalei, lățimea petalei, lungimea sepală, lățimea sepală).

Executați experimentul și vizualizați setul de date din primul nod:

Filter Based Feature Selection AzureML select Label vizualizare

Rezultat?! Lățimea petalei este coloană care corelează cel mai bine despre ce specie este vorba, așa cum aflasem deja și aici.

Filter Based Feature Selection AzureML select Label proprietăți lățimea petalei cornel.fatulescu.ro

 

Sper că v-am făcut curioși cu acest prim articol despre AzureML, serviciu pe care-l recomand cu mare căldură nu doar începătorilor în știința datelor.

Încheiere

Ați explorat setul de date Iris din cel puțin trei perspective, cu trei instrumente diferite (Excel, ELKI, AzureML). Pentru moment, fără să scrieți vreun pic de cod. Bineînțeles că lista de instrumente este cu mult mai mare și voi mai adăuga pe parcurs. Deja am dat suficiente informații astfel încât să putem implementa propriul K-Means, de la zero cu c# sau cu AzureML, Amazon SageMaker sau Tensorflow.
Va urma…

Cornel FătulescuDacă doriți să aflați mai multe despre mine, Cornel Fătulescu, sau proiectele în care sunt implicat, vă invit să mă descoperiți ca voluntar pe pagina membrilor AgileHub, asociație în care sunt cofondator, ca mentor la ScriuCod, ca CTO la Pentalog sau să citiți unul dintre primele articole despre mine și să mă contactați la pagina de contact.

Acest articol a fost citit de 20 ori