Impara a utilizzare le Ultime Tecnologie per l’Analisi dei Big Data con il linguaggio di Programmazione pi popolare al mondo -Spark e Python! Siamo entrati nell’era dei Big Data, oggi i dati sono il nuovo petrolio e sapere come elaborarli e analizzarli vuol dire avere un posto di lavoro garantito in un futuro molto prossimo e un vantaggio competitivo enorme rispetto ai rivali in affari. In questo corso impareremo a lavorare con i Big Data utilizzando Spark, il framework per il calcolo distribuito pi popolare al mondo, usato in produzione da giganti come Amazon, Microsoft, Oracle, Verizon e Cisco. Cosa faremo durante il corso? Nella prima sezione del corso introdurre l’argomento BigData, vedendo cosa sono, da dover arrivano e come possono essere sfruttati. Vedremo quali sono le principali tecnologie utilizzate per i BigData: ApacheHadoop, HadoopMapReduce e Spark, chiarendone le differenze, i punti deboli e i punti di forza. Nella seconda sezione vedremo come installare e configurare Spark su una macchina locale, prima usando VirtualBox per creare una macchina simulata sulla quale installare Ubuntu, poi creando una macchina remota sfruttando gli Amazon WebService, nello specifico AWSEC2. Nella terza sezione impareremo a creare un cluster di macchine con Spark e lo faremo in due modi differenti: Usando AWS EMR(ElasticMapReduce) Usando DataBricks, piattaforma per l’analisi dei BigData co-fondata dallo stesso creatore di Spark. Nella quarta sezione studieremo la principale struttura dati di Spark: il ResilientDistributed Dataset(RDD), introducendo la teoria del suo funzionamento per poi eseguire qualche esercizio pratico per studiarne le API. Nella quinta sezione ci sporcheremo le mani con il primo laboratorio in cui analizzeremo un dataset contenente 22.5 milioni di recensioni di prodotti su Amazon. Nella sesta sezione introdurremo una struttura dati a pi alto livello che Spark mette a disposizione dalle sue versioni pi recenti: ilDataFrame, parleremo brevemente della suo funzionamento per poi vedere come pu essere utilizzato nella pratica. Vedremo anche come creare una tabella SQL partendo da un DataFrame per poi interrogarla con query di selezione. Nella settima sezione svolgeremo un secondo laboratorio, usando un DataFrame per analizzare ben 28 milioni di recensioni di film. Nell’ottava sezione parleremo di serie storiche (time series) e analizzeremo le azioni di Apple dal 1980 ad oggi. Nella nona sezione parleremo di Machine Learning, scoprendo come funziona e a cosa serve e studiando i due modelli di base rispettivamente per modelli di Regressione e Classificazione: La Regressione LineareLa Regressione LogisticaAl termine di questa sezione introdurremo il modulo MLlib(Machine Learning Library)di Spark, il quale ci permette di costruire modelli di Machine Learning distribuiti. Nelle sezioni dieci e undici vedremo come utilizzare il modulo MLlib con le sueAPIper il Dataframe, per risolvere semplici problemi di regressione e classificazione, come: Stimare il valore di abitazioni partendo dalle loro caratteristicheRiconoscere un tumore al seno maligno da un’agobiopsiaNella sezione dodici utilizzeremo le conoscenze acquisite sul Machine Learning e MLlib per costruire un modello di Sentiment Analysis utilizzando il dataset di Yelp, il quale contiene oltre 5GB di recensioni di locali e attivit commerciali. Per addestrare il modello di Machine Learning sull’intero dataset cos grande utilizzeremo un cluster AWSEMR, imparando a configurare un cluster e a importare grandi quantit di dati nel Hadoop FileSystem (HDFS) da un bucket S3 utilizzando l’utility s3-dist-cp. Nella nona sezione introdurremo uno delle estensioni pi hot di Spark: Spark Streaming, che ci permette di analizzare ed elaborare flussi di dati in tempo reale! Nella decima sezione svolgeremo un progetto usando Spark Streaming e le APIdi Twitter: monitoreremo tutti i tweets pubblicati in tempo reale, relativi ad un determinato argomento selezionato da noi, e creeremo un grafico interattivo con gli hashtags pi popolari! Perch seguire questo corso? I Big Data sono il futuro, sapere come sfruttarli sar un vantaggio enorme, sia per un professionista che per un imprenditore, non perdere questa occasione!