bigdata

Big Data

Una raccolta di dati così estesa in termini di volume, velocità e varietà non può prescindere da soluzioni evolute e performanti sia per lo storage che per l’elaborazione.

Storage e computation

Le già innumerevoli fonti di dati esistenti, sia strutturati, come i database relazionali, ma anche non strutturati, come immagini, email, log dati GPS, sono in constante aumento e pertanto si assiste ad una proliferazione di dati eterogenei, destinati a moltiplicarsi esponenzialmente in futuro. Si pensi all’ IoT – Internet of Things, in cui l'estensione di Internet al mondo degli oggetti e dei luoghi reali attribuirà loro la capacità di raccogliere, elaborare e scambiare dati in rete tipiche dei computer.


Il concetto di big data implica più fattori, dalla quantità e complessità dei dati, alla struttura necessaria per raccoglierli e archiviarli.

In Koros Consulting riteniamo che sia l’architettura Apache Hadoop lo strumento ottimale per immagazzinare velocemente grandi quantità di dati strutturati e non, sia per l’elevata affidabilità e disponibilità che ne garantisce sia perché, supportando applicazioni distribuite con elevato accesso ai dati, consente alle applicazioni di lavorare con migliaia di nodi e petabyte di dati. Per l’elaborazione in modalità batch e lo streaming riteniamo imprescindibile, soprattutto se affiancato all’architettura Hadoop basata sul file system HDFS, l’utilizzo di Spark.

Per applicazioni specifiche riteniamo opportuno affiancare ad Hadoop altre tipologie di storage che si prestano maggiormente all’elaborazione in streaming e real-time dei dati, come MongoDB e RethinkDB.

Affinché i nostri progetti di big data abbiano successo, crediamo fortemente che occorrano le competenze adatte a padroneggiare le tecnologie dello stack Hadoop. Per tale motivo i nostri collaboratori possiedono la certificazione CCA Spark and Hadoop Developer di Cloudera che proponiamo come distribuzione di Hadoop in modalità on premise. Per l’ambiente cloud proponiamo invece i servizi Big Data di AWS come EMR, per l’elaborazione e S3 per lo storage.

Tecnologie


Cloudera

CDH è la distribuzione open source di Cloudera. Integrando Apache Hadoop ed i suoi progetti core CDH consente di sviluppare pipeline Big Data end-to-end, gestendone tutti gli aspetti, dallo storage alla computazione fino all’analisi.

Spark

È un engine per l’elaborazione di Big Data che consente di ottenere elevate prestazioni sia per l’analisi in streaming che batch. Fornisce inoltre interfacce per l’analisi dati interattiva e supporta linguaggi come Scala, Python, Java e R.

Hai bisogno d'aiuto?

Contattaci.