Analizzare una grande mole di dati permette di generare nuova conoscenza utile per adottare scelete e decisioni consapevoli.. Dalla personalizzazione della comunicazione con il cliente all’efficientamento dei processi produttivi, passando per la gestione dei flussi e delle emergenze, i Big Data Analytics hanno un impatto in tutti i processi.
Tutto ciò è reso possibile da tecnologie che permettono di gestire dati destrutturati e processare ampi volumi di dati in tempo reale ma anche dalla diffusione di algoritmi e metodologie di analisi innovative, in grado di estrapolare autonomamente le informazioni nascoste nei dati.
Da qualche tempo, Ecubit si è assicurata la collaborazione di Data Scientists esperti, specializzati nell’analisi dei dati e nella realizzazione di pipelines di analisi, basate su reti neurali e caratterizzate da algoritmi di auto-apprendimento.
Ecubit, grazie al contributo fondamentale della sua area di ricerca e sviluppo e alla partecipazione a progetti di ricerca innovativi in questo ambito, si è specializzata sulle analisi di dati descritte di seguito.
Tabular data (feature) analysis:
L’analisi di dati tabellari è uno dei campi più diffusi nell’industria, ed è tipicamente affrontabile con successo con metodi di machine learning tradizionali (random forests, algoritmi di clustering e ricerca di anomalie non supervisionati, support vector machines, regressioni). Spesso viene utilizzata come parte di pipelines più complesse, che includono steps preliminari per trasformare un dato di partenza (un’immagine, una traccia temporale, un testo) in una lista di features
Image analysis/Computer vision
L’analisi di immagini è il campo in cui le reti neurali si sono rivelati più efficaci. Oltre all’analisi di immagini statiche (naturali , mediche o di altri tipi), uno dei campi più diffusi è l’analisi di flussi video continui da videocamere o files (con applicazioni a videosorveglianza, monitoraggio di processi industriali e self driving cars)
Time series analysis:
L’analisi di serie temporali, con capacità di predizione dell’andamento nel tempo, è uno degli ambiti più promettenti del machine learning. L’applicazione più redditizia e comune è sicuramente la costruzione di bot finanziari, ma ci sono applicazioni anche in altri ambiti tecnici e scientifici. In particolare, l’analisi di dati proveniente da sensori di qualsiasi genere . Anche l’analisi di dati audio rientra in questo macroambito. Tipicamente affrontata con strumenti di machine learning tradizionale e modelli statistici, negli ultimi tempi c’è un crescente utilizzo di reti neurali (più complesse di quelle usate in image analysis), specialmente nel caso in cui sia disponibile un dataset di più storici.
Eventuali predizioni sono probabilistiche e hanno limiti teorici dovuti alla caoticità del dato.
NLP – Natural Language Processing
L’NLP è l’analisi di testi non strutturati. E’ utilizzata per chatbot, traduttori automatici, motori di ricerca e, in combinazione con tecniche di data mining, per l’analisi di commenti internet e notizie.
Oltre a metodi di machine learning tradizionali, anche in quest’ambito si stanno diffondendo negli ultimi tempi le reti neurali (in particolare il modello open source di modellazione linguistica BERT).
Data mining
Il data mining è la ricerca automatica dei dati desiderati a partire da un dataset caotico di grandi dimensioni (ad esempio Wikipedia). Può essere un’operazione preliminare alla costruzione di dataset per il training di algoritmi di NLP o di altro genere.