#BienvenueSurNotreBlog

Pour apprendre et comprendre

Quels sont les différents types de Data ? (1/2)

Posted by BPCE Recrutement on 16 oct. 2018 10:55:34

La « data » est un sujet épineux. Tout d’abord, nous ne savons pas comment la nommer ? Faut-il employer le singulier ou le pluriel ? Auquel cas, devrait-on dire « datum » ? Est-ce que la data est la même chose que les données ? Faut-il une minuscule ou une majuscule ?


Il semble que le bon usage soit : « les Data »

Ensuite, est-il possible de classer les Data par types et catégories distinctes ? Découvrons comment les Data peuvent être regroupées pour mieux appréhender leurs usages.

 

1 - Big data

 

Au cœur de la Data Science se trouve le Big data, qui peut être défini comme des énormes volumes d'informations trop importants pour l’analyse et le traitement par une base de données standard (relationnelle).

Les Big data peuvent être définis comme des énormes volumes d'informations

L'IA, le pouvoir de prédiction de la donnée

Bien que les définitions des "Big data" puissent légèrement varier, toutes reposent sur des ensembles de données très divers, comprenant les données structurées, semi-structurées et non structurées. Leurs volumes vont des téraoctets aux zettaoctets. Il s'agit de jeux de données si vastes et variés qu'il est difficile, voire impossible, pour les bases de données traditionnelles de les capturer, les gérer et les traiter avec une faible latence.

Les big data sont la base de l'intelligence artificielle (IA). On peut utiliser l'IA pour prédire ce qui peut se produire et élaborer des orientations stratégiques basées sur ces informations.

 

2 - Data structurées, non structurées et semi-structurées

 

Toutes les data ont une forme de structure. La différence entre données structurées et non structurées est leur modèle et leur organisation prédéfinies.

Il n’y a encore pas si longtemps, les structures de données étaient assez simples et souvent connues avant même la conception de modèles de données. Ainsi les données étaient généralement stockées selon un format de lignes et de colonnes tabulaires propre aux bases de données relationnelles.

Cependant, l’avancée des applications Web, mobiles, sociales, de l’IA et de l’Internet des objets, associés à la programmation moderne orientée objet, a changé ce paradigme. Les données décrivant une entité (c'est-à-dire un client, un produit, une ressource connectée) sont gérées par le code en tant qu'objet, composé d’éléments profondément imbriqués. La structure de ces objets peut varier (polymorphisme). Et, avec les méthodologies de développement Agile, les structures de données changent rapidement à mesure que de nouvelles fonctionnalités d’application sont créées.

 

3 - Data horodatées

 

Les données horodatées sont un ensemble de données ordonnancées définissant la séquence selon laquelle chaque point de données a été capturé (heure de l'événement) ou collecté (temps traité).

Ce type de données est généralement utilisé lors de la collecte de données comportementales (par exemple, les actions de l’utilisateur sur un site Web) et constitue donc une véritable représentation des actions au fil du temps. Avoir un tel ensemble de données est inestimable pour les data scientists qui travaillent sur des systèmes chargés de prévoir les actions futures les plus probables, ou d'effectuer une analyse des parcours d'un utilisateur.

 

4 – Machine Data

 

En termes simples, les données machine sont les émissions numériques créées par les systèmes, les technologies et les infrastructures qui alimentent les entreprises modernes.

Lorsque nous nous roulons dans notre voiture connectée, répondons aux e-mails, accédons aux applications sur notre Smartphone, une multitude de données machine sont créés dans des formats imprévisibles et souvent ignorés.

Les infrastructures qui alimentent les entreprises

Les données des utilisateurs sont enregistrées en temps réel

Les données machine incluent des données provenant des interfaces de programmation d’applications (API), des services de sécurité, des fils de messages, des détails de communication ou de données de capteurs. Ces données machine sont précieuses car elles contiennent un enregistrement définitif en temps réel de toutes les activités et comportements des utilisateurs (applications, serveurs, réseaux et appareils mobiles).

Lorsqu’elles sont rendues accessibles et utilisables, les données machine peuvent aider les organisations à résoudre les problèmes, identifier les menaces et à utiliser le machine learning pour prédire les futurs bugs.

 

5 - Data spatio-temporelles

 

Les données spatio-temporelles décrivent à la fois le lieu et l'heure d'un événement - et peuvent nous montrer comment les phénomènes dans un lieu physique changent avec le temps.

« Les données spatiales sont le "spatio" dans spatio-temporel. Elles peuvent décrire des emplacements ponctuels ou des lignes plus complexes telles que des trajectoires de véhicules. Le tout forme des objets géographiques tels constitués de routes ou d’empreintes de bâtiments.

Les données temporelles contiennent des informations de date et d'heure dans un horodatage. Le temps valide est le temps réel écoulé. Le temps de transaction est le moment où un fait stocké dans la base de données était connu.

Les exemples d’utilisation de données spatio-temporelles incluent le suivi de véhicules en mouvement, la description de l'évolution des populations au fil du temps ou l'identification des anomalies dans un réseau de télécommunications.

 

6 – Open data

 

L’Open data sont des données qui sont librement accessibles à quiconque, pour utilisation (avec la possibilité d'appliquer des analyses). Ces données peuvent être publiées sans restriction de droits d'auteur ou de brevets. Elles doivent en revanche être partagées dans un format standardisé et avec une origine facilement traçable.

Est-ce que l’Open data va se développer au cours des prochaines décennies ? La création d’opportunités de création de richesse et d'innovation peut passer par là.

Il semble toutefois difficile pour certaines entreprises qui ont développé leurs activités en se basant sur la conservation de secrets de s’y mettre.

 

Retrouvez la suite de cette présentation sur les différents types de Data dans la deuxième partie de notre article

New Call-to-action

Big data Data science Data scientist

Partager