Aller au contenu

Le big data et Hadoop


pere_vert

Messages recommandés

Membre, Posté(e)
pere_vert Membre 3 856 messages
Baby Forumeur‚
Posté(e)

Bonjour, Bonsoir,

Ce sujet est destiné à donner un bref aperçu de ce qu'est le Big Data, avec des mots simples, mais aussi à vous donner quelques unes des technologies les plus communément utilisées afin de vous donner des pistes pour vos éventuelles recherches.

Comme prévu, ça sera bref :-)

Définition en premiere approche du Big Data : stockage et traitement d'un grand volume de données qui peuvent être structurées (typiquement les données d'un tableau) ou non structurées (par exemple des images).

3 principales propriétés sont associées au Big Data, on parle aussi des 3V : Volume, Vitesse et Variété.

On ajoute parfois deux autres propriétés : véracité et valeur.

En bref, avoir des données sans information utile à en tirer c'est faire du Big n'importe quoi :)

À propos des technologies et d'une architecture typique (au sens informatique) d'une solution Big Data :

Hadoop (qui s'est tres fortement inspiré des travaux de Google sur le sujet) a développé deux notions clés pour pouvoir stocker et traiter des zetaoctets de données (c'était juste pour faire le malin que j'ai utilise ce mot, en pratique traiter des petaoctets ou rien que des téraoctets peut être deja très compliqué)

Bref, Hadoop, un système développé en java contient deux briques principales a son lancement : le HDFS qui est un système de fichier distribué sur plusieurs serveurs

Et un système de traitement s'appelant MapReduce (fusion des mots Mapping et Reduce).

J'en ai perdu certains ? Désolé. En mots simples, cette technologie permet de paralléliser les traitements, et le stockage est lui aussi en quelque sorte devenue parallélisable (distribué).

L'avantage c'est qu'on n'a plus nécessairement besoin d'investir dans de supers d'ordinateurs de ouf.

On peut cumuler les capacités de pleins de serveurs peu chers, les assembler dans un même réseau (cluster) et on obtient "une" super bécane.

En plus, les donnees apres avoir ete decoupee en blocs, elles sont répliquees, donc si un des serveurs tombe, pas grave, un autre prend la relève.

Et si on veut étendre la capacité du cluster, il nous suffit d'ajouter quelques serveurs.

Concernant MapReduce, on cherche donc à segmenter une opération pour que chaque bout puisse s'exécuter sur une machine différente.

Par exemple, compter le nombre de chacun des mots dans un texte consistera à d'abord rassembler les mots identiques dans un même panier, puis on comptera le contenu de chaque oanier.

À noter que tous les algorithmes ne sont pas parallélisables, mais de nouveau système se greffant sur Hadoop permettent de profiter de ces architectures horizontales.

Pour info et donner des pistes à vos éventuelles recherches comme annoncé plus haut : le framework spark est très en vogue.

Il permet de développer dans plusieurs langage (python, r, java, scala) mais à été lui même développé en Scala.

Spark permet de plus de travailler en quasi temps réel.

En fait, il y a énormément de services associés autour d'un cluster Hadoop.

Deux distributeurs principaux proposent des solutions packagees (gratuites si pas besoin de support commercial) : cloudera et hortonworks.

De nouveaux métiers apparaissent autour de ces nouvelles capacités.

Le plus emblématique est celui de data scientist, il a trois casquettes qui font qu'on le présente souvent comme une perle rare : il est doué en maths et stats, doué en informatique du moins débrouillard et curieux, et il a une vision business et métier lui permettant de bien comprendre les enjeux et déterminer les facteurs influents afin qu'il puisse developper dds modeles prédictifs.

D'autres métiers gravitant autour de la vie privée et du respect des réglementations apparaissent aussi.

En espérant que ça donne envie à quelques jeunes de ne pas négliger les maths :)

Lien à poster
Partager sur d’autres sites

Annonces
Maintenant

Archivé

Ce sujet est désormais archivé et ne peut plus recevoir de nouvelles réponses.

×