On se place dans la perspective d'une analyse de grande quantités de données disponible immédiatement. On a vu comment ces données pouvaient être réparties dans la vidéo précédente à l'aide d'un système de fichiers distribué ou une base de dponnées distribuée. On profile alors de cette distribution pour analyser les shards de données indépendemment les un des autres. Mais comment faire des relations entre ces données. C'est le propos de l'approche Map/Reduce, telle que matérialisées d'abord dans l'outil Apachez Hadoop MapReduce, ou dans l'outil Apache Spark, décrits ici.
Mots clés : apache spark big data cloud cloud computing hadoop map/reduce mapreduce spark
Informations
- Fondement Frederic (frederic.fondement@uha.fr)
- 17 septembre 2020 17:54
- Cours
- Français
- Master 2ème année