Apache Spark est devenu l’une des plates-formes open source les plus rapidement adoptées dans l’histoire. Lorsqu’une technologie se développe rapidement, cependant, elle peut souvent créer des défis pour l’équipe informatique. Spark ne fait pas exception. Aussi a ce jour, une grande partie des déploiements de Spark ont eu lieu sur des plates-formes de cloud public. À plus long terme, toutefois, le recours au cloud public pour Spark peut constituer une proposition limitée et a conduit les équipes informatiques a déployer Spark sur leurs infrastructures internes.
La plupart des équipes informatiques cherchant à intégrer Spark à l’interne démarrent généralement avec le système de fichiers distribués (HDFS) Hadoop sur stockage DAS (Direct-Attached Storage), qui constitue la solution de stockage de facto pour Spark. Mais DAS n’est pas une solution idéale à tous les niveaux .Tout d’abord, il est extrêmement cher, et pour une technologie en croissance aussi rapide que Spark, la mise à l’échelle du DAS peut être prohibitive. En outre, le DAS n’est ni efficace ni flexible car il associe étroitement le calcul et le stockage.
Aussi ce document explore les technologies de stockage alternatives pour déployer efficacement vos instances Spark en interne !