BIG DATA

Depuis la création du pôle BIG DATA en fin d’année 2014, act4consulting a évolué et pu faire grandir son équipe de manière plus que satisfaisante. Voici quelques explications sur cette technologie qui a su apporter des solutions irremplaçables ainsi que sur le périmètre que nous cherchons à couvrir.

 

BIG DATA : une force

Les étapes d’un projet BIG DATA sont toutes aussi importantes afin d’arriver à un réel avantage concurrentiel.

Nos choix technologiques :

Hadoop is a software framework for processing large data-sets in a distributed fashion across many clusters. It provides huge support for massive storage of data and also limitless handling of job tasks in parallel. Hadoop is a open source software which is basically developed by the Apache Community. The Hadoop framework breaks data into chunks and stores it in the commodity hardware. The framework is written in Java. There are basically four modules that are included in the Apache’s Hadoop Framework. They are :

  1. Hadoop Common : Contains the libraries and other utilities used by the other Hadoop’s modules.
  2. HDFS (Hadoop Distributed File System) : a distributed file system that stores data on commodity hardware.
  3. Hadoop YARN : YARN stands for ‘yet-another-resource negotiator’- It is responsible for managing computer resources on the cluster.
  4. Map-Reduce: A programming model for large-scale data processing

 

Cloudera est le leader des logiciels et services basés sur Apache Hadoop et offre une puissante plateforme de données de nouvelle génération permettant aux entreprises et organisations d’examiner toutes leurs données - structurées ainsi que non structurées - et poser des questions plus significatives sur un grand volume de données pour des analyses uniques et à la vitesse de la pensée.

 

HDP (Hortonworks Data Platform) est la plate-forme de données de Hortonworks. HDP est basée sur Hadoop et comprend, entre autres le système de fichier distribué (HDFS), MapReduce, Pig, Hive, HBase et Zookeeper. Cette plate-forme est utilisée pour analyser, stocker et manipuler de grandes quantités de données. En voici les principales caractéristiques :

Une solution intégrale et ouverte HDP est structurée, développée et construite complètement en Open-source.
Prête pour les entreprises HDP comprend la sécurité, la gouvernance et la fonctionnalité des opérations de données qui fonctionne sur les technologies des composants et intègre des systèmes préexistants EDW, SGBDR et MPP.
Entièrement intégrée La plate-forme de données Hortonworks s’intègre et augmente vos applications et systèmes existants afin que vous puissiez profiter de Hadoop avec des changements minimes aux architectures de données existantes et des ensembles de compétences. Déployer HDP en nuage, sur site ou à partir d'un appareil pour Linux et Windows.