Apache Hadoop
O Big Data, devido às suas características já discutidas na postagem anterior: volume, velocidade e variedade, requer para seu manuseio uma tecnologia específica. A tecnologia de maior sucesso atualmente é o projeto aberto da Apache chamado Hadoop. Trata-se de uma biblioteca para sistemas computacionais com características de confiabilidade, escalabilidade, computação distribuída e capaz de lidar com o enorme fluxo de dados do Big Data, representando, atualmente, a primeira plataforma viável para análise desse tipo de dados. Hadoop vem sendo utilizado por muitos pioneiros estudiosos dessa área para gerar mais de 100 bilhões de recomendações semanais.
O que é feito pelo Hadoop é distribuir o armazenamento e o processamento de grande quantidade de dados por vários grupos ou clusters de servidores, utilizando um modelo de programação simples. O número de servidores em um cluster pode também ser dimensionado facilmente, conforme a necessidade, de 50 máquinas até cerca de 2000 ou mais. Enquanto os supercomputadores de processamento em larga escala são baseados em hardware de alto custo e com tolerância a falhas, o Hadoop detecta e compensa essas falhas de hardware ou outros problemas de sistema em nível de aplicação. Isso permite um alto nível de continuidade do serviço oriundo de clusters de servidores individuais, cada qual propenso a falhas. Processando uma vasta quantidade de dados através de uma estrutura de computação distribuída de grande magnitude e de baixo custo, o Hadoop torna-se cada vez mais uma proposta bastante viável. Tecnicamente, o software consiste de dois elementos chave. O primeiro chamado de HDFS - Hadoop Distributed File System - provê uma banda larga para um sistema de armazenamento baseado em cluster para computação de Big Data. O segundo é um arcabouço de processamento de dados chamado MapReduce. O MapReduce é baseado na tecnologia de busca do Google, que distribui ou mapeia grandes conjuntos de dados através de múltiplos servidores. Cada um deles então processa parte dos dados que lhe foram atribuídos, criando uma espécie de sumário. Os sumários criados em cada servidor são, então, reunidos formando o que é denominado de estágio Reduce. Essa abordagem permite um rápido pré-processamento de uma quantidade extremamente grande de dados, que é destilada antes de qualquer outro processamento posterior.
Atualmente muitos pioneiros do Big Data estão alimentando dados provindos de seus sistemas legados de TI no Hadoop, de modo a combinarem dados antigos e novos de novas maneiras. Entretanto, Hadoop está destinado a substituir muitos sistemas tradicionais de Data Warehouse e também muitos bancos de dados relacionais de estrutura rígida, e se tornar a plataforma dominante para muitos tipos de processamentos de dados.
Atualmente muitos pioneiros do Big Data estão alimentando dados provindos de seus sistemas legados de TI no Hadoop, de modo a combinarem dados antigos e novos de novas maneiras. Entretanto, Hadoop está destinado a substituir muitos sistemas tradicionais de Data Warehouse e também muitos bancos de dados relacionais de estrutura rígida, e se tornar a plataforma dominante para muitos tipos de processamentos de dados.
Muitas organizações não possuem os recursos e a expertise para implementar soluções utilizando Hadoop. Felizmente isso não representa um problema, pois existem soluções em nuvem disponíveis. Diversos provedores de serviços desse tipo estão disponíveis como a Amazon, Netapp e Google. Isso permite que empresas de todos os portes possam se beneficiar do potencial do processamento do Big Data. Também é possível utilizar uma grande quantidade de Big Data público, rodando todo o processo nas nuvens. Os web services da Amazon hospedam uma grande quantidade de dados públicos. Tais dados incluem repositórios como o censo dos Estados Unidos e do Japão, dados médicos, genomas e científicos.
Olhando à frente, vê-se que o progresso do Big Data poderá alavancar a evolução da inteligência artificial. Os computadores quânticos poderão melhorar o processamento do Big Data. Tais computadores processam e armazenam dados utilizando estados mecânicos do quantum e, em teoria, despontam como um mecanismo de excelência no processamento paralelo massivo de dados não estruturados.
Concluindo, o poder usufruir do processamento do Big Data, representará um diferencial competitivo para muitas empresas que, através das informações obtidas, poderão prever o comportamento de seus clientes, podendo oferecer o produto certo na hora certa.
0 comentários:
Postar um comentário