Receba conteúdo diretamente no Messenger Podcasts exclusivos, direto no Spotify

Tecnologias e competências para a Gestão de Dados

Cristina Cruz | 22 de junho de 2017

Os ambientes de dados atuais são moldados por diversas tecnologias e abordagens, responsáveis pela arquitetura empresarial de hoje. O desafio está em uni-las com o objetivo de conferir às empresas a visão de uma organização baseada em dados.

Hoje, as empresas direcionadas por dados incluem nuvem, data lakes, análises em tempo real, microservices, containers, Spark, Hadoop e tendências de open source.

Quer conhecer mais sobre essas tecnologias e competências fundamentais para a Gestão de Dados? Preparamos as principais informações que você deve ter sobre esse assunto. Confira abaixo.

Nuvem

A computação em nuvem vem ganhando espaço há cerca de uma década, mas só nos últimos três anos passou a ser considerada como solução segura para ambientes de dados. A adoção da nuvem tem sido a opção das organizações para alcançar novos níveis de agilidade, aumentar a velocidade da inovação e melhorar as taxas de tempo de mercado.

A capacidade de adaptar aplicativos para novas geografias, diminuir os investimentos em recursos para Data Centers locais e agilizar a entrega de aplicativos são algumas das vantagens da nuvem que começaram a ser observadas pelas empresas. A rápida expansão de infraestrutura é outro benefício de destaque, permitindo à nuvem pública armazenamento e computação praticamente ilimitados. Há ainda a economia de custos, pois as empresas são cobradas com base nos recursos usados.

Para empresas menores, a nuvem é a plataforma mais escolhida. A maioria das startups adota a nuvem em 100%, já que é mais flexível do que manter um servidor local no escritório, por exemplo.  Mas é importante não associar a nuvem apenas a serviços de nuvem pública. Ela tem papel fundamental também para os Data Centers locais, aproveitando todos os sites físicos disponíveis. São muito usados os modelos híbridos, em que serviços ou recursos são gerenciados em alguma combinação de nuvem local e pública.

Data Lakes

O conceito de data lakes é ter um único repositório dentro da empresa para armazenar todos os dados brutos aos quais ela quer ter acesso. O modelo possibilita análise em tempo real com visão praticamente ilimitada dos dados. Especialistas da indústria estão otimistas quanto ao conceito de data lakes, considerando-o uma extensão natural da decisão da empresa de embarcar em uma jornada de dados.

Na construção data lakes, o Hadoop é o mais comumente utilizado, mas não é a única solução disponível. Embora ele tenha tornado o data lake possível, também apresenta desafios, como: potencial de se tornar um despejo de dados, problemas de segurança, falta de conjuntos de habilidades e desempenho lento, fazendo com que as empresas menores ou menos ágeis não tentem ou desistam do Hadoop.

Segundo especialistas, Spark tem uma nova visão sobre data lakes. Ele traz algoritmos de performance e machine learning, que permitem o tão desejado data munging – processo que unifica conjuntos de dados bagunçados e discrepantes em um formato limpo comum. Também funciona bem na nuvem, permitindo que os dados no armazenamento sejam processados ​​com uma velocidade nunca antes vista.

Tempo Real

Quais são as melhores tecnologias para permitir a análise em tempo real? Para Dinesh Nirmal, vice-presidente de desenvolvimento de análises da IBM, a resposta é Spark. “Ele simplifica a análise de grandes conjuntos de dados, permitindo que mesmo aqueles que não possuem títulos avançados de ciência de dados acessem informações de forma mais rápida e confiável do que nunca”, explicou.

O Spark é atraente para ambientes em tempo real, já que os usuários podem calcular as análises muito rapidamente, o que é importante nas aplicações voltadas para o cliente de hoje. Outro facilitador em tempo real é o Apache Kafka, que fornece uma maneira padrão de transferir dados de um contexto de aplicação para um broker, evitando preocupações sobre como disponibilizá-los para os consumidores.

Um benefício comum entre ambos – Kafka e Spark– é a capacidade de suportar a transmissão de dados em tempo real, o que reduz significativamente o atraso entre o momento em que os dados entram no sistema e a disponibilidade dos resultados de ETL e dos processos analíticos.

Microservices e Containers

Os containers e os microservices desempenham um papel fundamental para a agilidade em nuvens híbridas ou ambientes locais. Os desenvolvedores precisam dedicar muito tempo configurando os ambientes que suportam sua aplicação, instalando software, configurando infraestrutura e movendo aplicações entre desenvolvimento, testes e sistemas de produção. Os containers solucionam este desafio, padronizando o modo como os desenvolvedores organizam as aplicações, tornando esse processo mais simples e permitindo mais tempo para o que eles realmente querem fazer: criar.

Por sua vez, os microservices contribuem para a agilidade, permitindo a formação de equipes menores. As grandes bases de código monolítico, que tradicionalmente alimentam aplicações corporativas, dificultam o lançamento rápido de novos serviços. Por isso, os microservices ganharam destaque nos últimos anos.

É preciso lembrar que containers não são necessários para microservices nem microservices são necessários para containers. Embora ambos sejam frequentemente usados ​​em conjunto nas modernas aplicações de web, mobile e IoT.

Spark versus Hadoop

Enquanto o Hadoop surgiu como uma estrutura popular de open source nos últimos anos, outro concorrente, o Spark, vem roubando a cena. Empresas que estão criando novos projetos de dados grandes tendem a escolher o Spark para o processamento de dados grandes, considerando que ele funciona melhor, é mais fácil de gerenciar e fornecer funcionalidades adicionais, como o machine learning.

Os projetos baseados em Hadoop parecem fracassar lentamente e são substituídos por serviços baseados em nuvem, mais adequados às tarefas. O Spark, por outro lado, está ganhando espaço.

Alguns especialistas acreditam que Spark e Hadoop podem coexistir e trabalhar em sinergia. “Nós não vemos isso como um debate Spark versus Hadoop. Acreditamos que o Spark é mais eficaz quando opera como parte de uma plataforma Hadoop. Com a plataforma sob responsabilidade do Hadoop, os cientistas de dados podem ser mais produtivos, concentrando-se apenas na construção de aplicações preditivas”, disse Syed Mahmood, diretor de marketing de produtos da Hortonworks.

Open Source

Open source também está ganhando força e uma série de projetos do Apache tornou-se um ponto de apoio nas empresas. “Muitas vezes, vemos diferentes tecnologias serem trazidas para abordar o desenvolvimento de aplicações, gerenciamento de dados e desafios operacionais”, disse Ravi Mayuram, vice-presidente sênior de produtos e engenharia da Couchbase.

Mahmood vê outra solução: o Apache Ranger, que também ganha força entre as empresas, cada vez mais preocupadas com o acesso seguro e autorizado aos dados, já que ele pode ser utilizado em toda a organização, ao mesmo tempo em que mantém informações confidenciais seguras.

O Apache Ranger está sendo usado por algumas das maiores empresas em todas as indústrias para fornecer uma estrutura de autorização, auditoria, criptografia e capacidades de gerenciamento de chaves em uma grande infraestrutura de dados. Outras ferramentas de open source incluem Apache Atlas, que aborda gerenciamento de dados e governança, e Apache Zeppelin, que garante o acesso democratizado aos dados e possibilita aos cientistas de dados usar uma ferramenta baseada na web para explorar dados, criar modelos e interagir com tecnologias de machine learning.

Blockchain

Há um papel cada vez maior para o blockchain – sistema de registros que garante a segurança das operações realizadas por criptomoedas – nos ambientes empresariais de hoje. Embora a direção e o impacto desta tecnologia ainda não estejam claros, o blockchain promete interromper muitas abordagens de gerenciamento de dados.

“A tecnologia blockchain se destaca na construção de confiança entre grupos de entidades receosas quanto à segurança”, disse Jerry Cuomo, vice-presidente de tecnologia blockchain da IBM. “Se todos pudessem confiar uns nos outros, não precisaríamos de blockchain. No entanto, as empresas têm relações B2B que precisam estar baseadas em sistemas que garantam segurança. É aí que o blockchain é necessário”, completou.

E, agora, está por dentro das novidades que podem melhorar a Gestão de Dados da sua empresa? Já adota alguma dessas tecnologias? Conte-nos aqui embaixo nos comentários.

Posts relacionados:

Para melhorar sua experiência,
selecione um perfil de conteúdo: