Projeto de Data Lake na arquitetura de Big Data

Veja como foi o Webinar apresentado pelo time de Especialistas da Mandic Cloud sobre Big Data & Estratégias Data Lake. Assista como o Big Data pode te auxiliar na tomada de decisão com inovação, agilidade e ganhos em seu negócio, através do Data Lake.

Assistir webinar

Confira perguntas e respostas sobre este assunto

1) Data Lakes são recursos para toda a organização, e não apenas a área de TI, a consolidação destas informações depende da demanda, O Skill do Time é prioritário, você enxerga um grande avanço na área agrícola? Tem algum case?

Temos acompanhado como o setor agrícola vem crescendo e amadurecendo no setor de tecnologia.Numa visão geral, as práticas Data & Analytics tem o foco na empresa como um todo, e não apenas na TI como um silo. Pensando em aplicações em Agrobusiness com arquitetura Data Lake, podemos considerar: centralização de dados de sensores, dados transacionais, sources externos (cotações, dados metereológicos), dados logísticos, imagens e áudio.

3) Pensando em Industria 4.0, gostaria de ouvir a sua opinião sobre a fusão de Ti com Tecnologia da Automação, analisando a grande demanda de consumo dos sensores de campo IOT.

IoT é um dos sources que impulsiona Big Data. Tipicamente os sensores geram grandes volume de dados que exigem técnicas avançadas de armazenamento e processamento paralelo distribuído. Associar Big Data a IoT permite criar visões muito interessantes, com inúmeras aplicações.

3) Tenho uma área de dados acostumada com SQL / SAS. Como faço para montar um Data Lake que seja facilmente consultado por essa equipe?

Umas das preocupações do time de Data Engineering é fornecer interfaces acessíveis aos times de Data Science. Tipicamente a interface mais utilizada é SQL, como você citou. Há algumas ferramentas no ecossistema Big Data que fornecem SQL para dados não estruturados, são os casos do Apache Hive, Presto, AWS Athena e Google BigQuery. Há ainda a possibilidade do uso de bases OLAP como armazenamento, que nativamente oferecem SQL.

4) já que bancos tradicionais aceitam json, blobs binários, etc., qual seria o principal argumento para alguém usar um data lake? há algum projeto onde o não uso do data lake inviabiliza uma aplicação?

Como de conhecimento, há bases relacionais e bases NoSQL ,com diferentes características e estratégias para armazenamento , recuperação e gestão de dados. Como indicador, evita-se utilizar blobs em bases relacionais, para não onerar processos de armazenamento e busca. Data Lake em si é uma arquitetura analítica, que consiste na centralização de todos os dados mapeados pela empresa. Não há uma restrição em onde guardar o dado, porém, por questões de custo, busca-se estruturas preparadas para grandes volumes de dados, como arquivos (Ex.: S3, Cloud Storage) e bases OLAP. O não uso de Data lake pode limitar a visão e extração de dados do seu time de Data Science.

5) Como colocar em prática um Data Lake?

O primeiro grande passo é identificar um mapa dos seus dados e identificar por onde o time de Data Science pode começar a ter insights, não é uma resposta simples, principalmente por que o Data Lake se concentra em trazer todos os dados, para não reproduzir o mesmo cenário de Data Warehouse. Após definir a arquitetura, por onde iniciar o desenvolvimento? Quais são os primeiros dados? Por onde eu começo a tirar o valor? Com isso definido, começamos a desenvolver integrações que já começam a fornecer esses dados para o time de Data Science, para a estrutura começar a se pagar. O primeiro grande passo é entender onde o dado reside e entender quais dados podem trazer valor, e já começar a trazer esses dados pra dentro do Lake.

6) Quanto tempo em média a minha empresa pode apresentar um crescimento na receita orgânica?

Essa resposta depende muito do seu modelo de negócio. Tudo depende da sua estrutura de dados, se a sua receita estiver pautada em sistemas transacionais, diria que é um tempo bem reduzido, agora se você quiser fazer uma análise que compreenda talvez estruturas externas de parceiros e outros tipos de sistemas dentro do seu conglomerado de aplicações, isso pode aumentar um pouco a complexidade, mas acredito que não seja uma métrica muito complexa para você extrair.

7) Quais, ou qual seria o caminho para formação acadêmica de um profissional Data Engineer ou Data Science?

A figura do Data Engineer é mais pautada no perfil de técnico, é um profissional que tem que ter um skill de programação, ter um conhecimento de lógica de programação, estrutura de dados, integrações e protocolos. Já o Data Science é um profissional que exige um conhecimento maior de modelo de negócio, estatística e matemática. Sobre formação acadêmica, não gostaria de restringir muito, porque depende muito do skill de cada um dos profissionais, eu já vi excelentes profissionais que tem capacidade de Data Science que são administradores por exemplo, então é um pouco difícil. Já o profissional de Data Engineer, ele é um profissional mais próximo da técnico da informação.

8) As ferramentas Open-Source apresentam algum tipo risco para segurança dos dados?

Risco pra segurança há em toda a arquitetura se não for bem pensada, sendo gerenciada ou não gerenciada. Segurança com Big Data é sempre um desafio. Eu preciso pensar em componentes de arquiteturas que complementam o meu stack, como criptografia, mecanismos de autorização e autenticação . A infraestrutura por ser Open-Source não oferece riscos em si, até mesmo por que como mencionei, as estruturas gerenciadas navegam sobre plataformas Open-Source. Então a resposta é :Open-Source não é um ônus quando penso em segurança, o que existe é a necessiidade de estruturar minha arquitetura.

9) Quanto custa um projeto de Data Lake?

Depende da sua estratégia de repositório, do número de integrações, do skill do seu time, então, não é um valor que se consegue mensurar como produto, Data Lake é uma estrutura arquitetural, seria análogo a questionar em quanto custa micros serviços, por exemplo. Sem uma análise, sem verificar quais são os adaptadores, onde estão esses dados, armazenamento, como esses dados vão ser consumidos, é difícil inferir em custo.

10) É uma tendência o Data Warehouse ser substituído pelo Data Lake?

As estruturas podem coexistir, as empresas que possuem apenas Data Warehouse deveriam estar pensando em Data Lake, mas você pode ter as duas estruturas coexistindo sem nenhum problema. Pode-se utilizar inclusive seu lake como source para o seu Data Warehouse, você pode usar seu Data Lake como estrutura para Data Science e utilizar seu Data Warehouse para Analycics, BI, Self-Service BI para os usuários de negócios desenvolverem dashboards e indicadores. o grande valor do Data Lake é você prover essa estrutura de todos os seus dados e não limitar a visão do seu Data Science, uma coisa não exclui a outra.

11) Como está o Brasil na questão da capacitação dos profissionais de Data Engineer e Data Science

Formar desenvolvedores de softwares já e desafiador, formar profissionais de dados é ainda mais desafiador, precisa contar com um skill bastante complexo profissionalmente. Temos conseguido grandes projetos justamente por essa dificuldade. O que nós fazemos? Nós temos uma universidade interna e tentamos cada vez mais capacitar os nossos colaboradores com essas novas ferramentas, mas a formação de profissionais de Data Engineer e Data Science seguem a tendência Brasil de escassez de profissionais de tecnologia. Outro complicador é o alto número de mudanças e novas ferramentas em stack de dados, isso força o profissional de além de ter o conhecimento técnico, ainda tem que ter bastante vontade para acompanhar o direcionamento que o mercado tem dado a cada dia.

Webinar: Big Data & Estratégias de Data Lake

Data Lake - Big Data Assistir o Webinar

Gostou do conteúdo? Tem alguma dúvida? Entre em contato com nossos Especialistas Mandic Cloud, ficamos felizes em ajudá-lo.

Como a arquitetura de Big Data com Data Lake pode ajudar sua empresa