Com um mundo cada vez mais digital, vivemos um momento em que os dados chegam às organizações através de diversas fontes, num volume absurdo. Transformá-los em recurso valioso para o negócio ainda é um desafio para empresas de todos os tamanhos. E a gestão de dados está na pauta das prioridades estratégicas do setor de TI da maioria delas.
Estamos na era dos dados, definitivamente! A grande questão é: – Como transformar dados em sabedoria para o negócio?
Usar os dados para conhecer melhor o comportamento do negócio e tomar decisões estratégicas tornou-se questão de ordem no ambiente corporativo. Basta ver como Business Intelligence (BI), Data Analytics, Data Science e Big Data são termos do momento.
Mas, gerenciar dados de forma eficaz requer estratégias confiáveis para acessar, integrar, limpar, controlar, armazenar e preparar dados para análise. E uma boa gestão de dados inclui metodologia, processo, profissionais e ferramentas.
Neste post vamos falar primeiro sobre sua importância para o negócio. Em seguida, sobre o desafio de TI para implementar uma boa solução para armazenamento e processamento desse volume todo de dados. E, por fim, sobre técnicas e ferramentas que existem no mercado para fazer essa gestão de dados.
O que é gestão de dados?
A gestão de dados é um conjunto de práticas que controla e administra os dados criados e coletados por uma organização para que possam se tornar um recurso estratégico para o negócio. Ela acompanha o dado ao longo de todo o seu ciclo de vida, desde sua coleta, na origem, até sua visualização ou descarte.Coleta ➡ Armazenamento ➡ Limpeza e Enriquecimento ➡ Curadoria ➡ Integração ➡ Análise e Processamento ➡ Visualização
Aqui cabe uma observação, dados são diferentes de informações. Dados são fatos em uma forma primária que podem ser armazenados em algum meio. Informações são fatos organizados de modo a produzir um significado. A interpretação dos dados é que gera a informação. Dessa forma, a gestão de dados atua na entrada e a gestão da informação na saída dos processos empresariais.
A figura abaixo representa as funções da gestão de dados do DMBOK®, o guia de boas práticas em gestão de dados feito pela DAMA. Através dela dá para ter uma noção de como seu escopo de atuação é abrangente e envolve várias funções integradas.
O desenvolvimento de uma arquitetura de dados costuma ser a primeira etapa. A partir dela temos um plano para os bancos de dados e demais plataformas de dados que serão implantadas.
Depois disso, para girar a roda, precisamos de algumas outras funções como a modelagem, operação e integração dos dados. Tudo dentro de um programa de governança de dados bem definido, incluindo toda parte de qualidade e segurança.
Acima de tudo, o mais importante aqui é entender que o objetivo da gestão de dados é garantir que os dados nos sistemas corporativos sejam precisos, disponíveis e acessíveis.
Importância da gestão de dados para o negócio
“Dados são o novo petróleo”, já diria Clive Humby, matemático londrino especialista em ciência dos dados.
A frase mexeu com o mundo dos negócios e representa bem o papel que os dados vêm assumindo nas empresas atualmente. Cada vez mais, eles são vistos como um ativo corporativo que pode ser usado para tomada de decisões estratégicas de negócio.
Portanto, como qualquer ativo da empresa, deve ser gerenciado. Não adianta receber o dado e não torná-lo qualificado e acessível para uso. No fim, o importante não é a fonte, qualidade ou formato do dado, mas o que você faz com ele.
Quanto melhor for a capacidade de coletar, armazenar, processar e analisar esses dados, mais conhecimento sobre o negócio se tem.
As empresas estão captando volumes cada vez maiores de dados, com uma variedade cada vez maior de tipos de dados. A internet está aí para isso! Sem uma boa gestão, esses ambientes podem se tornar pesados e difíceis de navegar.
Por fim, a importância da gestão de dados cresceu bastante com o número crescente de requisitos de conformidade regulatória aos quais as empresas estão sujeitas atualmente. Isso inclui, por exemplo, a privacidade de dados e leis de proteção, como a LGPD (Lei Geral de Proteção de Dados) que entrou em vigor recentemente.
Qual o volume de dados manuseados na era dos dados?
“Mais de 59 zetabytes (ZB) de dados serão criados, capturados, copiados e consumidos no mundo este ano”. Esta foi a previsão da IDC para 2020! Além disso, a estimativa é que o crescimento continue até 2024 com uma taxa composta de crescimento anual (CAGR) de 26% em cinco anos.
O que indica que chegaremos lá com cerca de 149 zetabytes de dados. Bem em conformidade com o estimado a dois anos atrás: 50 zetabytes em 2020 e 175 zetabytes de uso de dados até 2025.
A IDC ainda afirma que “a quantidade de dados criados nos próximos três anos será maior do que os dados criados nos últimos 30 anos, e o mundo criará mais de três vezes os dados nos próximos cinco anos do que nos cinco anteriores”.
Certamente, é um volume de dados assustador! Difícil até de imaginar, não é mesmo?
O desafio de TI para implementar uma gestão de dados
Embora a gestão de dados seja compartilhada com as áreas de negócio, ainda é de TI a maior responsabilidade. Afinal, a maior parte do trabalho necessário para que ela aconteça ainda é feito pela equipe de TI.
Olhando para os números do item anterior, a primeira pergunta que o profissional da área faz é: “como armazenar e manusear todos esses dados?”. E é bem por aí mesmo. Os analistas dizem que o grande desafio para a área de TI é o desenvolvimento de ferramentas com maiores capacidades de armazenamento e velocidades de acesso.
Consequentemente, o investimento maior agora deve ser em sistemas de armazenamento mais rápidos.
Ou seja, não é somente com o “tamanho” dos servidores de banco de dados que temos que nos preocupar. Mas com a velocidade com que seus dados são disponibilizados para uso também. Portanto, a definição de uma infraestrutura de banco de dados eficiente é fundamental.
O banco de dados é a plataforma mais comum usada para armazenar dados corporativos. É uma estrutura computacional, um sistema de arquivos, que funciona como uma “biblioteca”. Em outras palavras, ele organiza os dados para que possam ser acessados, atualizados e gerenciados.
Uma vez configurado, deve ser monitorado para garantir desempenho. O usuário tem que ser capaz de acessar os dados na hora que precisar, com a velocidade que precisar. Portanto, sua administração é função central do gerenciamento de dados.
7 técnicas e ferramentas para gestão de dados
Se a empresa quer investir na gestão de dados, sua área de TI tem que estar familiarizada com algumas das tecnologias, ferramentas e técnicas que podem ser usadas no processo.
1. Sistemas de Gerenciamento de Banco de Dados
A principal tecnologia usada para implantar e administrar bancos de dados é um Sistema de Gerenciamento de Banco de Dados (SGBD). O SGBD é um conjunto de software e ferramentas que faz a interface entre os bancos de dados, aplicativos que os acessam e usuários finais.
Tecnicamente falando, é um sistema de software que usa um método padrão para catalogar, recuperar e executar consultas sobre dados. Ele gerencia os dados recebidos, organiza eles no banco de dados e oferece maneiras para usuários ou programas modificá-los ou extraí-los.
O SGBD mais comum é o desenvolvido para bancos de dados relacionais. São aqueles que organizam os dados em tabelas com linhas e colunas, e usam as chaves primárias e estrangeiras para conectar os registros relacionados em tabelas diferentes.
São construídos em torno da linguagem de programação SQL e um modelo de dados rígido adequado para dados estruturados.
Até algum tempo atrás, quase todos os dados aproveitados pelas empresas eram estruturados. Com o desenvolvimento da tecnologia, popularização da internet e surgimento das redes sociais, o número de dados gerados através de mídias eletrônicas cresceu exponencialmente.
Cliques da internet, curtidas e comentários nas redes sociais, e-mails, vídeos, imagens, textos diversos, etc. Estes são dados não estruturados e não podem ser organizados em tabelas.
Como opção para esses diferentes tipos de origem dos dados, surgiram os bancos de dados NoSQL. São os que não impõem requisitos rígidos para os modelos de dados e podem armazenar também dados não estruturados e semiestruturados.
2. Big Data
É um termo do momento que está presente em nosso dia a dia, mesmo sem percebermos. Surgiu para resolver o desafio de gerenciar crescentes volume, velocidade e variedade de dados, que não pode ser resolvido com bancos de dados tradicionais.
É praticamente impossível para nós humanos organizarmos milhares de dados sem a ajuda da tecnologia.
Segundo Gartner: “Big Data são grandes quantidades de dados sendo gerados em alta velocidade por uma multiplicidade de fontes”.
Ambientes de Big Data geralmente usam os bancos de dados NoSQL e são construídos em torno de tecnologias de código aberto, como Hadoop, capaz de armazenar dados de qualquer tipo, com alto poder de processamento.
O Big Data se tornou essencial para os negócios atualmente. Ele viabiliza estudos de mercado mais assertivos e identifica desejos e necessidades de clientes antes mesmo que eles peçam. Como você acha que chegam as sugestões de sites de compras, como a Amazon, por exemplo?
3. Data Warehouses e Data Lakes
A função do armazenamento de dados é agrupar arquivos e informações relevantes em um ambiente seguro e de fácil acesso. Entender as melhores maneiras de armazená-los é fundamental numa gestão de dados. É aqui que entram o Data Warehouse e o Data Lake.
Ambos são repositórios ou armazéns de dados alternativos para gerenciar dados analíticos.
O Data Warehouse é o método mais tradicional, usado para armazenar as informações de uma empresa de forma consolidada. Normalmente se baseia em um banco de dados relacional e armazena dados estruturados de diferentes sistemas operacionais. É um espaço que recebe dados tratados e padronizados.
Ou seja, ele unifica todos os sistemas da empresa de modo a formar uma base única para montagem de relatórios. Portanto, é o núcleo dos sistemas de informações gerenciais e apoio à decisão das principais soluções de Business Intelligence (BI) do mercado.
Já o Data Lake é usado para armazenar um número elevado de dados brutos de categorias diferentes em um só lugar. São os “pools de Big Data” para uso em modelagem preditiva, aprendizado de máquina e outros aplicativos analíticos avançados.
Nesse caso, os cientistas de dados e outros analistas, normalmente, fazem seu próprio trabalho de preparação de dados para usos analíticos específicos.
4. Cloud Solutions
De forma simplificada, Cloud Computing (computação em nuvem) é a entrega de serviços de computação através da Internet. Esses serviços incluem servidores, armazenamento, bancos de dados, redes, software e análises, que, estando na nuvem, podem ser acessados remotamente.
É um recurso relativamente novo, tem cerca de uma década. Elimina a necessidade das empresas de investir em recursos de TI como racks de servidores, eletricidade permanente, segurança de acesso, backup, manutenção e atualização de software. Com isso, o uso de datacenters locais tem diminuído cada vez mais.
A nuvem oferece mais flexibilidade sobre os tipos de dados que podem ser armazenados. Ela armazena dados de maneira menos estruturada do que os bancos de dados convencionais. Assim, cada vez mais, os sistemas de Big Data estão sendo implantados na nuvem, usando armazenamento de objetos.
Cloud Computing e Big Data juntos podem vir a resolver o problema dessa era dos dados. Ou seja, como tornar o enorme volume de dados acessível ao usuário de forma mais assertiva e rápida possível.
Mas os desafios ainda são grandes. A migração para bancos de dados em nuvem e plataformas de Big Data pode ser cara e complicada para empresas que precisam mover dados de processamento de sistemas locais existentes.
Aguardemos cenas dos próximos capítulos!
5. Modelagem de dados
Os modelos de dados são criados para mapear os fluxos de trabalho e os relacionamentos em conjuntos de dados para que as informações possam ser organizadas de forma a atender às necessidades de negócio. Ou seja, ela desenha os relacionamentos entre os elementos de dados e mostra como eles navegam através dos sistemas.
É um processo crucial para gestão de dados.
Modelar dados é o mesmo que desenhar as entidades lógicas e suas dependências lógicas entre as unidades. Técnicas comuns para modelar dados incluem o desenvolvimento de diagramas de relacionamento de entidade, mapeamentos de dados e esquemas.
Um banco de dados mal modelado pode comprometer sua performance e manutenção.
6. Integração de dados
A técnica de integração de dados mais usada é a ETL (extract, transform and load ou extrair, transformar e carregar):
- Extração: extrai dados de diferentes sistemas de origem respeitando suas características.
- Transformação: converte os dados em um formato consistente para apresentá-los com uma visão mais unificada e padronizada.
- Carregamento: carrega os dados integrados num local seguro (Data Warehouse, Data Lake ou outro sistema de destino).
Uma variação dessa técnica é a ELT (extract, load and transform ou extrair, carregar e transformar) que deixa os dados em sua forma original quando carregados na plataforma de destino. É comumente usada na integração de dados em Data Lakes e outros sistemas de Big Data.
Ambas são processos de integração em lote, executados em intervalos programados.
7. Governança de dados
Um programa de governança de dados bem projetado define políticas de uso e procedimentos para garantir que os dados sejam consistentes entre todos os sistemas da organização. Consequentemente, é fator crítico na estratégia de gerenciamento de dados, principalmente nas organizações com dados distribuídos em diversos sistemas.
Está intimamente ligado aos esforços de melhoria da qualidade dos dados.
As verificações de qualidade são feitas para identificar erros e inconsistências de dados. As técnicas utilizadas são limpeza e validação de dados. O primeiro corrige erros de dados modificando ou excluindo dados inválidos, e o segundo verifica os dados em relação às regras de qualidade predefinidas.
Não adianta investir em ferramentas, tecnologias e aplicativos variados, se os dados que estão armazenados não têm qualidade e credibilidade.
Transforme seus dados em sabedoria de negócio!
São muitos os desafios que a TI tem que enfrentar para implantar uma gestão de dados na empresa. – É fato! Todas as engrenagens devem girar corretamente para funcionar. Desde o processamento e armazenamento até a governança de como os dados são formatados, visualizados e usados.
Mas é fato também que a gestão de dados não é somente o “surto da vez”. As empresas estão se conscientizando cada vez mais da importância de se fazer um gerenciamento eficaz dos dados. E, assim, garantir o uso inteligente desses dados para nortear as decisões estratégicas e aumentar vendas.