Gestão Estratégica Tecnologia

O que é business intelligence parte V/V final – Data Mining

Olá pessoal, espero que estejam todos bem e evoluindo nos estudos.

Hoje vamos fechar essa primeira série de posts sobre “O que é Business Intelligence”. Vou falar sobre Data Mining.

O que é:

Data Mining ou em português, mineração de dados é o processo através do qual podemos fazer uma varredura pelo banco de dados, em nosso caso pelo DW, para encontrar padrões de relacionamento entre os dados e gerar novos subgrupos de informações. Enfim o data mining é como um agregador e organizador de dados. Feita a varredura e o novo agrupamento das informações, são gerados dados estatísticos que irão aparecer nos relatórios gerados para a tomada de decisão em BI. Porém para que se possa utilizar este processo é necessário ter metas bem definidas para que seja possível extrair o conhecimento contido nos novos agrupamentos. Essas metas podem ser alcançadas por meio dos seguintes métodos:

  • Classificação: Classifica um item em uma ou várias categorias pré-determinadas. Uma boa técnica estatística para classificação é a análise descriminante. Essa técnica resume-se a descrições gráficas ou algébricas em uma ou mais classes pré-definidas. A ideia básica é substituir o conjunto original de diversas mensurações em um valor único, definido como conjunto linear delas. Esse tipo de análise permite comparar dois grupos e dizer se há alguma diferença entre eles e qual a natureza dessa diferença, separando-os em duas ou mais categorias mutuamente exclusivas.
  • Modelos de Relacionamento Entre Variáveis: Associa um item a uma ou mais variáveis de valores reais, consideradas variáveis independentes ou exploratórias. Técnicas estatísticas como regressão linear simples, múltipla e modelos lineares por transformação são utilizadas para verificar o relacionamento funcional que, eventualmente, possa existir entre duas variáveis quantitativas, ou seja, constatar se há uma relação funcional entre X e Y.
  • Analise de Agrupamento ou Cluster: Associa um item a uma ou várias categorias (clusters), em que as classes categóricas são divididas pelos dados, diferente da classificação na qual as classes são pré-definidas. Essa técnica detecta a existência e existência de grupos diferentes dentro de conjunto de dados.
  • Sumarização: Determina a descrição para um subconjunto. Utilizam-se medidas de posição e variabilidade, por exemplo. As funções de sumarização são frequentemente usadas na análise exploratória de dados com geração automatizada de relatórios, sendo responsáveis pela descrição compacta de um conjunto de dados. A sumarização é utilizada, principalmente, no pré-processamento dos dados, quando valores inválidos são determinados por meio do cálculo de medidas estatísticas – como mínimo, máximo, média, moda, mediana e desvio padrão amostral –, no caso de variáveis quantitativas, e, no caso de variáveis categóricas, por meio da distribuição de frequência dos valores.
  • Modelo de Dependência: Os Modelos de Dependência existem em dois níveis, estruturado e quantitativo e descreve dependências significativas entre as variáveis. Geralmente em forma de gráfico, o nível estruturado diz quais variáveis são localmente dependentes. Já o nível quantitativo utiliza escala numérica para informar o grau de dependência.
  • Regras de Associação: As Regras de Associação definem a relação entre os campos de uma tabela. Utiliza a derivação de correlação multivalorada que fornece subsídios para a tomada de decisão. Descobrir essas associações é, geralmente, o motivo das pesquisas e orienta análises, conclusões e evidenciação de achados da investigação.
  • Análise de Séries Temporais: Como o próprio nome diz esse método faz análise por tempo, então podemos comparar dados que foram coletados e analisa-los por hora ou por dia e formando um gráfico com essas informações. As séries são formadas por quatro padrões, tendência, variações clínicas, variações sazonais e variações irregulares.

E com esse terminamos esta série de artigos. Espero ter elucidado alguns métodos e objetivos do BI.

Obrigado e até o próximo artigo.

Bibliografia:

1

Daniel Rodrigues de Oliveira

Deixe seu comentário