Governança ITIL Projeto

Gerenciamento de Incidentes

Incidente é todo evento que não faz parte da rotina no modelo de gestão de um serviço, podendo causar uma interrupção ou redução na qualidade do serviço prestado.

Gerenciar incidentes é garantir que esses eventos atípicos sejam solucionados o mais rápido possível, reduzindo o impacto e garantindo que se atendam os níveis de serviço preestabelecidos entre empresa e cliente.

Os incidentes podem ocorrem frequentemente e, algumas vezes, são parecidos, e as equipes responsáveis não têm o habito de documentar os procedimentos nem trocam informações e como resultado têm-se horas gastas tentando encontrar soluções que já foram utilizadas anteriormente.

Para melhorar essa questão é possível elaborar modelos de atendimento para incidentes conhecidos.

Os Modelos de Incidentes são um conjunto de procedimentos realizados pelo suporte que irá agilizar a identificação de ações a serem tomadas ou orientam no direcionamento para a equipe competente.

Os principais procedimentos de um Modelo de Incidente segundo FREITAS1  são:

  1. Os passos predefinidos para atender os tipos de Incidentes;
  2. A ordem cronológica dos passos;
  3. Responsabilidades definidas;
  4. Prazos de atendimento;
  5. Procedimentos de escalação para outras equipes se necessário;
  6. Realizar o levantamento para correção de falha com todas as evidências necessárias sobre o incidente.

Vamos verificar também as principais atividades do Gerenciamento de Incidentes:

Identificação e Registro do Incidente: os incidentes podem ser identificados pela própria equipe de suporte ou pelo usuário que irá informar o suporte através dos canais de contato disponibilizados pela empresa.

Todos os incidentes devem ser registrados em uma ferramenta de Registro e Acompanhamento de incidentes contendo todas as informações importantes para o atendimento do incidente;

Categorização do Incidente: os incidentes podem ser categorizados por projetos. A categorização serve para esclarecer o tipo de atendimento requerido e para qual equipe o incidente deve será encaminhada;

Priorização do Incidente: os incidentes são classificados quanto ao seu impacto sobre o negócio assim como a urgência de sua solução;

Investigação e Diagnóstico do Incidente:

  1. Identificar o que está fora da operação padrão de um serviço;
  2. Entender a cronologia dos eventos que levaram ao incidente;
  3. Confirmar as informações que levem à classificação de priorização;
  4. Identificar os eventos que podem ter iniciado o incidente;

Escalação do Incidente: após o diagnóstico, se o analista de suporte não conseguir aplicar a solução de contorno ou resolução, o incidente deve ser encaminhado para uma equipe com condições de resolver o incidente;

Resolução e Recuperação do Incidente: resolver o incidente utilizando uma Solução de Contorno ou Resolução.

Fechamento do Incidente: após a resolução do incidente, a equipe de suporte verifica se o incidente foi resolvido e se o usuário está satisfeito com a solução aplicada.

Caso o usuário informe que o incidente não foi resolvido, o Analista de suporte escala o incidente de volta para a equipe que o estava tratando.

Caso este processo esteja pouco claro  ou não automatizado, é possível que sejam perdidas informações durante o atendimento ao cliente. Prazos não sejam bem estipulados.

E o cliente não será, evidentemente, bem atendido. Logo, usar de boas praticas para o gerenciamento de incidentes é fundamental para entregar benefícios ao seu cliente.

É comum encontrar incidentes reportados que poderiam se encaixar apenas como um evento. Acredito que esses itens não deveriam ser tratados como incidentes, mas sim analisados de forma pró-ativa.

Um evento é algo que pode indicar alguma coisa que não está funcionando corretamente e que pode acarretar em um incidente.

Essa mudança é importante porque o tratamento de um incidente é mais complexo que o de um evento, e com isso o processo de gerenciamento de incidentes ganha em agilidade.

É bem comum em empresas tratar os eventos como incidentes de baixa criticidade e dependendo do tamanho da organização isso até faz sentido, mas nos casos de empresas maiores, essa mudança reduz em mais de 30% os números de incidentes reportados.

Conclusão

O gerenciamento de incidentes será mais eficiente quanto os passos que vimos aqui forem tratados como um ciclo que busca simultaneamente resolver um incidente, e satisfazer o cliente, pois este incidente pode se tornar um problema se não resolvido e este será o assunto do  meu próximo artigo onde entenderemos mais sobre a rotina de gerenciamento de problemas, identificados no dia-a-dia.

Referências

  1. FREITAS, Marcos André dos Santos. Fundamentos do gerenciamento de serviços TI: preparatório para a certificação ITIL® V3 Foundation. Rio de Janeiro: Brasport, 2010. 376 p.  
Rafael Henrique

Colaborador do Portal Projetos e TI.

Trabalhei por 03 anos na área de TI atuando com suporte, relacionamento com o cliente e vendas.

Atualmente trabalho com Compras e contratações para uma fundação de caráter privado, sem fins lucrativos e com autonomia administrativa e financeira.

Sou diletante na área de gestão de Projetos e supply chain.

Estou cursando Engenharia de produção.


Comentários

3 thoughts on “Gerenciamento de Incidentes”

    1. Ola Emerson,
      Incidente é todo evento que não faz parte da rotina no modelo de gestão de um serviço, já Problema é a causa desconhecida de um ou mais incidentes. Enquanto o Gerenciamento de Incidentes é responsável por restaurar o Serviço contratado o mais rápido possível, o Gerenciamento de Problemas é responsável por encontrar a causa raiz dos incidentes que afetam a operação normal do serviço.
      Abaixo segue exemplos de incidentes.
      1 – Em 2009, uma barra invertida adicionada por um programador às URLs que eram direcionadas para o buscador do Google provocou a identificação do site como sendo um malware no mundo inteiro por cerca de 1 hora. Prejuízo de quase US$ 3 milhões.
      2 – A promoção da Pepsi em 1992 era a seguinte : quem tirasse a tampinha com o número 349 impresso, ganharia uma premiação em dinheiro. Um problema no sistema das máquinas de impressão resultou na distribuição de 800 mil tampinhas com a numeração premiada nas Filipinas. Na época, a empresa não entregou os prêmios, o que provocou bastante revolta.
      3 – Há mais10 anos, os desenvolvedores do game World of Warcraft espalharam um vírus dentro do jogo, chamado de “Corrupted Blodd”. A doença “de brincadeira” se espalhou no jogo de maneira incontrolada e imprevista, o que provocou a morte de vários personagens no mundo inteiro. Os jogadores ficaram muito irritados com o jogo.
      4 – A KCG (Knight Capital Group) trabalha há anos com investimentos. Em 2012, quase foi à falência devido a uma falha em um novo software que a empresa comprou. O Software gerou milhares de negociações que não poderiam ser feitas. Em meia hora, a KCG perdeu US$440 milhões e ficou em situação crítica.
      5 – Um hospital dos EUA, chamado St. Mary’s Mercy, apresentou erros no sistema e declarou a morte de 8,5 mil pacientes em 2002. O sistema disparou o envio de contas com o atestado de óbito para os parentes e notificações para o governo e empresas.

      Obrigado pelo seu comentário, espero ter ajudado.

    2. Complementando o Rafael segue

      6 – Quase uma terceira guerra mundial
      No ano de 1979, uma terceira guerra mundial quase aconteceu. Isso porque os sistemas de defesa dos EUA identificaram que a União Soviética estava preparada para um ataque com mísseis contra o país, de forma que uma retaliação estava sendo programada. Felizmente, antes que o pior acontecesse, foi identificado que tratava-se do programa de simulação que foi iniciado acidentalmente.

      7 – Radiação excessiva
      Entre os anos de 1985 e 1987, os hospitais dos EUA utilizavam um aparelho chamado Therac-25 para o tratamento com radiação contra o câncer. Havia um erro de programação no software que aplicava uma radiação 100 vezes maior do que a recomendada nos pacientes. Foram registradas 6 mortes nesse período.

      8 – Trânsito ruim
      A justiça da Califórnia convocou 1,2 mil pessoas para trabalharem como júri no mesmo horário e no mesmo dia. O incidente ocorrido em 2012 foi fruto de uma falha no sistema da justiça da Califórnia. O trânsito nas estradas que davam acesso à região do júri ficou engarrafado e provocou a ira de muitos motoristas.
      Apagão de U$ 6 bilhões
      Em 2003, os EUA enfrentaram um super apagão no nordeste do país. Conhecido como ” The Great Northeast Blackout”, o incidente foi causado por uma falha no sistema de alarme. Incrível, mas foi o suficiente para deixar 50 milhões de pessoas sem energia e provocar 11 mortes. O prejuízo chegou a US$6 bilhões para o governo americano.

      9 – Recall da Honda
      Por causa de um defeito de programação no sistema dos carros, a Honda teve que realizar um recall de mais de 2 milhões de automóveis. O fato, ocorrido em 2011, custou alguns milhões de dólares à empresa japonesa. O airbag era ativado com muita força e pelo componente errado.

Deixe uma resposta