Pipeline de bioinformática, você sabe o que é?

O processamento computacional de dados genômicos representa o alicerce tecnológico da medicina molecular contemporânea, transformando sequências nucleotídicas brutas em informações clinicamente acionáveis através de algoritmos especializados. Este artigo explora os fundamentos do pipeline bioinformático, abordando as etapas sequenciais de processamento, ferramentas analíticas essenciais e métricas de qualidade que sustentam a interpretação precisa de variantes genéticas na prática diagnóstica moderna.

Pipeline de bioinformática, você sabe o que é?

Após o término do sequenciamento, é gerado uma grande quantidade de sequências de DNA, que precisam ser organizadas, analisadas e interpretadas. 

A bioinformática é uma ciência nova e emergente, que veio ao encontro da necessidade de deciframos nosso genoma. Ela utiliza ferramentas computacionais, conceitos de lógica, estatística, matemática e biologia para organizar todos os dados gerados e permitir que sejam decodificados em informações relevantes para a conduta médica.

Pipeline é um termo muito utilizado nessa área. Esse é o nome dado para a sequência de etapas executada desde o recebimento do dado bruto do sequenciador até a entrega do resultado em formato de laudo.

Um pipeline de bioinformática são as múltiplas etapas nas quais trabalhamos os dados gerados no sequenciamento. O “workflow” é a sequência organizada desses comandos. Cada exame possui seu pipeline específico.

É no pipeline que são inseridos os algoritmos com as características que precisamos encontrar em cada tipo de exame, e isso é feito utilizando-se a interface de linha de comado. Por exemplo, um painel para variantes somáticas terá um pipeline diferente de um painel para variantes germinativas, que serão diferentes de um pipeline para exoma.

De forma resumida, teremos essas 5 etapas em um pipeline de bioinformática:

  • O processo se inicia com a conversão dos sinais gerados no sequenciador em pequenas sequências de nucleotídeos. Tais sequências são armazenadas em um formato de arquivo texto chamado FASTQ
  • Em seguida é feito o alinhamento das sequências geradas, que é o processo de comparar a sequência do paciente com a sequência de um genoma referência (hg19 ou hj38) para observar seu nível de similaridade. Nessa etapa é gerado um novo formato de arquivo, chamado BAM (arquivo binário output pós alinhamento).
  • A próxima etapa é a chamada de variantes, que nada mais é do que uma etapa para identificar trocas (SNPs), deleções ou inserções (indels). O resultado é um arquivo contendo apenas essas alterações, em um formato chamado VCF. No VCF cada linha representa uma variante detectada, contendo sempre de forma fixa as informações de: cromossomo/posição/alelo referência/alelo alternativo. O ANNOVAR é a principal ferramenta utilizada aqui.
  • Após a chamada de variantes, o próximo passo é a anotação. Anotar as variantes significa “enriquecê-las” com informações, como por exemplo, determinar sua coordenada genômica, a sequência prevista de aminoácidos (p.) e o dano à proteína, qual sua frequência alélica (VAF), com quais doenças se relaciona (OMIM), qual é a sua classificação nos bancos de dados de variantes clínicas (CLINVAR) e nos de predição in sílico (Polyphen entre outros), qual sua frequência populacional, etc. E aqui estão os filtros que farão toda diferença no resultado do teste; podemos iniciar essa etapa com mais de 100 variantes e terminar com apenas uma ou duas.
  • E por fim, na última etapa, é gerada uma lista com apenas algumas poucas variantes identificadas como relevantes para o quadro clínico do paciente. Elas são então novamente analisadas, revisadas e reportadas no laudo para o médico solicitante.

A cobertura e a frequência alélica (VAF) da variante são as principais métricas de qualidade para a prática clínica. 

É preciso sempre saber se o gene que estamos pesquisando foi bem “coberto” durante o sequenciamento, isso significa saber se aquela região do genoma, onde a variante está, foi adequadamente alinhada. A profundidade vertical mostra quantas vezes a alteração foi lida naquela posição, é o mesmo que número de reads. Para variantes somáticas, o ideal é uma cobertura acima de 500X para termos boa confiança, isso por que a frequência alélica no tumor é baixa. Já para variantes germinativas, uma cobertura acima de 20X é suficiente. A métrica VAF ajuda a descartar variantes artefatuais quando está abaixo de 5% e fala a favor de neoplasia germinativa quando está acima de 40%, uma análise essencial quando se pensa em conduta clínica, como a indicação de cirurgia, de droga alvo ou aconselhamento genético para os familiares. 

Frequência alélica mostra quantas vezes a mutação foi identificada.

De forma breve, estes são os principais pontos que destaco neste tema.

Comente o que está achando desta série ou se restou alguma dúvida. Responderei com todo prazer.

Espero que tenha ajudado! 😊

Até a próxima,

Dra. Ana Carolina Paniza
Patologista Molecular
CRM-SP 151630

 

Nossos Conteúdos

Newsletter

Cadastre-se para ser notificado(a) sobre novos artigos, vídeos, séries técnicas e conteúdos colaborativos em primeira mão.

Menu

Política de privacidade

Este site usa cookies para que possamos oferecer a melhor experiência de usuário possível. As informações de cookies são armazenadas em seu navegador e executam funções como reconhecê-lo quando você retorna ao nosso site e ajudar nossa equipe a entender quais seções do site você considera mais interessantes e úteis.