Nuno D. Mendes

IUPAC Code Generation

Nuno D. Mendes and David V. Nunes
Supervised by Ana T. Freitas and Arlindo L. Oliveira
Graduation Thesis, IST, Universidade Técnica de Lisboa, 2004

A grande quantidade de dados disponíveis na área da Biologia requer métodos de extracção de conhecimento poderosos, sistemáticos e eficientes. Em particular, a identificação de sequências de nucleótidos, designadas de consensos, onde se ligam factores de transcrição responsáveis, em parte, pelo mecanismo de regulação génica é essencial para uma compreensão do papel de cada gene.

Actualmente, existem vários algoritmos cujo objectivo é encontrar sequências candidatas a sequências de consenso. Estes algoritmos podem ser divididos em duas classes: métodos restritivos e métodos prolíficos. Os métodos restritivos obtêm poucas respostas com elevada precisão, enquanto que os métodos prolíficos obtêm muitas respostas com baixa precisão, exigindo um esforço de pós-processamento.

Neste trabalho utilizamos o SMILE que é um método prolífico para a extracção de sequências de consenso na região promotora dos genes. Face ao número significativo das respostas obtidas pretende-se, com este trabalho, avaliar possíveis soluções de pós-processamento, de modo a garantir a utilidade de informação extraída para os utilizadores do algoritmo. Assim, definiram-se dois grandes objectivos:

A avaliação de métodos estatísticos que permitam aferir da significância biológica das respostas obtidas;
A obtenção de uma descrição compacta da informação extraída.

Keywords: Gene, regulação génica, regiãopromotora, sequências degeneradas, IUPAC, avaliação estatística de biosequências, SMILE, extracção de motivos

Get a preprint: [pdf] [pdf.gz]