O método de clustering adotado no Projeto SUCEST (Sugarcane EST Project) tinha vários problemas (muitos clusters, presença de seqüências de ribossomo etc.) Nós assumimos a tarefa de reprojetar todo o processo de clustering, propondo uma "limpeza" inicial mais cuidadosa das seqüências. Neste artigo as estratégias de limpeza das seqüências e de clustering são descritas em detalhe, incluindo os números oficiais do projeto (237,954 ESTs e 43,141 clusters).