Avaliando as avaliações da Capes

Castro, Cláudio de Moura; Soares, Gláucio Ary Dillon

doi:10.1590/S0034-75901983000300007

NOTAS E COMENTÁRIOS

Avaliando as avaliações da Capes^* * O autores agradecem as críticas e sugestões de João Batista de Oliveira, Simon Schwartzman, Tadeu Correia, Lúcia dos Guaranys e Norma Rancich. Cumpre, todavia, eximi-los de responsabilidade por erros e omissões do trabalho.

Cláudio de Moura Castro; Gláucio Ary Dillon Soares

1. INTRODUÇÃO

Este é um estudo na área da política educacional, descrevendo e analisando a formulação, a avaliação e o aperfeiçoamento de instrumentos de avaliação dos programas de pós-graduação existentes no Brasil, com implicações para a alocação de recursos públicos.

Em meados de 1982, um momento de grande excitação na comunidade acadêmica brasileira foi provocado pela publicação da lista dos 56 cursos de pós-graduação que obtiveram o pior conceito (nota E), na avaliação da Capes. Esse vazamento para O Estado de São Paulo, um dos mais tradicionais e respeitados jornais do Brasil, culminou um debate que obteve considerável espaço e cores vivas na imprensa.

A divulgação oficial, pela Capes, da lista dos melhores cursos (nível A) havia iniciado uma polêmica que extravasou os circunspectos muros acadêmicos. Em seguida, a revista Playboy, em artigo sobre a qualidade do ensino, referiu-se reiteradamente às avaliações da Capes. Mas foi com as entrevistas dos indignados e vociferantes responsáveis pelos cursos considerados "sem condições mínimas de funcionamento" que a controvérsia atingiu o seu clímax. Alguns chegaram a pensar que estaria ameaçado o sistema de avaliação e as suas conseqüências como mecanismo de sinalização para o apoio financeiro à pós-graduação.

Não obstante, tal teste perante o grande público serviu para consolidar a sua legitimidade junto às agências financiadoras do sistema de ciência e tecnologia bem como perante a comunidade acadêmica. Confirmou--se, assim, a estabilidade e a robustez de um ambicioso sistema de avaliação da pós-graduação brasileira. É de se notar que tais incidentes coincidiram com o final da implementação, na Capes, de uma série de mecanismos que vinculavam os auxílios a uma boa nota na avaliação. Mais ainda, foram criados dispositivos que condicionaram o auxílio aos bons cursos ao compromisso, das universidades, de definir uma política realista para os seus cursos mais fracos, em outros departamentos.

Devido à sua importância prática, o sistema de avaliação da Capes passou a merecer a atenção de um público mais amplo. Este artigo é uma tentativa de descrever esse sistema, bem como de apresentar uma série de exercícios estatísticos que buscam explorar a fidedignidade dos conceitos atribuídos por ele.¹ 1 Em que pese aos esforços de objetividade na condução da análise, cumpre prevenir aos leitores do envolvimento de um dos autores com a Capes e com o desenvolvimento do seu sistema de avaliação. O acesso privilegiado aos dados e is intenções evitam considerável área de controvérsias; todavia, torna mais árduo para o autor a isenção que se espera em um trabalho dessa natureza.

O sistema de avaliação abrange todos os cursos de mestrado e doutorado. A dimensão da pós-graduação brasileira, com cerca de mil cursos, oferece um desafio e, ao mesmo tempo, possibilidades de análise quantitativa inexistentes em sistemas menores.

Desde 1977, os comitês da Capes vêm avaliando cada um dos cursos de mestrado e doutorado que operam no Brasil, atribuindo a cada um deles uma nota ou conceito. Paralelamente ao crescimento quantitativo da pós-graduação, os mecanismos de avaliação vêm aumentando a sua abrangência, tornando-se mais complexos e cobrindo um número mais amplo de dimensões ou critérios.

As avaliações realizadas em fins de 1981, referentes ao desempenho dos cursos de mestrado e doutorado brasileiro no período de julho de 1980 a junho de 1981, demonstram que há enorme variedade de desempenho, havendo 292 cursos que obtiveram a nota máxima (4) e 56 que obtiveram a mínima (E).

Por motivos que ficarão claros ao longo do texto, a avaliação de cada curso é mantida em estrito sigilo, sendo apenas divulgada ao coordenador do próprio curso. Não obstante, exceção é feita aos cursos que obtêm conceito A - a divulgação do seu nome se constituiria em um estímulo e reconhecimento ao seu desempenho. O ^{anexo 1} anexo 1 contém a lista destes cursos.

2. O PROCESSO DE AVALIAÇÃO

Neste item, descrevemos os mecanismos de obtenção das informações acerca dos programas de pós-graduação,² 2 Para efeito da presente exposição, "programa" ou "curso" de pós-graduaçáo denominam a mesma coisa. as formas de registro dos dados e as visitas aos cursos. Em seguida, discutimos o funcionamento do sistema, sua aderência ao julgamento dos pares, seus critérios, prioridades e o produto final.

2.1 A obtenção dos dados objetivos

O sistema de avaliação da Capes separa o julgamento dos cursos da coleta de dados, que é a matéria-prima para o julgamento. Há um deliberado esforço em tratar, de forma estanque, dados e julgamentos: os funcionários da Capes coletam os dados; os consultores externos avaliam. Cumpre à equipe interna a busca de informações, de preferência sistemáticas, sobre os cursos, sua depuração e crítica. Entretanto, somente os consultores, recrutados entre renomados especialistas da comunidade acadêmica, julgam os cursos. Esta divisão de trabalho é útil Os consultores não se preocupam com a coleta de dados; contudo, as informações sitemáticas, às vezes, contrariam os seus julgamentos iniciais. Por outro lado, o seu conhecimento de primeira mão permite identificar falhas nos dados que, corrigidas, aperfeiçoam o sistema.

Durante a última década, a Capes teve que conviver com um aumento vertiginoso no número de bolsas concedidas, passando de 1.043, em 1971, para cerca de 8 mil, em 1981 - aumento que é comensurável com a expansão numérica da pós-graduação que tem cerca de 40 mil alunos matriculados. O aumento no número de bolsas gerou sérios problemas para a operação dos mecanismos de concessão. As bolsas concedidas para estudos em programas brasileiros podem ser administradas pelo próprio programa, transferindo para estes grande parte da responsabilidade na seleção dos bolsistas. De fato, quem conhece melhor o perfil de exigências para os alunos que cursarão, por exemplo, um determinado mestrado de física do estado sólido são os próprios professores desse curso.

Assim, a questão de selecionar candidatos foi resolvida de forma descentralizada.³ 3 As vantagens administrativas desse procedimento são enormes. Sete mil bolsas de mestrado ato geridas por quatro funcionários da Capes; a gerência do mecanismo de avaliação, apesar de complexa, ocupa dois funcionários (além de quatro ou cinco envolvidos na construção do arquivo de informações). Em contraste, para administrar um pouco mais de mil bolsas no exterior são necessários cerca de 20 funcionários. Mas criou-se, ipso facto, uma necessidade de selecionar programas e, para cada um deles, o número de bolsas que seriam distribuídas. A origem da avaliação da Capes responde à necessidade de alocar mais bolsas aos melhores programas - avaliar cursos e não candidatos.

A decisão de coletar dados primários sobre a pós-graduação resultou da inexistência de opções, Uma vez que não havia dados sistemáticos, comparáveis e disponíveis. O instrumento utilizado, o chamado relatório da pós-graduação, vem sendo distribuído anualmente, desde 1977, a todos os cursos. Uma fração crescente vem respondendo a esses formulários, atingindo hoje a quase totalidade dos cursos de mestrado e doutorado. Aqueles que acompanham a transformação do processo de avaliação da Capes atestam que os formulários captam, cada vez mais, aquelas dimensões consideradas críticas nó processo de apreciar a maturidade e a excelência de um curso de pós-graduação.

A qualidade das respostas é variável: respostas em branco, compreensão incorreta do que estava sendo pedido, enganos, falta de registro no próprio curso e, finalmente, dolo e má fé são os problemas mais encontrados, por ordem decrescente de freqüência. O treinamento de pessoal para preenchimento, as exortações e;a sofisticação dos instrumentos de coleta têm tido algum êxito para melhorar a informação. Não obstante, foi acrescente percepção das conseqüências administrativo-acadêmicas da avaliação que, nos últimos anos, acarretou enorme melhoria das respostas. No último ano, o formulário foi . substituído por uma saída de computador individualizada para o curso, onde são deixados espaços para o preenchimento de informações, bem como para atualização de outras que não mudam muito de ano a ano (relação de professores, disciplinas etc.). Uma vez transcritos para o computador, os dados são devolvidos ao curso em formato diferente de apresentação, pára que sejam conferidos e a sua correção atestada pelo responsável do curso.

Esses procedimentos, que melhoram a qualidade da informação e reduzem as exigências de trabalho, passaram a ser possíveis nos últimos dois anos, quando os arquivos de dados foram computadorizados. Note-se que não há "avaliação por computador", mas apenas o arquivamento dos dados e uma apresentação mais apropriada para o exame por parte dos consultores.

A carga de trabalho gerada pelo número elevado de cursos, combinada com a falta de familiaridade dos consultores com a forma de apresentação dos dados - a alta . rotatividade dos consultores é essencial ao sistema - torna muito importante a apresentação correta e visualmente apropriada dos dados. Premidos pelo tempo, muitos consultores não podem deixar de se impressionar com cursos que apresentam um elevado número de professores, não tendo tempo para verificar que muitos são meramente horistas ou, mesmo, alguns apenas convidados para um par de conferências. Uma lista de publicações, às vezes, inclui muitos títulos apresentados em periódicos que não poderiam ser considerados veículos de disseminação científica. O processamento eletrônico dos dados permite listar, separadamente, aqueles professores que dedicam grande parte do seu tempo ao curso, distinguindo-os dos horistas e dos conferencistas visitantes, separando as publicações acadêmicas e científicas das demitis. Torna-se, também, fácil a construção de quadros e tabelas que permitem comparar diferentes cursos da mesma área. Fica, igualmente, registrada a ubiqüidade de alguns professores que possuem "tempo integral" em várias universidades, ò que, infelizmente, é comum.

Um progresso importante nos últimos anos foi a unificação dos instrumentos de coleta, que hoje abrangem Capes, CNPq, CFE e FINEP, reduzindo consideravelmente 6 trabalho de prestar informação, ao mesmo tempo que permite concentrar esforços na qualidade da informação gerada.

Pretende-se criar uma memória da pós-graduação, convergindo as informações disponíveis para um único local, na Capes. Esses procedimentos já reduziram consideravelmente a margem de erro e os custos.

2.2 O ciclo de visitas

Verificou-se, por um lado, que a informação trazida pelos consultores era insuficiente para formular um relatório completo; por outro lado, o conhecimento de primeira mão dos programas não pode ser substituído por informações obtidas por um relatório. Visitas ocasionais confirmaram a importância desses contatos pessoais. A partir de 1980, a Capes iniciou um ciclo bienal de visitas de consultores aos cursos. Apesar do esforço, não foi possível realizar em 1981 mais do que 200 visitas, o que alterou a periodicidade das visitas que de fato passaram a ser trienais. As visitas foram iniciadas fora dos grandes centros, sobretudo nos cursos novos, que tendem a ser menos conhecidos. Essa prioridade mostrou haver considerável desconhecimento do trabalho promissor realizado por alguns programas de criação mais recente.

2.3 O julgamento dos pares: a montagem de um sistema

Desde o início da avaliação em 1977, os pares têm sido a única fonte dos julgamentos. É procedente comparar o sistema da Capes com a tradição norte-americana de peer reviews, que vem sendo aplicada há muitas décadas e que é feita com base na reputação dos programas. Parte-se, nestes estudos, da hipótese de que os juízes dominam toda a informação necessária para julgar. Entretanto, o sistema da Capes distancia-se desse paradigma porque ò arquivo de dados objetivos tem urna utilização cada vez maior no julgamento. Ainda não houve, na nossa jovem pós-graduação, tempo para que se desenvolvessem reputações que reflitam de forma fidedigna suas realizações. Os próprios avaliadores relatam, ao manusear os relato; rios, seu desconhecimento do que muitos cursos vêm fazendo. A disponibilidade de uma base factual confiável e bem apresentada reduz o chamado "efeito de halo".⁴ 4 O "efeito do halo" transfere, imerecidamente, prestígio ou desprestígio de um programa para outro, na mesma universidade, ou de um momento para outro, de um mesmo programa. Nesse último sentido, um programa continua a ser considerado bom (ou ruim), quando já não o é.

A gerência de uma carteira de consultores bem como a sua escolha inicial apresentam problemas. Por um processo de tentativa e erro, a Capes chegou ao perfil do consultor procurado: deverá ser um cientista destacado em sua área, tal como atestado pelo seu curriculum vitae, mas a experiência no ensino também é necessária - os lobos solitários da pesquisa se revelaram ingênuos e pouco à vontade nesse trabalho. Ademais, o gosto por esse tipo de atividades é essencial, como demonstram muitas tentativas frustradas de se trabalhar com excelentes pesquisadores que, desinteressados, são incapazes de concentrar-se por algumas dezenas de horas nesse tipo de trabalho.

Busca-se uma certa variedade na seleção dos consultores, seja na orientação teórica, seja na origem geográfica. A experiência, contudo, demonstra a importância de que o consultor represente apenas a sua própria consciência crítica e não grupos, regiões ou associações. O consultor não é chamado para defender o interesse da comunidade acadêmica, da sua universidade ou de sua própria . profissão, mas para expressar, sem censura, suas convicções de cientista e cidadão bem informado.

Cada área do conhecimento tem uma lista de consultores e um presidente de comissão, escolhido por um período de dois anos, pelos seus próprios pares, e homologado pelo Conselho da Capes. Desta lista original - que é elástica e vai aumentando por sugestão de seus próprios membros - são escolhidos os participantes das reuniões anuais, prevendo-se que, em cada ano, apenas 50% dos nomes do ano anterior sejam repetidos. Esse limite de dois anos impede o enquistamento, bem como a organização e ação de mecanismos de pressão sobre os consultores. Entretanto, há uma técnica de trabalho e uma tradição, assim como comparações no tempo que são prejudicadas pela estreiteza do período. Com freqüência ouvem-se queixas de que, justamente quando aprendiam a trabalhar, chegou o fim do período na comissão.

Ligado à duração dos períodos está o papel da Capes de manter a memória do processo. Não há quebra na neutralidade da intervenção da Capes ao explicar, a cada ano, o funcionamento administrativo do sistema aos consultores; contudo, há uma área limítrofe de intervenção no estabelecimento dos critérios de avaliação. A equipe técnica da Capes transmito a cada grupo de consultores os critérios e as prioridades que vinham sendo utilizados nos períodos anteriores. Transmite, também, comentários, críticas e sugestões oferecidos ou acumulados ao longo de um ano de diálogo com os programas de pós-graduação. Indo mais longe, sugere mudanças de critérios, a partir de suas percepções acerca da evolução da pós-graduação. Assim, a partir de 1979, a direção da Capes vem-se preocupando com o excesso de cursos e com a fragilidade de muitos deles, sugerindo aos consultores que enfatizem a excelência dos cursos, mais do que o número de alunos titulados. Em outras palavras, não há qualquer interferência na identificação de quem é melhor; contudo, há um certo grau de interação entre a Capes e os consultores na definição das dimensões da excelência e o peso a ser dado a essas dimensões. Como exemplo, citaríamos a avaliação de 1981 quando a Capes insistiu com os consultores das áreas aplicadas para que dessem maior atenção e peso a protótipos, patentes, novas técnicas etc. Anteriormente, haviam sido feitas muitas críticas à ênfase exclusiva em. publicações, prejudicando os cursos orientados para realizações práticas.

Se, de um lado, os consultores têm total Uberdade de escolher, interpretar e ponderar os critérios como queiram, de outro, há certa estabilidade dos critérios mantida por tradição oral. Não obstante, há mudanças. Por exemplo, hoje há maior preocupação em diferenciar o tratamento das áreas, em contraste com uma avaliação mais homogênea anteriormente adotada. Os critérios quantitativos, como o número de titulados são, hoje, menos importantes do que a qualidade do aluno e da pesquisa.

A avaliação se materializa em conceitos(A, B, C, D e E; sendo A o mais alto) atribuídos a cada curso. A comissão indica também os critérios utilizados no seu julgamento e, em cada caso, comenta sobre cada uma das variáveis que utilizou ao avaliar o programa. São, também, apresentadas sugestões e recomendações para o programa. Portanto, o resultado da avaliação se consubstancia em um conjunto de conceitos e laudos comentando o desempenho de cada programa de pós-graduação.

3. OS USOS DA AVALIAÇÃO

Não há ambigüidades ou dúvidas quanto ao apoio que será dado a um curso que recebe conceito A, ou mesmo B Contudo, suponha-se que um curso obtém C, D ou E O tratamento que receberá de uma agência governamental tem, naturalmente, a ver com as razões que levaram a esse julgamento. Tem havido pressão, originada em universidades em áreas pouco desenvolvidas, por um tratamento mais generoso para os cursos dessas regiões. Naquele momento, a Capes definiu sua política através de uma metáfora ainda usada hoje: "O termômetro é o mesmo para todos os pacientes,, o diagnóstico e a terapia podem variar de acordo com o caso." Fica, assim, entendido que os critérios de avaliação nada têm a ver com á história do curso, seus esforços ou as dificuldades que encontram O tratamento diferenciado que se pode justificar em muitos casos não deve contaminar a atribuição do concerto. O extraordinário esforço de um grupo do Nordeste pode e deve ser apoiado, mas, no julgamento do resultado, será comparado com todos os demais, recebendo um conceito que meramente reflete suas realizações.

O uso mais imediato da avaliação é, exatamente, aquele que motivou a sua criação: a distribuição de bolsas. Np caso das "bolsas de demanda social"⁵ 5 Esse termo, pouco apropriado, denomina um dos mais importantes programas da Capes no qual são distribuídas quotas de bolsas diretamente aos cursos. as quotas atribuídas a cada área do conhecimento são alocadas pelos cursos existentes, de forma proporcional ao conceito. Assim, os cursos de nível A recebem 52% do total das bolsas; os cursos B recebem uma quota bem menor, 29%; alguns cursos C podem receber uma quota residual ou simbólica; os demais não recebem nenhuma bolsa. O programa PICD, fiel à sua intenção de desenvolvimento institucional, aloca bolsas às instituições para que selecionem os seus melhores professores para cursarem mestrado e doutorado no país.⁶ 6 Ao criar o PICD, a Capes buscou incentivar os professores das instituições menos "desenvolvidas a cursar programas no país, Ao' criar uma reserva de bolsas para a instituição, tentou-se quebrar um círculo vicioso que tenderia a perpetuar diferenças institucionais e regionais. A seleção desses mestrados se faz dentre uma lista que contém apenas aqueles cursos de melhor qualificação no processo de avaliação. O chamado "listão Capes" contém os cursos A e , em áreas em que o número de A é insuficiente, alguns B.

A partir de 1981, o credenciamento de cursos de pós-graduação pelo Conselho Federal de Educação passou a utilizar as avaliações realizadas pela Capes, não apenas a última avaliação disponível no momento em que o credenciamento é pedido, mas também as dos anos anteriores, mostrando a trajetória do curso ao longo do tempo. Ao aumentar a abrangência temporal em que o curso é considerado, ao expandir o número de pessoas que visitam e opinam sobre o curso, reduzem-se as incertezas, erros e arbitrariedades do processo de credenciamento. Ademais, os métodos de coleta de informações foram simplificados e os procedimentos de visita e avaliação aperfeiçoados como resultado de discussão entre a Capes e o CFE. Ao dar um parecer sobre o curso, o conselheiro do CFE está hoje muito melhor informado e respaldado.

Também a partir de 1981, a discussão orçamentária das universidades federais passou a incorporar uma consideração acerca do nível de qualidade da pós-graduação, tal como captado pelas avaliações. Universidades com cursos de melhor nível receberam um tratamento privilegiado na distribuição de recursos adicionais e em projetos. Foi uma primeira experiência e seria prematuro julgá-la de momento.⁷ 7 Recentemente, a avaliação adquiriu uma utilização curiosa. Vinha-se revelando difícil e errático para os estudantes brasileiros na Alemanha obterem a equivalência do seu mestrado ao "diploma" alemão, a fim de se matricularem diretamente no doutorado. Por um acordo, os graduados de cursos com boa avaliação pela Capes receberão a equivalência, outorgada pelas instituições alemãs.

Finalmente, há um uso que se toma cada vez mais importante e que tem muito a ver com o processo de legitimação da avaliação diante da comunidade acadêmica. Trata-se de levar ao conhecimento do curso, aos reitores é pró-reitores os resultados da avaliação, bem como as sugestões feitas pelos consultores. Esta é uma fertilíssima fonte de atritos, tensões políticas e terremotos administrativos. Alguns cursos não aceitam os julgamentos ásperos passados a seu respeito; outros consideram improcedentes as avaliações. Pode haver uma revisão da avaliação. Em um número pequeno de casos, houve equívocos ou ambigüidades no julgamento. A baixa proporção de erros identificados por esta auditoria aumenta a confiança imputada aos conceitos. Há apenas um ano que os laudos de avaliação começaram a ser enviados aos cursos; seria leviano julgar o seu impacto em tempo tão curto. Contudo, em um número elevado de casos, já houve certo impacto e, em alguns, ocorreram modificações tangíveis. Esta dimensão da avaliação pode vir a ser a sua mais importante dimensão, a de aperfeiçoar o sistema.

4. O COMPORTAMENTO DOS CONSULTORES: UM MODELO DE SIMULAÇÃO

Até aqui simplesmente descrevemos o sistema da avaliação. No que segue, tentamos aplicar alguns procedimentos estatísticos com o objetivo de melhor entendê-lo e testar suas propriedades.

Seja do ponto de vista de quem gerencia o sistema, seja do ponto de vista de quem é avaliado, o comportamento dos consultores é uma "caixa preta". Estes recebem instruções para identificar a excelência acadêmica, onde quer que esta se encontre, e dizer o que vem a ser em cada caso está excelência. Seu julgamento é final; salvo casos raros, hão é objeto de nova análise ou contestação.

O aprofundamento de episódios individuais - tais como o reexame de uma avaliação contestada - e a impressão daqueles que lidam com a avaliação é que ela faz sentido: os conceitos correspondem à reputação dos cursos. Isto, contudo, ainda é pouco.

Neste item apresentamos uma tentativa de simular ou reproduzir o comportamento dos consultores através dê um modelo estatístico.⁸ 8 Note o leitor menos familiarizado com métodos estatísticos que, embora alguns termos e passagens posam parecer excessivamente técnicos, suas. implicações e conclusões estio formuladas em linguagem de imediata compreensão. Perguntamos se há regularidades observáveis no seu comportamento, se esse comportamento pode ser descrito por um sistema de equações e se ele é consistente com as suas prioridades declaradas. Finalmente, até que ponto ele incorpora as variáveis quantificáveis?

Note-se que não se trata em absoluto de um modelo estatístico de avaliação, onde é definido um algoritmo que atribui netas ou conceitos a um curso. Pelo contrário, trata-se de uma tentativa de modelar o comportamento dos consultores, isto é, reconstruir matematicamente as suas formas de julgamento. Os usos de tal modelo se restringem ao que aqui fazemos, ou seja, entender como operam os consultores.

Tal advertência é particularmente importante porque os autores deste trabalho entendem que avaliação não pode se reduzir a uma função mecânica, passível de ser substituída por um modelo matemático. Não apenas cada curso deverá ser julgado em sua individualidade e com suas idiossincrasias, mas esse julgamento deverá incluir componentes que não podem ser quantificados, tais como qualidade da pesquisa, atmosfera, entusiasmo etc. Esta observação não define apenas a posição da Capes, mas é estatisticamente confirmada pela análise subseqüente.

O modelo utilizado é bastante simples, o que se justifica, antes de tudo, pelo nosso desconhecimento diante da questão. Tomamos como variável dependente os conceitos de A a E, transformados em números de cinco a um. As variações nesses conceitos deverão ser explicadas por variações de conceitos quantificáveis contidos no relatório dos cursos.

A configuração estatística mais óbvia para o modelo é uma equação de regressão linear múltipla por passos das etapas (stepwise). Nesta formulação, variações da variável dependente (as avaliações) são associadas linearmente às variáveis explicativas dos dados objetivos, buscando-se aquela que melhor ajustamento oferece. Interrompe-se a introdução de novas variáveis no momento em que a contribuição de qualquer variável adicional deixa de ser significativa. Esse procedimento é exploratório e não um teste de hipóteses, porque não existe qualquer pressuposição quanto à natureza ou à configuração das variáveis, isto é, não há modelo a priori sendo testado.

Por ocasião de uma reunião de consultores, foi-lhes pedido listar, por ordem decrescente de importância, aqueles critérios que consideravam mais relevantes ao avaliar um curso. Cada área do conhecimento produziu sua própria lista, usualmente contendo cerca de cinco critérios. Houve, em seguida, uma tentativa de consolidar estas diferentes listas, buscando-se denominadores comuns de critérios de avaliação. A comparação desses critérios com aqueles produzidos implicitamente pelos coeficientes de regressão permite testar a consistência entre o comportamento declarado e o comportamento efetivamente manifesto na avaliação. Trata-se de questão de forte importância para a legitimidade da avaliação.

As variáveis podem ser classificadas em três grande grupos, onde cada grupo representa uma dimensão de características dos cursos de pós-graduação:

a) grupo 1: "sistema de processamento de alunos";

b) grupo 2: "corpo docente do curso";

c) grupo 3: "produção científica do curso".

Assim, fazem parte do grupo 1 variáveis tais como número de candidatos, número de alunos novos, número de alunos cursando disciplina, número de alunos elaborando tese, número de bolsas de estudo etc; fazem parte do grupo 2 variáveis tais como total de professores do curso, total de professores que possuem doutorado, total de professores que possuem mestrado, número de doutores em tempo integral, número de doutores que orientam tese etc. Finalmente, fazem parte do grupo 3 variáveis tais como o número de livros publicados no país e no exterior, número de artigos publicados em periódicos nacionais e internacionais, numero de comunicações em congressos no país e no exterior etc. No total; .38 variáveis "brutas" foram selecionadas. A estas foram adicionadas 49 variáveis compostas, representando índices, obtidos pela combinação de duas ou mais das variáveis "brutas", resultando um total geral de 87 variáveis. O número de teses defendidas dividido pelo número total de alunos novos, o número total de doutores dividido pelo número total de professores, o número de artigos publicados dividido pelo número de docentes são exemplos típicos destas variáveis compostas.

Um número tão grande de variáveis não pode ser tratado em um modelo de regressão. Equações tão grandes são muito instáveis, pouco confiáveis e de difícil interpretação. Como procedimento preliminar, então, foi ajustada uma matriz de correlação de ordem zero entre todas as variáveis, incluídas aí as variáveis dependentes. Embora seja possível utilizar procedimentos mais complexos ou sofisticados, optamos por simplesmente eliminar, em uma primeira rodada, todas aquelas variáveis que não se correlacionassem quer com outras do mesmo grupo, quer com a variável critério. Eliminamos em uma segunda instância, aquelas cujos coeficientes, ainda que fortes em alguns casos, se revelaram irregulares ou inconsistentes. Dessa forma, reduzimos a equação para apenas nove variáveis independentes, o que é razoável para esse tipo de modelo. Para se chegar a esse número, foi dada preferência àquelas variáveis de baixa correlação entre si, a fim de evitar a multicolinearidade.

A seguinte lista de variáveis foi utilizada no modelo de regressão:

- número de candidatos;

- número de alunos novos;

- total de bolsas de estudo do curso;

- índice de concentração de professores na área de conhecimento;

- número de doutores que orientam teses;

- número de publicações em periódicos internacionais;

- numero de publicações em periódicos nacionais;

- número de comunicações em congressos no país;

- número de comunicações em congressos no exterior.

Foram ajustados modelos para três tipos de séries estatísticas:

a) inicialmente, com o objetivo de maximizar o tamanho da amostra, foram reunidas as seis áreas do conhecimento analisadas⁹ 9 Física, geociências, bioquímica, sociologia, psicologia e engenharia elétrica. em um único grupo, agregando-se ao mesmo tempo as avaliações de dois anos;

b) em segundo lugar, foi ajustada a equação para o período de um ano;

c) por fim, foram feitos ajustamentos individuais por área do conhecimento.

Esta última é a configuração mais correta, do ponto de vista teórico, em vista da falta de comparabilidade das condições de trabalho e dos conceitos emitidos entre áreas diferentes. Todavia, apresenta problemas estatísticos práticos, resultantes de um número de cursos freqüentemente inferior a 10.

Na primeira regressão, tomando todos os dados de forma agregada, o R² ou coeficiente de determinação - que expressa a proporção da variância da variável critério explicada pelas variáveis incluídas na equação - chegou próximo a 0,50. Em estudos desta natureza esse pode ser considerado um coeficiente bastante alto.

Contudo, uma inspeção inicial da equação revelou um coeficiente de correlação parcial acima de 0,8 para a variável "total de bolsas". Na verdade, essa é uma relação tautológica, já que o número de bolsas é distribuído em função da avaliação. Foi repetida a equação, eliminando-se essa variável, caindo então o coeficiente de determinação para 0,35. Repetindo os ajustamentos de forma separada de ano a ano, não houve diferenças consideráveis, mostrando que não é insuficiente o número de observações de um só ano e que, também, não há modificações consideráveis nos critérios e formas de avaliação, entre dois períodos anuais - ou seja, as relações são razoavelmente estáveis.

Portanto, temos um conjunto de equações com considerável poder de explicação. Note-se que o modelo não é testado em condições favoráveis, em conseqüência da heterogeneidade das áreas reunidas, pelas diferenças de critérios usados nas respectivas áreas e pela incomparabilidade métrica dos conceitos utilizados (um A em física não é a mesma coisa que um A em psicologia; no entanto, a equação trata como se o fosse).

As equações feitas separadamente, por área do conhecimento, revelaram coeficientes de determinação muito mais elevados, situando-se próximos de 0,8. Nó entanto, a grande variabilidade bem como o pequeno tamanho da amostra tornam pouco confiáveis as conclusões tiradas de sua análise individual.

A partir desses exercícios estatísticos cabe um bom número de inferências:

a) o comportamento dos consultores é regular previsível. As equações para o conjunto das áreas explicam algo mais que um terço da variância. Várias que as tratam em separado explicam muito mais;

b) inversamente, mesmo nos casos mais favoráveis, há um resíduo considerável de variância náo explicada pelas variáveis quantitativas. Isto significa que um modelo estatístico não poderá substituir o trabalho dos consultores: os resultados não seriam equivalentes. O resíduo não explicado pode derivar de erros de julgamento dos consultores, de variáveis não incluídas na equação (atmosfera de trabalho, motivação diferencial, qualidade dos trabalhos publicados etc.) e de outros fatores. Não é. possível, nesse estágio, identificar as explicações. Razoes heurísticas sugerem que é mais apropriado tomar o resíduo como sendo gerado por variáveis não incluídas no modelo;

c) quando confrontamos as variáveis privilegiadas pelo modelo (aquelas que aparecem em primeiro lugar na equação de regressão) com as prioridades declaradas pelos consultores, verificamos que, de fato, eles julgam os cursos pelas dimensões que haviam privilegiado em sua lista; em outras palavras, os critérios manifestos e os critérios efetivamente utilizados coincidem.

5 A PÓS-GRADUAÇÃO VISTA PELAS AVALIAÇÕES

O que ficamos sabendo da pós-graduação por via das avaliações? Os modelos mencionados e um exercício de analise fatorial, realizado subseqüentemente, permitem uma análise bastante útil da pós-graduação, de seus problemas, bem como uma discussão de limites e controvérsias da avaliação.

5.1 O perfil da excelência

O grau de excelência imputado a um curso, qualquer que seja o momento ou área do conhecimento, tem a ver com alguns critérios estáveis:

a) competência profissional dos docentes (evidenciada por sua titulação ou qualificações equivalentes);

b) dedicação efetiva dos professores ao curso, sobretudo aqueles que atuam no próprio núcleo disciplinar do programa (em oposição, àqueles de áreas instrumentais ou domínios conexos);

c) produção científica do curso (qualidade, volume, regularidade de artigos em revistas científicas, livros, publicações, anais de congressos, relatórios de pesquisa).

Dentro deste marco de referência geral, emergem as idiossincrasias das áreas do conhecimento. Em algumas, como sociologia, as publicações nacionais são privilegiadas; em outras, como química, as internacionais. O ritmo de produção, tal como captado pelo número de artigos, é extremamente variado, contrastando-se, por exemplo, a matemática com a botânica.

Não obstante, a existência de variáveis cuja influência é forte, qualquer que seja a área considerada, indica claramente que a excelência não se faz com ingredientes tão distintos de uma área para outra, embora haja alguns temperos próprios, definindo o sabor de cada área.

É de se notar que, embora os indicadores quantitativos utilizados captem diferentes dimensões da qualidade, estes sé apresentam associados entre si. Por exemplo, cursos com mais doutores em tempo integral publicam mais. Bons resultados em um indicador aumentam a probabilidade de que se observem resultados favoráveis em outros.

A pós-graduação produz pesquisas e pessoas capazes de realizá-las. Á pesquisa, na verdade, termina sendo um indicador mais tangível do resultado do curso. Teses e pesquisas produzidas no programa podem ser contadas e tabuladas. Estas são, em princípio, medidas puramente quantitativas da produção - e não haverá pejo em admiti-lo. Não obstante, há certos controles de qualidade implícitos nessas medidas: os periódicos científicos mais sérios têm comitês editoriais muito severos; o mesmo se dá com as boas editoras comerciais; bons congressos e seminários examinam as contribuições enviadas antes de aceitá-las. Assim, com algum cuidado na classificação da entidade que publica, é possível estabelecer limites de qualidade cuja importância não é desprezível. Nossos resultados estatísticos confirmam o enrame peso que a produção de pesquisas e teses tem tido sobre a avaliação efetuada pelos consultores.

Ao contrário do que pensaram alguns críticos mais ingênuos, aquelas variáveis que buscam capturar características do processo de ensino não tiveram maior poder explicativo Estatísticas de funcionamento do curso, tal como as relações entre alunos e professores e as cargas de aula, têm pouco poder explicativo. Analogamente ao que tem sido observado para as escolas de 19 e 29 graus, não há associação estatisticamente forte entre a qualidade do produto e uma enorme variedade de medidas desse tipo. Não obstante, há uma exceção: o regime de trabalho dos professores de mais alta qualificação. Emergem como melhores programas aqueles onde seus mais notáveis professores trabalham em tempo integral A qualidade do. programa depende mais de um núcleo de professores altamente qualificados, que trabalham em dedicação exclusiva, do que de um grande número de professores menos qualificados.

Cumpre mencionar a ausência de algumas variáveis perfeitamente quantificáveis nas análises realizadas:

a) a experiência norte-americana revela uma forte associação entre o acervo das bibliotecas especializadas servindo ao curso e a sua reputação. Eventualmente, essa informação poderia ser coletada para o caso brasileiro;

b) há forte heterogeneidade nas exigências de qualidade de periódicos científicos. Sabe-se que publicações em periódicos mais exigentes refletem em média um nível superior de qualidade do trabalho. Esta triagem e avaliação está sendo realizada na Capes, visando melhorar o modelo;

c) as citações e referências a trabalhos, pesquisas e publicações de professores e alunos do curso são um critério importante, passível de incorporação. Agregam uma dimensão qualitativa, ainda que ela também seja quantificável, ao número de publicações significando a aceitação por, e o impacto sobre, outros profissionais e cientistas da mesma área;

d) finalmente, há uma variável da maior importância, que é o destino profissional dos graduados. Obtêm bons empregos? São férteis produtores de ciência? Progridem na carreira? Estão sendo realizados estudos de acompanhamento de formados que, no futuro, permitirão, pelo menos em parte, responder a essas perguntas.

O porte ou tamanho do curso foi examinado de duas maneiras. Através da análise fatorial verificou-se que o número de alunos e a produção discente tiveram forte impacto sobre a avaliação até 1977; isto é, receber muitos alunos e graduar também muitos era considerado uma das medidas de excelência. A partir de então, o poder explicativo deste conjunto de variáveis caiu, passando a ser pouco significativo em anos recentes. Isto reflete, claramente, a crescente preocupação com a qualidade e uma atenção menor para a capacidade de receber e titular alunos. Fica destruído um mito da avaliação, que sobrevivia na cabeça de alguns.

Não obstante, há uma outra dimensão do tamanho, indiretamente captada pelas matrizes de correlação. As variáveis de produtividade científica foram definidas também em termos per capita. Curiosamente, as variáveis per capita revelaram-se sempre fraquíssimas, em confronto com as suas contra-partidas definidas em termos absolutos. Em outras palavras, um curso é bom pelo volume de publicações e não pela produtividade de cada um dos pesquisadores (média anual, comparativamente muito baixa, de 0,4 artigos por docente). A média da competência dos professores pesa muito menos do que a presença de vários professores altamente competentes. Se o tamanho não está sendo valorizado, como demonstra o parágrafo anterior, tampouco as versões compactas recebem aplauso.

Por via da análise fatorial, foi possível identificar uma aparente disfunção na distribuição de produção científica. Revelou-se uma separação entre os programas cujos membros participam ativamente de congressos, cursos etc e os que escrevem livros e artigos. Assim, a discriminação importante não é entre programas participantes e programas inativos em um fator geral de participação na produção. Como interpretar essa dissociação? Estaria aparecendo uma nova forma de produção docente: a participação em congressos e similares, que não conduz ao aumento da produção docente em forma de artigos e livros? Seria esta forma um fim em si? Talvez este seja um estágio preparatório para um período subseqüente de produção mais sólida, mas isso não pôde ser decidido pela análise dos dados disponíveis. É difícil aceitar a legitimidade desta forma de produção docente, particularmente para os que estamos acostumados com modalidades tradicionais. É bem verdade que ela permite a produção de trabalhos curtos, típicos das comunicações em congressos. Estes, seja pelo seu conteúdo, seja pelo fôlego limitado do autor, não encontrariam um caminho para outras formas de publicações. Ou seja, permitiria a publicação de trabalhos que, de outra maneira, não seriam publicados, além de expor os participantes a novas idéias. No entanto, na medida em que estas publicações 'ligeiras compitam com as outras mais tradicionais, elas serão contraproducentes. Nesse sentido, parece que houve um excesso de recursos para seminários, encontros, etc. e uma escassez de tempo e recursos humanos para prepará-los adequadamente. Isto aumentou a velocidade das demandas sobre um universo ainda relativamente pequeno de pesquisadores que foram levados de um menor número de publicações de maior fôlego e qualidade a um maior número de comunicações de menor fôlego e qualidade. A necessidade de preparar outra pequena comunicação para o congresso seguinte impediria o aprimoramento das anteriores. A publicação dos anais e atas do congresso anterior seria um desestímulo à sua transformação em obras de maior fôlego. A questão preocupa.

Nota-se que as variáveis que tratam da produção de livros e artigos nacionais aparecem juntas como um fator e as variáveis da produção de livros e artigos internacionais aparecem juntas em outro fator, separado do primeiro. Ao que parece, o fator "publicações internacionais" reflete simplesmente o fato de que, em algumas disciplinas, é tradição publicar fora do país (ciências físicas e biológicas, por exemplo) ao passo que, em outras, é tradição publicar dentro do país (ciências sociais, por exemplo). A distinção entre os fatores seria, portanto, explicável por serem algumas áreas voltadas para um público brasileiro e outras para um externo. Possivelmente, devido a sua pequena freqüência de ocorrência, a produção de livros (tanto a nível internacional como nacional) tem fraca correlação com a produção de artigos. Ademais, a produção de livros-texto não está necessariamente associada à criatividade científica e a forma atual de coleta não permite diferenciar entre livros-texto e livros "de pesquisa".

A análise fatorial captou um fator de "docência" e um outro de "endogenia". Há um perfil de mestrados acadêmicos recrutando preferencialmente docentes, em contraste com os mestrados profissionais que se dirigem para um mercado de trabalho extra-acadêmico. Há, também, um perfil de mestrados que recrutam uma percentagem relativamente alta de alunos entre docentes da própria instituição. Em verdade, suspeita-se que vários programas de pós-graduação foram criados em conseqüência das pressões do seu próprio corpo docente, no sentido de obter títulos de pós-graduação. Observou-se forte associação entre este fator de endogenia e o fator "docência". Como esperado, endogenia não contribui para a qualidade de cursos, apresentando uma pequena correlação negativa com o fator "avaliação" (-0,14 com endogenia e -0,007 com docência). A análise das regressões com as avaliações individuais ano a ano, de 1977 a 1980, indica que esses dois fatores foram influências negativas, mas que podem ser negligenciadas, na avaliação da qualidade dos cursos.

5.2 A evolução no tempo da pós-graduação

O desvio-padrão das avaliações é uma medida de variação na qualidade percebida: quanto mais baixo, menor a variação das qualificações recebidas pelos cursos avaliados. Houve, de 1977 ao presente, uma diminuição considerável e sistemática do desvio-padrão entre as avaliações.

Em 1977, o desvio-padrão foi de 1,95, baixando a cada ano (1,91; 1,82) até chegar a 1,52 em 1980. Essa tendência poderia ser explicada de diferentes maneiras:

a) uma elevação do teto inferior da qualidade dos cursos de pós-graduação, devida às exigências e pressões de órgãos como o CFE, a Capes etc. Os piores cursos tenderiam a elevar o seu nível (foram relativamente poucos os cursos que fecharam), reduzindo-se o desnível por baixo:

b) ou houve um abaixamento do nível dos melhores cursos, tendendo todos à média. Essa interpretação é negada pela elevação das médias das avaliações;

c) ou houve um "achatamento" das avaliações, com a elevação das qualificações dadas aos cursos piores e médios (e não com a baixa das qualificações dadas aos cursos altos). Essa interpretação é consistente tanto com a elevação das avaliações médias, quanto com a diminuição dos desvios-padrão.

As avaliações de um ano se correlacionam com as do ano seguinte; poder-se-ia explicar parte da concordância das avaliações de ano a ano pela duração do mandato dos presidentes de comissões de consultores que avaliam os cursos: dois anos. Supondo que eles influenciam tanto a seleção dos demais avaliadores quanto o andamento dos trabalhos, haveria uma tendência de cada presidente a dar a mesma avaliação ao mesmo curso em dois anos consecutivos. Essa tendência seria parcialmente contrabalançada pelo fato de que parte dos avaliadores muda a cada ano. Computando as correlações consecutivas (1977 com 1978, 1978 com 1979 e 1979 com 1980), vemos que a média das correlações é + 0,64, ao passo que as correlações entre os anos não consecutivos é de +0,54. Isso nos diz que parece haver uma tendência dos avaliadores a repetir o conceito dado no ano anterior, mas essa tendência não é fundamentalmente maior do que a consistência encontrada entre avaliações separadas por dois anos ou mais. Para defender essa interpretação é necessário aceitar que os avaliadores antigos influenciariam os novos, o que encontra apoio nos estudos sobre o comportamento de pequenos grupos.

6. ALGUMAS CONCLUSÕES

1. O nível dos cursos de pós-graduação não se altera radicalmente de ano a ano, e isso é captado pelos avaliadores.

2. Entretanto, há mudanças razoáveis nas avaliações, uma vez .que a magnitude das correlações entre anos consecutivos é apenas razoável (média de +0,64).

3. Ao cabo de quatro anos, há modificações consideráveis nas avaliações, refletindo, talvez, modificações contínuas nos cursos de pós-graduação. O coeficiente de determinação das avaliações de 1980 pelas de 1977 é de apenas +0,26, ou seja, as avaliações de 1977 explicam apenas 26% da variância das avaliações de 1980. Os 74% restantes deverão ser explicados por motivos não captados ou incluídos nas avaliações de 1977, inclusive as modificações reais ocorridas posteriormente.

Desde 1977 até 1980, a média das avaliações tem aumentado de forma sistemática: de 2,47 em 1977 até 3,33 em 1980. Há muitas explicações para esse fenômeno, entre as quais sublinhamos as seguintes:

a) uma elevação real na qualidade dos cursos, captada pelos avaliadores;

b) uma elevação real na qualidade dos cursos, devido à criação de novos cursos de alto nível;

c) um relaxamento dos critérios de avaliação;

d) uma combinação das anteriores.

Poderia estar havendo uma elevação real na qualidade dos cursos. Esta explicação colide com as crescentes reclamações sobre a "prostituição" da pós-graduação. Não obstante, essa impressão pode ser falsa. Os dados sobre o número de doutores e livre-docentes sugerem uma elevação da qualidade do corpo docente; entretanto, os dados sobre os critérios de aceitação e de aprovação dos alunos sugerem um declínio na qualidade do corpo discente. Surge, então, a possibilidade de que um corpo docente cada vez mais qualificado esteja produzindo alunos cada vez menos qualificados. Não obstante, a mesma dúvida paira sobre a qualidade dos títulos doutorais e livre-docentes: terá a elevação do número provocado uma redução na média da qualidade? Claro, estas são conjeturas e, à falta de dados, permanecem como tais.

Uma elevação de qualidade devida à criação de novos cursos de alto nível tampouco encontra apoio, já que os novos cursos geralmente têm deficiências que somente com o tempo são sanadas. Uma análise mais detalhada dos dados poderia verificar se os cursos mais recentes obtêm melhor avaliação. Além disso, os novos ursos raramente recebem avaliações muito altas.

As dificuldades com as interpretações anteriores dão certa força à quarta hipótese, o relaxamento dos critérios, que seriam cada vez menos exigentes. Entretanto, essa interpretação permanecerá conjetural até que dados independentes das avaliações demonstrem que a qualidade dos cursos não se eleva, ou se eleva menos do que as avaliações.

A hipótese do relaxamento, porem, pode ser lida valorativamente com sinal contrário: as últimas avaliações seriam justas e as primeiras teriam sido rigorosas em excesso. Tal melhoria poderia resultar de melhores conceitos para cursos pouco conhecidos. De fato, melhora de ano a ano o conhecimento sobre os cursos de pos-graduação, principalmente os mais distantes dos grandes centros. O aumento nos últimos anos do número de visitas de consultores aos cursos poderia explicar em parte este conhecimento maior. A ser verdadeira essa hipótese, não há relaxamento, mas o mero reconhecimento de mérito onde esse não havia sido corretamente identificado.

A formulação de políticas educacionais que objetivam maximizar os efeitos positivos da alocação de recursos públicos deve basear-se em critérios racionais e explícitos. O presente artigo apresentou os critérios que presidiram à formulação e ao aperfeiçoamento do sistema de avaliação dos cursos de pós-graduação no Brasil

anexo 1

*

O autores agradecem as críticas e sugestões de João Batista de Oliveira, Simon Schwartzman, Tadeu Correia, Lúcia dos Guaranys e Norma Rancich. Cumpre, todavia, eximi-los de responsabilidade por erros e omissões do trabalho.

1

Em que pese aos esforços de objetividade na condução da análise, cumpre prevenir aos leitores do envolvimento de um dos autores com a Capes e com o desenvolvimento do seu sistema de avaliação. O acesso privilegiado aos dados e is intenções evitam considerável área de controvérsias; todavia, torna mais árduo para o autor a isenção que se espera em um trabalho dessa natureza.

2

Para efeito da presente exposição, "programa" ou "curso" de pós-graduaçáo denominam a mesma coisa.

3

As vantagens administrativas desse procedimento são enormes. Sete mil bolsas de mestrado ato geridas por quatro funcionários da Capes; a gerência do mecanismo de avaliação, apesar de complexa, ocupa dois funcionários (além de quatro ou cinco envolvidos na construção do arquivo de informações). Em contraste, para administrar um pouco mais de mil bolsas no exterior são necessários cerca de 20 funcionários.

4

O "efeito do halo" transfere, imerecidamente, prestígio ou desprestígio de um programa para outro, na mesma universidade, ou de um momento para outro, de um mesmo programa. Nesse último sentido, um programa continua a ser considerado bom (ou ruim), quando já não o é.

5

Esse termo, pouco apropriado, denomina um dos mais importantes programas da Capes no qual são distribuídas quotas de bolsas diretamente aos cursos.

6

Ao criar o PICD, a Capes buscou incentivar os professores das instituições menos "desenvolvidas a cursar programas no país, Ao' criar uma reserva de bolsas para a instituição, tentou-se quebrar um círculo vicioso que tenderia a perpetuar diferenças institucionais e regionais.

7

Recentemente, a avaliação adquiriu uma utilização curiosa. Vinha-se revelando difícil e errático para os estudantes brasileiros na Alemanha obterem a equivalência do seu mestrado ao "diploma" alemão, a fim de se matricularem diretamente no doutorado. Por um acordo, os graduados de cursos com boa avaliação pela Capes receberão a equivalência, outorgada pelas instituições alemãs.

8

Note o leitor menos familiarizado com métodos estatísticos que, embora alguns termos e passagens posam parecer excessivamente técnicos, suas. implicações e conclusões estio formuladas em linguagem de imediata compreensão.

9

Física, geociências, bioquímica, sociologia, psicologia e engenharia elétrica.

Datas de Publicação

Publicação nesta coleção
26 Jun 2013
Data do Fascículo
Set 1983

This work is licensed under a Creative Commons Attribution 4.0 International License.