PESQUISA

Participe da votação sobre os melhores canais de divulgação científica em português na internet.

sexta-feira, 7 de setembro de 2012

Forrobodó Universitário: a polêmica do RUF

"To say that dinosaur classification is contentious is like saying that the Atlantic Ocean is a bit damp. The number of different dinosaur classifications operational at any time can be described by the formula
C = (N + A) - 1
where C is the number of classifications, A is the number of amateur paleontologists, and N is the number of dinosaur paleontologists. The '-1' represents the true classification, which we shall never know (part of Durham's law)." (p. 62)
Farlow, J.O. & Brett-Suman, M.K. (eds.) 1997. The Complete Dinosaur. Indiana University Press. 752 pp.


Não falamos aqui de dinossauros (apesar da opinião eventualmente em contrário de alguns), mas de universidades - instituições surgidas entre o fim do século 9 e começo do 10, algumas das pioneiras resistem até hoje (como a Universidade de Al-Azhar, fundada no Cairo em cerca de 970) - e classificações ou rankings.

Já oO hábito de classificação certamente precede em muito as primeiras universidades. Junte a necessidade de categorização dos objetos (como por exemplo, coisas que se pode comer e coisas que não se pode), a necessidade de quantificação (quanto de alimentos foi produzido nesta safra, será o suficiente para sustentar a população?) e o hábito competitivo (razão da existência de tantos esportes) e, presto, eis os rankings: listas ordenadas de acordo com alguma qualidade (normalmente por diferenças quantitativas).

Os rankings invariavelmente vêm acompanhados de polêmicas e contestações. Em boa parte porque a criação de rankings é motivada justamente pela existência de divergência de opiniões sobre quem (ou o quê) é melhor do que quem (ou o quê) - naturalmente o resultado final irá frustrar expectativas.

Então todo ranking é inútil no fim das contas? Não exageremos. Eles são úteis na medida em que deixam suas metodologias transparentes - quem contesta poderá apontar mais objetivamente (ou menos subjetivamente) os pontos de divergência e ainda poderá tentar reproduzir o processo (ou introduzir-lhe modificações) e verificar se resultados similares são obtidos (ou mais próximo do que se esperava). Então qualquer ranking é útil? Não exageremos tampouco por este extremo. Há metodologias inadequadas para os objetivos pretendidos: entrevistar as pessoas em um show promovido pela Gaviões da Fiel para saber qual o time do coração não irá revelar muita coisa sobre qual o clube de preferência dos paulistanos em geral - para um caso menos caricatural, enquetes feitas por internet não têm validade de amostragem estatisticamente justificada para representar, digamos, a população de um país.

A quizila e quizumba da vez é o resultado do Ranking Universitário Folha. Menos no aspecto geral - que bate com o amplo consenso que as IES públicas são, em geral, muito melhores do que as congêneres privadas - do que em alguns detalhes. Um em específico. A avaliação da Unicamp no quesito 'mercado', em comparação, por exemplo, com a Unip. Leandro Tessler, em seu Cultura Científica, explicitou sua divergência. Outros, como o Dr. Tufi Soares, creem que deva haver alteração no modo de avaliação do quesito 'ensino'.

É possível que seja necessário algum refinamento na metodologia - o que, em geral, implica em custos aumentados na obtenção dos resultados; porém, não me parece que seja o caso de explodir ou implodir o RUF.

Não encontrei detalhes da validação da metodologia adotada pela Folha. Mas podemos fazer algumas análises de correlação de parâmetros - os usados pela própria Folha e outros obtidos de modo independente.

Tessler questiona: "No entanto, entre as 40 primeiras segundo a Avaliação do Mercado 10 receberam ZERO em Avaliação do Ensino. É razoável supor que o 'mercado' privilegie universidades com um ensino tão mal avaliado? Haveria uma máfia de responsáveis por recursos humanos que de propósito privilegiaria egressos de certas escolas, ainda que de qualidade inferior?"

Há que se observar que o grupo que avaliou o fator 'mercado' (profissionais de RH) é diferente do que avaliou o fator 'ensino' (cientistas de maior produtividade). Os critérios de cada grupo tendem a ser distintos: o segundo grupo tenderá a avaliar a questão do ponto de vista de formação do profissional voltado para a pesquisa; o primeiro grupo, de profissionais voltados para o mercado. Isso invalida a metodologia? Creio que não. Até porque, na verdade, apesar das divergências de critérios (subjetivos dos avaliadores), na *média*, há convergência da avaliação (Fig. 1).*

Figura 1. Correlação entre médias de notas de avaliação do ensino e de avaliação de mercado no RUF. Barra: desvio padrão. Fonte: Folha.

Os avaliadores da qualidade de educação foram rigorosos atribuindo notas 0 para 142 instituições analisadas: 74,35%. Não é de se espantar que entre as 40 mais bem avaliadas pelo mercado haja uma parte com notas 0: 16/40 = 40% (bem menos do que no geral, como não é tampouco de se espantar).

Considerando-se um critério independente de avaliação da qualidade de ensino - a média dos Conceitos Preliminares de Curso no Enade 2010 - também temos uma correlação razoável com a avaliação do critério 'mercado' no RUF (Fig. 2).**

Figura 2. Correlação entre médias de CPC - Enade 2010 - e avaliação do mercado pelo RUF 2012. Fontes: Folha e Inep.

Os rankings internacionais que inspiraram a metodologia adotada no RUF tampouco são livres de polêmicas.

A minha visão é que se deve ter uma leitura menos a ferro e a fogo dos rankings. Nenhum (ou quase nenhum) traz, por exemplo, valores de desvio padrão das medidas adotadas. Como a teoria do erro nos garante (e a prática mais ainda), toda medida importa algum erro. Então se se está em 2o ou 5o lugar - ainda mais com um diferença de apenas 5,48 pontos em 100 possíveis (sendo o desvio padrão de 20,99 - atenção: como os valores não têm distribuição normal [vide abaixo], não são aplicáveis boa parte dos testes estatísticos para se avaliar as diferenças***) - não quer dizer que haja realmente uma diferença significativa entre as IES. Desse modo, avaliação de medidas individuais - como se esta ou aquela universidade está nesta ou naquela posição - são menos informativas. Análises menos problemáticas são avaliação em relação a *grupos*: como privadas vs. públicas (24,47±15,01 vs. 42,02±23,36), do Sudeste vs. de outras regiões (33,62±23,62 vs. 33,84±20,27); ou um exame de séries históricas - no caso do RUF, obviamente isso ainda não é possível. Para avaliação de IES individuais convém também comparar entre os diferentes rankings.

-------------------
As notas não estão calibradas de modo a se obter uma distribuição normal (Fig. 3)

Figura 3. Distribuição das classes de notas do RUF. (Teste Shapiro-Wilk, W = 0,955, p < 0,001.) Folha.

.

Não há necessidade de que notas tenham uma distribuição normal, mas isso permitiria algumas análises estatísticas interessantes - como a mencionada análise estatística da significância das diferenças das notas***.
-------------------


Confesso que tenho uma certa coceira de criar um ranking de rankings - classificados, por exemplo, pelo número de citações em certos tipos de documentos.

-------------------

*Obs. Listando-se pela classificação geral RUF e fazendo-se a média de grupos de 10 em 10 para as notas de critérios de ensino e mercado. Menos para o último grupo, com 11 elementos - os últimos do ranking.
**Obs2. As IES foram listadas por ordem crescente dos valores de CPCs e foram tomadas as médias em grupos de 10 e 10 instituições. Exceto o grupo de 6 mais bem avaliadas pelo critério de CPC.

Abaixo relacionarei postagens de blogues analisando o RUF (se souberem de outros, por favor, avisem-me nos comentários):
Devaneios Docentes: Ranking Universitário
Hum Historiador: Rankings universitários e sua manipulação para fins propagandísticos
Arcos (Henrique Araújo Costa): Sobre o ranking de universidades da Folha
Observatório da Imprensa (Sylvia Moretzsohn): Sobre universidades, campeonatos e reportagem
Observatório da Imprensa (João de Abreu): Celebração da pesquisa a quilo

Upideite(08/set/2012): Por sugestão do Prof. Tessler nos comentários, fiz um exame um pouco mais detido (mas ainda assim um tanto superficial), da componente 'ensino'. De fato, a componente 'ensino' do RUF não apresentou correlação maior com o CPC do Enade. Mas, ao contrário do suposto, parece não se dever ao fato do CPC ser influenciado pelo fator pesquisa, e, sim, pelo fator *'ensino' do RUF* estar mais correlacionado a questões referentes à pesquisa e menos ao ensino em si.

Na Fig. 4, correlação entre as notas de ensino atribuídas pelo painel de pesquisadores consultados pelo RUF e componentes do Enade. As instituições foram ordenadas de acordo com a nota de critério 'ensino' do RUF e tomada as médias dos valores das componentes. A classe de média 0 de 'ensino' contém 130 IES, a classe de média mais alta, 8 IES; as demais classes são formadas por 10 IES.

Figura 4. Correlação entre notas de 'ensino' do RUF e algumas componentes do Enade 2010. Eixo horizontal: média de nota de 'ensino RUF', vertical, valores das componentes do Enade. Fontes: Folha e Inep.


Há alguma correlação entre o 'ensino' do RUF e elementos como proporção de mestres e doutores e a nota de regime de dedicação exclusiva avaliados pelo Inep. Mas não em relação ao desempenho dos alunos (nota dos ingressantes, dos concluintes, diferença de desempenho), infraestrutura e componente pedagógico. Aparentemente, a nota dada pelo painel de especialistas no critério 'ensino' reflete mais a qualidade do corpo docente do que outros fatores relacionados à qualidade do ensino.

Um ponto que sugeriria para análise mais detida na metodologia do RUF seria justamente essa componente 'ensino'.

Não está mostrada na figura, mas há alguma correlação entre a componente 'ensino' e as componentes 'pesquisa' e 'inovação' - o que não é de todo surpreendente. Não por outra coisa, a componente 'pesquisa' foi avaliado pelo mesmo painel e inovação está bastante ligada à pesquisa (de fato, a correlação é quase 100% - Fig. 5 - que, no fundo, o critério 'inovação' é redundante ao de 'pesquisa').

Uma sugestão que faço é uma análise de correlação multifatorial para a determinação dos pesos dos componentes para evitar a redundância.

Figura 5. Correlação das componentes 'pesquisa' e 'inovação' do RUF. Fonte: Folha.

***Upideite(09/set/2012): adido a esta data.

8 comentários:

Leandro R. Tessler disse...

Takata,
Excelente texto!
Você calculou o coeficiente de correlação das Figuras 1 e 2?
Se um estudante me mostra uma curva com aquelas dispersões mando ele voltar para o lab e medir de novo, ou eventualmente concluo que não há correlação entre os eixos. Em particular na Figura 2 é possível facilmente ajustar uma reta com declividade negativa!
Eu não esperaria muita correlação entre CPC e ensino, dado que o cálculo do CPC é bastante influenciado por indicadores de pesquisa. Mas mesmo sendo muito pessimista eu esperaria, como explicado no Cultura Científica, correlação entre Avaliação do Mercado e Qualidade de Ensino. Por 2 motivos:
1) O mercado não é homeopata (quanto menos mais).
2) O mercado se adaptaria rapidamente e a procura pelas privadas (pelo menos as da lista) aumentaria em relação às públicas, o que nunca aconteceu.

Abraço, e continue botando lenha na fogueira!
Leandro

none disse...

Salve, Tessler,

Grato pela visita e comentários.

Os coeficientes estão na figura. Na verdade o R^2.

Não é tão fácil traçar uma correlação negativa (muito mais pontos ficariam de fora) - menos difícil é traçar uma reta horizontal. Mas o melhor ajuste (considerando apenas o do tipo linear) é de coeficiente positivo.

De todo modo, acho que sua confiança é um tto exagerada no autoajuste do mercado. Várias suposições da teoria econômica neoclássica são violadas no ambiente real:
a) Os agentes econômicos *não* são perfeitamente racionais;
b) A entrada e saída do mercado *não* é livre;
b1) Não há infinitos concorrentes;
c) Os agentes econômicos *não* são independenes;
d) O fluxo de informação *não* é livre.

Quanto ao CPC, que eu saiba não entram exatamente indicadores de pesquisa - no máximo, a proporção de mestres e doutores (25%), mas que é tb um tto justificadamente um indicador de qualidade do ensino.

Espero que surjam novas iniciativas similares de classificação de IES brasileiras.

[]s,

Roberto Takata

Leandro R. Tessler disse...

Takata,
Fui traído pela idade e pelos números pequenos...
Pequenos na fonte e no valor de Rˆ2.
Rˆ2 nesses valores significa: Não há correlação ou no máximo uma correlação muito tênue. Sempre é possível traçar uma reta se você se contentar com Rˆ2 baixo.
Seria sim possível passar uma reta com coeficiente angular negativo ficando dentro dos intervalos de confiança de um desvio padrão.
O "mercado" é muito mais esperto do que a FSP está supondo. Sempre se procura contratar os profissionais que vão contribuir para aumentar a lucratividade da empresa. Minha crítica à metodologia empregada é que o resultado obtido não corresponde à real percepção que o "mercado" tem das universidades. Não tenho dados científicos, mas dentro do círculo de amigos da minha filha mais velha tem vários formados na Unicamp com um salário inicial que os formados na Unip em profissão semelhante não conseguem nem em sonho. Como o "mercado"percebe as duas universidades?

Abraço,
Leandro

Leandro R. Tessler disse...

Takata,
Fui traído pela idade e pelos números pequenos...
Pequenos na fonte e no valor de Rˆ2.
Rˆ2 nesses valores significa: Não há correlação ou no máximo uma correlação muito tênue. Sempre é possível traçar uma reta se você se contentar com Rˆ2 baixo.
Seria sim possível passar uma reta com coeficiente angular negativo ficando dentro dos intervalos de confiança de um desvio padrão.
O "mercado" é muito mais esperto do que a FSP está supondo. Sempre se procura contratar os profissionais que vão contribuir para aumentar a lucratividade da empresa. Minha crítica à metodologia empregada é que o resultado obtido não corresponde à real percepção que o "mercado" tem das universidades. Não tenho dados científicos, mas dentro do círculo de amigos da minha filha mais velha tem vários formados na Unicamp com um salário inicial que os formados na Unip em profissão semelhante não conseguem nem em sonho. Como o "mercado"percebe as duas universidades?

Abraço,
Leandro

none disse...

Salve, Tessler,

Na verdade como é R^2, isso corresponde a um r = 0,822 e 0,829 respectivamente para as figuras 1 e 2, o que indica uma linearidade razoável. (Um índice próximo de 0 indica apenas que não é linear, não necessariamente que não há correlação.)

Não disse que não é possível se traçar uma reta descendente. Eu disse que é mais difícil. Visto que deixa mais pontos de fora.

As curvas apresentadas são a de melhor ajuste (linear).

É difícil falar em "real" funcionamento do mercado. Há várias abordagens possíveis e cada uma tem vantagens e desvantagens.

Por exemplo, uma universidade pode se correlacionar com maiores salários. Mas isso pode implicar em menores oportunidades: formando para um mercado mais restrito, digamos.

O pressuposto do RUF me parece razoável: dado dois candidatos em condições similares, para formação em qual faculdade haveria preferência?

Isso pode gerar problemas mais localizados - como Unicamp x Unip. Mas outras metodologias tb podem gerar outros problemas localizados. O problema é se isso se generaliza, não parece ser o caso.

Esses rankings são mais úteis para uma análise mais 'macro', como comento na postagem, do que dizer especificamente se a universidade X é melhor do que a Y.

[]s,

Roberto Takata

Leandro R. Tessler disse...

Takata,
Na minha área pelo menos Rˆ2 abaixo de 0,9 significa que a dependência não é linear mesmo. Abaixo de 0,8 dizemos que nem correlação os dados têm.
Gostei do seu Upideite. Muito interessante!
Abraço,
Leandro

Leandro R. Tessler disse...

Takata,
Na minha área pelo menos Rˆ2 abaixo de 0,9 significa que a dependência não é linear mesmo. Abaixo de 0,8 dizemos que nem correlação os dados têm.
Gostei do seu Upideite. Muito interessante!
Abraço,
Leandro

none disse...

Salve, Tessler,

Sim, a intepretação depende da área. Ciências físicas em que normalmente se é possível isolar melhor as variáveis podem ser mais restritivas.

No geral, coeficiente de correlação r acima de 0,8 (ou seja, coeficiente de determinação R^2 acima de 0,64 - isto é, com menos de 36% da variância deixada sem explicação) é indicativo de correlação forte.

[]s,

Roberto Takata

LinkWithin

Related Posts with Thumbnails