Essa abordagem alternativa é uma visão bayesiana. Ela envolve uma análise do ponto de vista da lógica-matemática e da teoria das probabilidades. Esta postagem terá então um relativo grau de matematização, mas são contas bastantes simples - embora, a depender do problema, a modelagem possa adquirir um grau bastante elevado de complexidade.
Mais uma vez aproveitarei trechos (modificados) do texto mais longo de um ensaio.
----------------------
A teoria bayesiana está relacionada à questão probabilística: como o acréscimo de uma nova observação altera – aumenta ou diminui – a probabilidade da correção de uma hipótese inicial. Não se trata, portanto, de uma teoria sobre o funcionamento do processo científico propriamente dito, mas pode ser adaptada para contemplá-lo: já que parte do processo científico consiste justamente na coleta de observações sobre fenômenos naturais e seu cotejamento contra as previsões feitas por uma hipótese ou teoria científica a respeito desses fenômenos. Ela é baseada no teorema de Bayes.
A equação 1 significa basicamente que a probabilidade de a hipótese estar correta considerando-se os dados obtidos é igual à: probabilidade de se obter os dados em questão caso a hipótese considerada seja mesmo verdadeira vezes a probabilidade a priori atribuída à hipótese (a crença que tínhamos na hipótese antes de se obter os resultados) dividida pela probabilidade média de se obter tais dados.
A figura 1 representa dois conjuntos genéricos A e B, poderia ser, p.e., A, o conjunto de pessoas que gostam da cor vermelha, e B, o conjunto de pessoas que gostam da cor azul. Há uma região de sobreposição, representada pela zona arroxeada – ela representa o conjunto de pessoas que gostam tanto de vermelho quanto de azul. A região em azul, com o rótulo ~AB indica as pessoas que não gostam de vermelho e gostam de azul. Digamos que o grupo A tenha 200 pessoas, o grupo B tenha 200 pessoas e a intersecção AB tenha 100 pessoas. (Ressaltando, o grupo AB pertence tanto ao conjunto A, quanto ao conjunto B – então o total de pessoas são de 200 + 200 – 100 = 300 indivíduos. Do contrário, estaríamos contando o conjunto AB duas vezes.)
Desse universo, se tomarmos uma pessoa ao acaso, a probabilidade dela gostar de vermelho é numericamente igual à proporção de pessoas que gostam de vermelho: isto é, o total de pessoas que gostam de vermelho (NA) dividido pelo total de pessoas (N). Assim P(A) = NA/N = 200/300 = 2/3. Do mesmo modo, a probabilidade de pessoas que gostam de azul é: P(B) = NB/N = 2/3. Já a probabilidade de que tenhamos tomado, ao acaso, uma pessoa que goste tanto de vermelho quanto de azul: P(AB) = NAB/N = 100/300 = 1/3. A probabilidade condicional P(A|B) representa a probabilidade de termos tomado uma pessoa que goste de vermelho, sabendo-se que ela gosta de azul. Para calcularmos essa probabilidade, basta dividir o número de pessoas que gostam de vermelho e azul (isto é, faça parte do conjunto AB) pelo número de pessoas que gostam de azul, assim: P(A|B) = NAB/NB = 100/200 = 1/2. Isso também corresponde a: P(A|B) = P(AB)/P(B) = (NAB/N)/(NB/N) = NAB/NB – como na situação anterior.
Similarmente: P(B|A) = P(AB)/P(A). Assim, rearranjando os termos: P(AB) = P(B|A).P(A)
Tendo isso em mente, é fácil deduzir a equação (1).
Apenas aqui representada por letras diferentes. Uma forma alternativa é apresentada abaixo (desdobrando-se P(B) em suas componentes em relação aos eventos ou elementos de A):
P(H|D) é denominado de probabilidade a posteriori da hipótese H, P(H) é a probabilidade a priori da hipótese H: isto é, representam as probabilidades da hipótese H ser verdadeira depois e antes do conjunto de dados D ser obtido. P(D|H) é denominado de verossimilhança (likelihood) da hipótese H. E P(D|~H) é a verossimilhança da hipótese ~H, a negação de H (isto é, que H é falso).
Resultados surpreendentes, por anti-intuivos (mas, tanto quanto podemos saber, verdadeiros ou “verdadeiros”), podem ser obtidos a partir da equação (4). Considere que uma pessoa se submeta a um exame para o diagnóstico de uma doença rara (uma pessoa em 100.000 a apresenta na população em geral). O exame é bastante preciso: apenas 1% de casos de falso positivo (isto é, apenas 1 teste de pessoas saudáveis a cada 100 realizados dá um resultado falso de que a pessoa é afetada pela doença) e 1% de falso negativo (1 em cada 100 exames de pessoas com a doença dá um resultado falso de que a pessoa não tem a enfermidade). O exame dá positivo. Qual a probabilidade de a pessoa estar mesmo doente?
Não é de 99% como se poderia imaginar pela precisão do exame. Considere que a probabilidade antes do exame de a pessoa ter a doença é de 1:100.000 (que é a taxa de incidência na população – e considerando-se que a pessoa foi tomada ao acaso dessa população): assim a probabilidade a priori P(H), isto é, de ser doente, é igual a 1/100.000. E a probabilidade a priori P(~H), isto é, de não ser doente, 1-P(H), é de 99.999/100.000. A probabilidade P(D|H), isto é, de dar positivo sendo a pessoa doente (positivo verdadeiro), é de 99/100; e a probabilidade P(D|~H), do exame dar positivo sendo a pessoa saudável (falso positivo) é de 1/100. Então, pela equação (4), a probabilidade P(H|D) da pessoa ser doente, dado o resultado do exame, será de:
Ou seja, as chances são de 1 em 1.000 e não de 99 em 100. Claro que, dado que o exame deu positivo, as chances da pessoa ser doente aumentam em relação à probabilidade a priori – isto é, em relação à média da população: de 1 em 100.000, passa para 1 em 1.000. Um modo de entender isso é que, na população, há um número muito maior de pessoas saudáveis, de modo que os falsos positivos acabam sendo em número muito maior do que o de
Se um novo exame é feito, com resultado positivo, a probabilidade sobe para cerca de 1:10; mais um e a probabilidade vai para perto de 9:10; outro, 99:100 e assim por diante. A probabilidade vai aumentando, aproximando-se de 1, mas sem jamais atingi-lo.
Essa abordagem dá suporte à ideia probabilística de que o acúmulo de resultados positivos aumenta gradativamente a probabilidade de uma hipótese ou teoria ser verdadeira. Mas como isso se casa com a visão popperiana de que não se pode provar a veracidade de uma hipótese por maior que seja o número de resultados positivos?
----------------------
(To be continued...)
Nenhum comentário:
Postar um comentário