Gene Repórter: análise de texto

Mostrando postagens com marcador análise de texto. Mostrar todas as postagens

segunda-feira, 8 de maio de 2017

Divagação científica - divulgando ciências cientificamente 30

Minhas anotações de Winter et al. 2015 sobre o efeito de apresentações de incertezas em textos sobre estudos científicos nas atitudes dos leitores.
--------
Winter, S.; Krämer, N.C.; Rösner, L. & Neubaum, G. 2015. Don’t Keep It (Too) Simple: How Textual Representations of Scientific Uncertainty Affect Laypersons’ Attitudes. Journal of Language and Social Psychology 34(3): 251-72. doi: doi.org/10.1177/0261927X14555872.

Amostra: 78 adultos falantes de alemão (65 mulheres; 13 homens; idade: 40,27±6,04 anos), pais de filhos de ate 18 anos, recrutados via lista de emails e fóruns de discussão online para pais (incentivo de participação: sorteio quatro prêmios de 125 EUR em créditos para uso em site de e-commerce para os que fornecessem email válido em formulário à parte). Escolaridade: 32, nível superior; 26, ensino médio completo; 20, nível de escolaridade inferior ao ensino médio completo.

Textos: Os participantes foram designados aleatoriamente para lerem artigos científicos online, em forma de publicação de blog, sobre os efeitos de video games violentos sobre crianças e adolescentes de um de quatro diferentes níveis de expressões sobre incerteza científica.
.Unilateral/básico: Texto básico unilateral sobre os perigos dos jogos de computador em estilo relativamente neutro sem intensificadores ou palavras vagas ('hedges'): (p.e. 'Um estudo experimental mostrou que jogos realistas com conteúdos violentos podem aumentar o nível de agressão dos jogadores');
.Unilateral/taxativo('assertive'): Versão unilateral sobre os perigos dos jogos de computador com expressões assertivas (p.e. 'sem dúvida', 'Estudos recentes claramente demonstram que...') e intensificadores como 'definitivamente' ou 'altamente (perigosos)';
.Unilateral/vago('hedge'): Versão unilateral sobre os perigos dos jogos de computador com imprecisões lexicais 'lexicals hedges' (p.e. 'em parte', '[perigo] potencial' ou 'poderia') referindo-se a afirmações interpretativas bem como a sentenças curtas sobre as limitações (p.e. 'Foi mencionado que este estudo compara apenas três jogos específicos, significando que ainda há questões em aberto');
.Dois lados: Um outro argumento sobre os efeitos positivos dos jogos de computador foi incluído à versão unilateral vaga de modo que esta versão representa uma argumentação com ambos os lados. Para controlar o efeito da ordem de apresentação, metade dos participantes nesta condição recebeu o argumento pró no começo do texto e a outra metade recebeu o parágrafo adicional ao fim do texto.
.O conteúdo básico (introdução sobre o crescimento dos jogos de computador e três argumentos/parágrafos sobre os efeitos negativos) e os argumentos principais foram os mesmos em todas as condições.
.Estudo piloto prévio testou as forças dos argumentos para que não houvesse um desbalanço entre as versões.

Características dos leitores
.Necessidade de cognição ('need for cognition'): A tendência dos leitores em gostar de pensamentos complexos e se engajar neles foi medida com a escala NC de Cacioppo e Petty (1982): 16 itens como 'Eu somente penso tão profundamente quanto preciso' ('I only think as hard as I have to') (código-revertido) ou 'Eu realmente gosto de tarefa que envolve trazer novas soluções para os problemas', com respostas de 1 a 5. A média dos itens foi usada para produzir um escore NC (α de Cronbach = 0,82; M = 3,76±0,51).
.Crenças epistemológicas ('epistemological beliefs'): Para medir as visões sobre a natureza da ciência e do conhecimento dos participantes, foi usado o questionário de Hofer (2000) de crenças epistemológicas. Os participantes deveriam responder com o grau de concordância (1 = discorda totalmente; 5 = concorda totalmente). 8 itens da dimensão 'Certeza do conhecimento' (p.e. 'A verdade é imutável neste tema' ['Truth is unchanging in this subject'] Outras dimensões foram de justificação do conhecimento (4 items: p.e. 'Respostas corretas neste área são mais uma questão de opinião do que de fato'), fonte doconhecimento (4 itens: p.e. 'Às vezes você deve aceitar as respostas dos especialistas nesta área, mesmo se você não as entender') e se a verdade pode ser atingida (2 itens, p.e 'Os especialistas nesta área podem, no final, atingir a verdade').
.Nota: a consistência interna dessas subdimensões foram questionáveis.

Medidas das variáveis dependentes
.Avaliação dos textos pelos leitores
.8 itens de diferenciações semânticas ('semantic differentials'): não confiável-confiável ('credible'), baixa qualidade-alta qualidade; mal escrito-bem escrito; não útil-útil; desagradável-agradável ('likeable'), não compreensível-compreensível; ruim-bom; não recomendável-recomendável - em escala de 7 pontos).
.Os itens mostraram alta consistência interna: α de Cronbach = 0,95.
.Não houve diferenças significativas na avaliação dos textos pelos leitores entre os tratamentos: todos consideraram-nos bons. Média = 5,53±1,12.
.Atitudes dos leitores em relação ao tópico
.Jogos de computador: 5 itens em escala de 7 pontos de grau de concordância: 'jogos de tiro em primeira pessoa como Counter-Strike deveriam ser proibidos', 'Jogos de computador têm efeitos negativos sobre crianças e adolescentes', 'Jogos de computador violentos treinam crianças e adolescentes para a violência', 'Jogos de computador violentos não são um probelma para o desenvolvimento dos adolescentes' (codificação reversa) e 'Gastar muito tempo no computador tem efeitos negativos no desempenho escolar das crianças'.
.α de Cronbach =0,71. Média = 5,01±1,15.
.Mídia violenta: 6 itens: 'Levando tudo em conta, penso que conteúdos violentas de mídia têm uma influência negativa sobre crianças e adolestentes', 'Conteúdos violentos de mídia aumentam a probabilidade de comportamento agressivo em crianças e adolescentes', 'Para mim, o consumo de conteúdos violentos de mídia é inofensivo' (codificação reversa), 'O consumo de conteúdos de mídia podem ter efeitos negativos sobre o desenvolvimento de crianças e adolescentes', 'Crianças e adolescentes não devem consumir conteúdos violentos de mídia' e 'O consumo de representações de violência na mídia pode ser razoável para crianças e adolescentes aliviarem a agressão' (codificação reversa).
.α de Cronbach =0,84. Média = 5,73±1,11.
.Consumo geral de mídia por crianças e adolescentes: 4 itens em escala de 7 pontos de diferenciais semânticos: não perigoso-perigoso, positivo-negativo, inofensivo-danoso ('harmless-harmful'), razoável-não razoável.
.α de Cronbach =0,91. Média = 3,98±1,09.

Resultados
.Os homens apresentaram uma visão menos negativa em relação aos jogos de computador do que as mulheres. No entanto, o tamanho amostral de homens foi relativamente baixo.
.Em indivíduos com maior necessidade por cognição, a apresentação de mais de um lado dos efeitos de jogos de computador levou a uma atitude menos negativa em relação a esses jogos. (b = −1,33±0,47, t = 2,85, p = 0,006). (Fig. 1.)

Figura 1. Efeito da apresentação unilateral (one-sided) ou dos dois lados (two-sided) dos efeitos de jogos de computadores violentos no comportamento de crianças e adolescentes em pessoas com baixa (low NC) e alta (high NC) necessidade por cognição. Fonte: Winter et al. 2015.

.Efeito similar foi observado entre os leitores com crenças epistemológicas mais sofisticadas. (b = −1,49±0,44, t = 3,41, p = 0,001). (Fig. 2.)

Figura 2. Efeito da apresentação unilateral (one-sided) ou dos dois lados (two-sided) dos efeitos de jogos de computadores violentos no comportamento de crianças e adolescentes em pessoas com crenças epistemológicas complexas ('sophisticated') e simples ('naive'). Fonte: Winter et al. 2015.

.Não se observou efeito significativo do uso de 'imprecisões lexicais' ('hedges') na atitude dos leitores.
.O texto unilateral assertivo apresentou um efeito negativo: diminuindo a atitude negativa dos leitores a respeito dos jogos violentos em relação ao controle. (β = -0,269; p = 0,049 - deve-se notar, no entanto, que os autores não parecem ter feito nenhuma correção do nível de significância em função das múltiplas comparações.)

quinta-feira, 14 de março de 2013

interCiência: conferindo as previsões

Alguns textos da primeira rodada do interCiência tiveram suas autorias reveladas. Por enquanto o meu método não está se saindo muito bem: ~~quatrp~~ ~~cinco~~ seis* erros e só um acerto**. Tem que haver pelo menos 4 acertos para podermos considerar o método como acertando mais do que o acaso (com alfa arbitrariamente definido em 5%). ~~Oremos~~ Aguardemos.

Tabela 1. Desempenho da análise de complexidade na atribuição de autoria aos textos do interCiência.

blogue	previsão	resultado	acerto
42	RC
CE	DE	EM	0
CL	GR
CN	CE	CE	1
CP	CR		0
CR	RV	CN	0
DE	CN	42	0
EM	CL
GR	42		0
RV	EM	CR	0
RC	SB
SB	CP	CP	1
		total

*Upideite(19/mar/2013): atualizado a esta data. **Upideite(19/abr/2013): agora são seis erros e dois acertos.

segunda-feira, 4 de fevereiro de 2013

interCiência: calibrando os chutes

O Gene Repórter participou da ação interCiência do Scienceblogs Brasil. Como os textos enviados não foram identificados, a brincadeira é adivinhar quem é o autor de cada um.

Nos textos há pistas variadas, como escolha dos temas e dos termos, estilo de escrita e composição do texto, uso de imagens, etc. Mas não são fáceis de se usar por portarem uma ampla variação: muitos blogueiros ocultos saíram de sua área de conhecimento habitual para escrever um tema mais adequado ao blogue receptor (como um ou uma profissional da área de psicologia a falar sobre biologia sintética), podem ainda ter misturado com o estilo do autor do blogue receptor e incluído pistas falsas.

42 vezes 42 - Gene Repórter
A dança do sexo (com vídeos!) - 42
As Origens do Emaranhamento - Ecce Medicus
Em algum lugar do passado… molecular - Ciência ao Natural
Injustiça Fisiológica - Ciensinando
Os meus dias já foram mais pequenos - Curioso Realista
Neurobiologia Sintética - SynbioBrasil
Por quem os sinos dobram. Longa vida a Bell. - Caderno de Laboratório
Procrastinação, ou o porquê desse post estar dois dias atrasado - CogPsi
Rastro de Mercúrio - Rastro de Carbono
São Michael, padroeiro dos inventores - O Divã de Einstein
Walt Disney, Motörhead e Fungos - Rainha Vermelha

Abaixo uma nuvem de palavras das postagens mais recentes dos blogues e dos textos publicados através do interCiência.

Figura 1. Nuvens de palavras dos textos dos blogues participantes (à esquerda) e do texto do blogueiro oculto (à direita) no blogue correspondente. Nuvens geradas com o Wordle.

Visualmente é difícil associar qual texto do interCiência pertence a qual blogue. Mas é possível se fazer uma comparação quantitativa, sob o raciocínio de que a escolha de palavras em um texto, em parte, está ligada ao autor (seu vocabulário operacional, seus modos característicos de expressão). Também é possível fazer uma comparação quantitativa de parâmetros de complexidade do texto: tamanho dos parágrafos, uso de parênteses, comprimento das sentenças, igualmente sob o raciocínio de que tais características não são aleatórias e revelam o estilo de expressão do autor. Na Figura 2, o resultado de uma análise comparativa de complexidade.

Figura 2. Análise de complexidade (parâmetros utilizados: tamanho de frase, de parágrafo, pontuações - vírgulas, dois pontos, ponto e vírgulas e exclamações). Em vermelho, valores acima de valor arbitrário de corte; em azul, valores abaixo de valores arbitrário de corte: quanto mais próximo de 0, mais similares os parâmetros de complexidade dos textos.

Em termos de complexidade*, o texto do interCiência publicado no blogue Rastro de Carbono (RC) é mais similar aos textos normalmente publicados no blogue SynbioBrasil (SB - e menos similar aos textos publicados aqui no GR). O texto no Ecce Medicus (EM) tem uma complexidade mais parecida com a dos textos do Caderno de Laboratório (CL - e mais diferente dos textos publicados no Rainha Vermelha - RV). E assim por diante.

Obviamente aqui é uma análise bastante simplificada. O tamanho amostral dos textos também é bastante limitado (10 textos normais dos blogues e apenas um texto do interCiência). É possível maior sofisticação, com calibração de pesos de cada fator - p.e., procedendo-se à maximização da verossimilhança com teste contra outros textos dos blogues - e uma amostragem mais ampla.

Veremos como esta análise se sai caso os verdadeiros autores dos textos sejam revelados futuramente. Algumas comparações podem ser feitas com outras informações:
1) a estrutura do texto publicado no RC é muito similar aos textos do SB (textos divididos por intertítulos e estes com determinado tamanho de fonte e em negrito);
2) o texto publicado no Curioso Realista (CR) está em português de portugal e, entre os participantes, é a variante usada nos textos do Ciência ao Natural (CN): a similaridade na complexidade, no entanto, não foi das maiores (na verdade, os textos de CN se aproximam mais ao texto publicado aqui no GR);
3) o texto no RV foi produzido por alguém ligado à microbiologia (além do próprio autor do RV, o autor do CR é microbiólogo): o índice de complexidade também não foi particularmente similar;
4) o único que trabalha com física entre os participantes da primeira rodada é o autor do CL; a similaridade maior é com o texto publicado no EM (que é sobre física; outro texto com a mesma temática foi publicado no próprio CL);
5) O texto publicado aqui no GR é mais similar aos textos do blogue 42 e a temática são exatamente curiosidades sobre o número 42;
6) O texto no SB foi escrito por alguém ligado à psicologia e à neurobiologia; entre os blogues participantes, são psicólogos os autores de O Divã de Einstein (DE) e de CogPsi (CP). Os textos de CP têm uma boa similaridade com o publicado no SB;
7) No CP, o texto é sobre psicologia, mas não é particularmente similar aos textos de DE (é mais similar aos textos de CR em complexidade);
8) No 42, o tema de sexo de animais e vídeos de aranhas remete ao RV; embora não seja particularmente similar no índice, a maior similaridade é com os textos do RV (e muito próximo com os do RC);
9) No Ciensinando (CE), o texto é sobre fisiologia, tema explorado no EM. Mas o valor não é muito similar, aproxima-se mais do 42.

Se essas informações estiverem corretas, mesmo uma análise bastante simples como a feita aqui, embora muito longe da perfeição, parece não ser completamente furada.

E você, leitor, leitora, quais os seus chutes? (Os dados brutos que usei para a análise estão aqui.) O Scienceblogs Brasil dará um exemplar de O Livro dos Milagres (de Carlos Orsi) para quem acertar o maior número de autores: saiba mais aqui.

--------
*A metodologia foi bastante simples - ainda que um tanto braçal. Foram contados (com ajuda da função de busca em processadores de texto) os números de palavras, parágrafos, linhas e pontuações. Parâmetros como tamanho de frase (dividindo-se o número de palavras pelo número de pontos), tamanho de parágrafo (dividindo-se o número de linhas pelo de parágrafos), índice de vírgulas (número de palavras sobre o de vírgulas), de parênteses, de dois pontos, de ponto e vírgula e de exclamações foram calculados e comparados: para cada par de blogue e texto do interCiência publicado, foi considerada a soma dos módulos das diferenças relativas entre os parâmetros. Se a complexidade for exatamente a mesma, a soma deve ser zero. Quanto maior a diferença, maior a soma.

Upideite(05/fev/2013): Aqui como seria a previsão final baseada unicamente em critérios de complexidade:

Será? (Tem pelo menos um que muito provavelmente está errado, no entanto.)

Upideite(06/fev/2013): As chances de se acertar ao acaso ao autores dos textos:

0 (acerto): ~34%; 1: ~37%; 2: ~20%; 3: ~7%; 4: ~2%; 5: ~0,4%; 6: ~0,07%; 7: ~0,01%; 8: ~0,002%; 9: ~0,0003%; 10: ~0%; 11: 0% (exatamente 0, é impossível se errar somente 1); 12: 1/12! = 1/479.001.600

Abaixo, tabela com as previsões e os resultados do interCiência:

Tabela 1. Desempenho da análise de complexidade na atribuição de autoria aos textos do interCiência.

blogue	previsão	resultado	acerto
42	RC
CE	DE	EM	0
CL	GR
CN	CE	CE	1
CP	CR		0
CR	RV	CN	0
DE	CN	42	0
EM	CL
GR	42		0
RV	EM	CR	0
RC	SB
SB	CP	CP	1
		total

Lives de Ciência

segunda-feira, 8 de maio de 2017

Divagação científica - divulgando ciências cientificamente 30

quinta-feira, 14 de março de 2013

interCiência: conferindo as previsões

segunda-feira, 4 de fevereiro de 2013

interCiência: calibrando os chutes

LinkWithin

Sobre

Parceria

Documento GR

Links

Cinto de utilidades

Siganme los buenos

Arquivo do blog

Copyleft

Lives de Ciência

segunda-feira, 8 de maio de 2017

Divagação científica - divulgando ciências cientificamente 30

quinta-feira, 14 de março de 2013

interCiência: conferindo as previsões

segunda-feira, 4 de fevereiro de 2013

interCiência: calibrando os chutes

LinkWithin

Sobre

Parceria

Documento GR

RSS

Links

Cinto de utilidades

Siganme los buenos

Arquivo do blog

Copyleft