Crédito: Site da editora Zahar.
O autor apresenta conceitos como as estatísticas descritivas, as armadilhas das comparações de dados descontextualizados, as distribuições de probabilidade, a correlação, a confiabilidade dos dados, o teorema do limite central, a inferência estatística, os erros do tipo I e II, a significância, os intervalos de confiança, a análise de regressão, os experimentos e os cuidados inerentes a todos estes tópicos. O livro é rico em exemplos para ilustrar os conceitos e utiliza matemática somente o estritamente necessário evitando que se torne uma leitura pesada, o que por outro lado limita o livro como uma opção somente para uma primeira aproximação da área de estatística.
O capítulo 12 - Erros comuns de regressão, onde se discorre sobre o uso de regressão para analisar relações não lineares, ou que correlação não é causalidade, ou sobre o viés de variáveis omitidas, a multicolinearidade, a extrapolação e a mineração de dados pode ser o mais interessante para se levar para sala de aula. O livro tem ainda um índice remissivo bem elaborado. Para despertar o interesse, segue um trecho do capítulo de Conclusões (WHEELAN, 2016, p. 296-300):
"Quem vai saber o que sobre você?
No verão passado, contratamos uma nova baby-sitter. Quando ela chegou aqui em casa, comecei a explicar nossa história da família: “Eu sou professor universitário, minha esposa é professora…”
“Ah, eu sei”, a moça disse com um aceno de mão. “Dei uma espiada em vocês no Google.”
Fiquei simultaneamente aliviado por não ter de terminar a lenga-lenga e ligeiramente preocupado por quanto da minha vida podia ser reunido por uma breve busca na internet. Nossa capacidade de reunir e analisar enormes quantidades de dados – o casamento da informação digital com poder computacional barato e a internet – é única na história da humanidade. Vamos precisar de algumas regras novas para esta nova era.
Vamos pôr o poder dos dados em perspectiva simplesmente com um exemplo das lojas de varejo Target. Como a maioria das empresas, a Target se empenha em aumentar seus lucros compreendendo seus clientes. Para fazer isso, a companhia contrata estatísticos para fazer o tipo de “análise preditiva” descrita anteriormente no livro; eles usam dados de vendas combinados com outras informações sobre consumidores para descobrir quem compra o que e por quê. Nada disso é inerentemente ruim, pois significa que a Target provavelmente tem exatamente o que você quer.
Mas vamos nos aprofundar por um momento em um exemplo do tipo de coisas que os estatísticos trabalhando no porão sem janelas da sede central da corporação podem descobrir. A Target descobriu que a gravidez é uma época particularmente importante em termos de desenvolver padrões de compras. Mulheres grávidas desenvolvem “relações de varejo” que podem durar décadas. Como resultado, a Target deseja identificar mulheres grávidas, particularmente aquelas que estão no segundo trimestre, e fazer com que entrem nas suas lojas com mais frequência. Um articulista da New York Times Magazine acompanhou a equipe de análise preditiva na Target enquanto buscava encontrar e atrair compradoras grávidas.
A primeira parte é fácil. A Target tem uma lista de chá de bebê na qual mulheres grávidas anotam presentes para o bebê antes do seu nascimento. Essas mulheres já são clientes da Target e efetivamente contaram à loja que estão grávidas. Mas eis o macete estatístico: a Target descobriu que outras mulheres que demonstram os mesmos padrões de compras provavelmente também estão grávidas. Por exemplo, mulheres grávidas muitas vezes trocam para loções inodoras; começam a comprar suplementos vitamínicos; começam a comprar sacos ultragrandes de bolas de algodão. Os gurus da análise preditiva da Target identificaram 25 produtos que juntos possibilitaram um “escore de predição de gravidez”. Todo o objetivo dessa análise era enviar a mulheres grávidas cupons relativos à gravidez na esperança de fisgá-las como clientes Target no longo prazo.
Até que ponto esse modelo era bom? A New York Times Magazine relatou uma história sobre um homem de Minneapolis que entrou numa loja da Target e exigiu falar com o gerente. O homem estava enfurecido pelo fato de sua filha adolescente estar sendo bombardeada com cupons da Target relacionados com gravidez. “Ela ainda está no colégio e vocês estão mandando cupons para berços e roupas de bebê? Vocês estão tentando incentivá-la a ficar grávida?”, perguntou o homem.
O gerente da loja desculpou-se profusamente. Chegou a ligar para o pai alguns dias depois para pedir desculpas outra vez. Só que dessa vez o homem estava mais calmo; e foi a vez dele de se desculpar. “Acontece que na minha casa houve algumas atividades das quais eu não estava completamente ciente”, disse o pai. “Ela vai dar à luz em agosto.”
Os estatísticos da Target descobriram que sua filha estava grávida antes dele.
É isso que conta para eles… mas também não é da conta deles. Pode dar a sensação de uma conduta um pouco além de invasiva. Por esse motivo, algumas empresas agora mascaram o quanto sabem sobre você. Por exemplo, se você é uma mulher grávida no segundo trimestre, pode receber alguns cupons por correio para berços e fraldas – junto com um desconto para um cortador de grama e um cupom para meias de boliche grátis na compra de qualquer par de sapatos de boliche. Para você, parece simplesmente fortuito que os cupons relacionados com gravidez tenham vindo pelo correio junto com as outras bobagens. Na verdade, a empresa sabe que você não joga boliche nem corta sua grama; ela está meramente cobrindo seu rastro de modo que aquilo que ela sabe a seu respeito não pareça tão assustador.
O Facebook, uma empresa com virtualmente nenhum ativo físico, tornou-se uma das companhias mais valiosas do mundo. Para investidores (em contraste com usuários), o Facebook tem apenas um enorme ativo: dados. Investidores não adoram o Facebook porque ele lhes permite reconectar-se com suas namoradas do baile de formatura. Eles adoram o Facebook porque cada clique do mouse produz dados sobre onde o usuário mora, onde compra, o que compra, quem ele conhece e como passa o seu tempo. Para o usuário, que espera reconectar-se com sua namorada do baile de formatura, a coleta de seus dados pelas empresas pode ultrapassar as fronteiras da privacidade.
Chris Cox, vice-presidente de produto do Facebook, disse ao New York Times: “O desafio da era da informação é o que fazer com ela.”
Certamente.
E na arena pública, o casamento dos dados com a tecnologia fica ainda mais traiçoeiro. Cidades pelo mundo afora instalaram milhares de câmeras de segurança em locais públicos, algumas das quais em breve contarão com tecnologia de reconhecimento facial. Autoridades policiais podem seguir qualquer carro para onde quer que ele vá (e manter extensivos registros de onde esteve) acoplando um dispositivo de GPS ao veículo e então rastreando-o por satélite. Será esse um meio barato e eficiente de monitorar atividades criminosas em potencial? Ou será que é o governo usando a tecnologia para violar nossa liberdade pessoal? Em 2012, a Suprema Corte dos Estados Unidos decidiu por unanimidade que se tratava da segunda alternativa, determinando que os órgãos de cumprimento da lei não podem mais prender dispositivos de rastreamento em carros particulares sem um mandado.
Ao mesmo tempo, governos ao redor do mundo mantêm imensos bancos de dados de DNA, que são uma poderosa ferramenta para a solução de crimes. O DNA de quem deve fazer parte do banco de dados? De todos os criminosos condenados? De toda pessoa que é presa (sendo ou não posteriormente condenada)? Ou uma amostra de cada um de nós?
Estamos só começando a lidar com as questões que jazem na intersecção da tecnologia com os dados pessoais – que não tinham nenhuma relevância quando a informação governamental era armazenada em arquivos metálicos em porões cheios de poeira, e não em bancos de dados digitais que são potencialmente pesquisáveis por qualquer um em qualquer lugar. A estatística é mais importante do que nunca porque temos oportunidades mais significativas de fazer uso desses dados. Contudo, as fórmulas não nos dirão quais usos dos dados são apropriados e quais não são. A matemática não pode suplantar o discernimento."
Referência
WHEELAN, Charles. Estatística: o que é, para que serve, como funciona. Rio de Janeiro: Zahar, 2016.
Nenhum comentário:
Postar um comentário