segunda-feira, 8 de março de 2010

Medidas centrais

As medidas centrais são também conhecidas por medidas de localização, uma vez que nos permitem ter uma noção da distribuição dos dados.

Média

Considere-se que a amostra em estudo tem um número n de observações (ex: n inquéritos, n pessoas, n doentes, etc). A média de uma amostra, ou média aritmética é a soma do número de observações a dividir pelo o número total de observações, i.e.:


Para uma melhor compreensão, considere-se o exemplo de um estudo onde a variável a analisar, X, refere-se ao número de condutores de veículos ligeiros.n será o número de indivíduos da amostra e será o número de indivíduos com carta de condução de ligeiros.

Mediana


Para calcular a mediana, torna-se necessário ordenar o conjunto de observações por ordem crescente. Se o número de observações for ímpar, a mediana é ``o valor do meio'', por exemplo, no conjunto de observações da idade de diferentes indivíduos: 20, 22, 24, 25, 26, a mediana corresponde ao valor 24. Ou seja, 50% dos indivíduos têm uma idade igual ou superior a 24, e os restantes 50 uma idade igual ou inferior a 24. Se a amostra tiver uma dimensão n par, então,
calcula-se a média aritemética entre os dois valores centrais, por exemplo: 20, 22, 24, 25, 26, 27, a mediana será (24+25)/2 = 24,5.

Com um pouco mais de rigor, calcula-se a mediana de uma amostra com dimensão n, da seguinte maneira:


Moda

Também para o cálculo da moda é conveniente (mas não obrigatório) a ordenação do conjunto de valores, dado que se irá calcular o valor com maior frequência entre as observações.

segunda-feira, 22 de fevereiro de 2010

Estatística descritiva - breve esclarecimento

Depois da colheita e classificação dos dados torna-se necessário organiza-los e trata-los. Pode-se organizar os dados através de tabelas e gráficos, para uma melhor leitura dos mesmos e com o fim a escolher a análise a realizar.

Existem também várias formas de medir os dados. Pode-se assim distinguir medidas:
  • centrais,
  • de dispersão,
  • de assimetria e achatamento,
  • de associação.
Medidas Centrais

Estas medidas são também conhecidas por medidas de localização, uma vez que nos permitem ter uma noção da distribuição dos dados.
  • Média
  • Mediana
  • Moda
Medidas de Dispersão

A par das medidas de tendência central, as medidas de dispersão complementam a informação sobre dados, dando uma ideia de como os dados se concentram em torno dos valores médios.
  • Amplitude
  • Variância
  • Desvio padrão
Medidas de Assimetria e Achatamento

Estas medidas caracterizam os dados relativamente à forma da distribuição dos valores das observações em volta do valor da média.
  • Assimetria
  • Kurtose
Medidas de Associação

Muitas vezes, o estudo a realizar requer uma análise bivariada, sendo assim necessário estudar o comportamento conjunto de duas variáveis. Pode-se dizer que duas variáveis têm uma associação:
  • positiva, se o aumento/decréscimo de uma variável acompanha o aumento/decréscimo da outra;
  • negativa, se o aumento de uma variável corresponde ao decréscimo da outra.

segunda-feira, 8 de fevereiro de 2010

Variáveis

As variáveis são os objectos de estudo em questão. Elas podem representar o peso de um indivíduo, o sexo ou estado civil, a idade, ou seja, tudo o que quisermos 'medir' ou estudar. Em
geral, representam-se as variáveis pelas letras X, Y, ...

Podem-se então classificar as variáveis em:
  • qualitativas -- que estabelecem categorias através da classificação de propriedades relativas à variável: sexo, estado civil, extracto social, cor dos olhos etc.

  • quantitativas -- em que é possível atribuir uma quantidade numérica, de modo a que possa ser ordenada: peso, altura, temperatura, etc.

Dentro das variáveis qualitativas pode-se distinguir as:
  • nominais: não é possível estabelecer qualquer tipo de ordem entre as diversas classificações da variável (i.e., vale tanto uma categoria como outra): sexo, cor dos olhos.

  • ordinais: é possível estabelecer um tipo de ordem entre as diversas classificações da variável (i.e., valem mais umas categorias que outras): extracto social, nível de educação.

Dentro das variáveis quantitativas pode-se distinguir as:
  • intervalares: onde a noção de zero absoluto não tem significado, como por exemplo na comparação de temperaturas, ou seja, as variáveis são categorizadas dentro de um intervalo.

  • proporcionais: onde existe a presença de um zero absoluto, ou seja, a escala é proporcional: altura em cm, peso em kg.

Para finalizar, convém também identificar as variáveis dependentes e independentes. É fácil distinção, se considerar-mos o exemplo da variável X que representa o número de cigarros fumados por dia e a variável Y que representa o número de mortes por cancro do pulmão. Embora não se possa afirmar que uma é a causa da outra, sabe-se que existe uma relação entre ambas.

sábado, 6 de fevereiro de 2010

Introdução

Se consultarmos um dicionário, por definição, estatística é a ciência da contagem. No entanto, isto não basta para se compreender a dimensão deste ramo da matemática. Na verdade, a estatística é utilizada em diversas áreas, tal como a economia, sociologia, ciências da saúde, entre outras. Através dela, procura-se obter informação, ou conhecimento, de acontecimentos dia a dia, ou fenómenos específicos.

Como se realiza então o processo estatístico? Este pode ser dividido em três fases:

  1. A fase de colheita de dados, onde se enquadra a teoria de amostragem, e onde é realizado o levantamento dos dados, com o máximo rigor e precisão possível.
  2. O primeiro passo fundamental é a compreensão dos dados e saber como estuda-los. Para tal, torna-se necessário identificar as variáveis existente, bem como a sua classificação e propriedades.
  3. Segue-se a fase de descrição, classificação e apresentação dos dados, denominada por estatística descritiva, onde se procura 'descrever', sem tirar qualquer tipo de conclusão, o comportamento dos dados em estudo. Nesta fase inclui-se a representação dos dados através de gráficos e frequências, o cálculo de medidas (média, desvio padrão, etc...) e de destribuições, sendo a mais comum a distribuição normal.
  4. Por fim, tem-se a fase de conclusão, denominada por estatística inferencial. Esta é, sem dúvida, a fase mais importante do processo. Fazem parte desta fase o estudo testes às médias de distribuiçõoes, proporçõoes, de ajuste a distribuições, regressão, etc.