1. CONCEPTOS GENERALES
1.1 Introducción
La estadística actual no sólo es
un conjunto de técnicas para resumir y transmitir información
cuantitativa, sino que sirve también, y fundamentalmente, para hacer
inferencias, generalizaciones y extrapolaciones de un conjunto
relativamente pequeño de datos a un conjunto mayor. Estadística es la
ciencia que se ocupa de la ordenación y análisis de datos procedentes de
muestras, y de la realización de inferencias acerca de las poblaciones
de las que éstas proceden.
1.2 Conceptos generales: Se llama población
estadística al conjunto de todos los elementos que cumplen una o varias
características o propiedades. Una muestra es un subconjunto de los
elementos de una población. Un parámetro es una propiedad descriptiva de
una población. Un estadístico es una propiedad descriptiva de una
muestra. Una característica es una propiedad o cualidad de un individuo.
Una modalidad es cada una de las maneras como se presenta una
característica.
1.3 Medición: La estadística no realiza sus funciones
directamente sobre las modalidades observadas, sino que éstas se
representan por números, y la estadística realiza sus funciones sobre
esos números. Se llama medición al proceso de atribuir números a las
características. La asignación de números a las características se hace
siguiendo unas reglas, del estudio de los modelos mediante los cuales
conocemos las reglas para una correcta atribución de los números se
ocupa la Teoría de la Medida. A partir de una característica se puede
establecer un sistema relacional empírico (empírico, porque se refiere a
entidades y relaciones reales). El sistema numérico está formado por un
conjunto de entidades (números) y unas relaciones entre ellos. Se trata
de un sistema relacional numérico. El objetivo de la medición de una
característica es conectar un sistema relacional empírico y un sistema
relacional numérico, de tal forma que las relaciones entre las entidades
se reflejen en las relaciones entre los números que los simbolizan.
Sólo si se consigue este objetivo ocurrirá que de las relaciones entre
los números podrán hacerse inferencias válidas acerca de las relaciones
entre las entidades. La medición estudia las condiciones de construcción
de representaciones numéricas, y los modelos desarrollados para la
medición se llaman escalas. Tenemos las escalas nominales, ordinales,
cuantitativas de intervalo y cuantitativas de razón. Escalas nominales:
la clave de estas escalas de medida es que sólo informan de la igualdad o
desigualdad de los individuos en una característica, pero no de
posibles ordenaciones, puesto que la característica a la que se refieren
no se tiene en mayor o menor medida, sino que simplemente adopta formas
cualitativamente distintas. Un concepto íntimamente ligado al concepto
de escala, y que de hecho las caracteriza, es el de transformación
admisible, que hace referencia al problema de la unicidad de la medida.
La cuestión de la unicidad puede plantearse de la siguiente forma: ¿es
la representación numérica que hemos construido la única posible? En
general la respuesta será negativa. Se dice que una transformación de
los números asignados en una escala es una transformación admisible si
preserva las características que definen a esa escala, es decir, si los
números transformados también representan al sistema empírico. Esta
transformación de los valores originales es una transformación admisible
porque los valores obtenidos mediante su aplicación siguen cumpliendo
las condiciones especificadas anteriormente para toda escala nominal. En
términos más técnicos diríamos que en una escala nominal son admisibles
todas las transformaciones que supongan aplicaciones inyectivas. La
aplicación de una regla de asignación de números a las diferentes
cantidades de tal forma que los números asignados a los objetos reflejen
esos distintos grados en los que se presenta la característica. Los
números asignados nos permitirán extraer conclusiones acerca de las
magnitudes. A veces lo único que esos números nos permiten inferir son
relaciones de tipo mayor que o menor que A aquellas escalas de medida
que cumplen estas características se les llama escalas ordinales.
También se dice que se está haciendo una medición a nivel ordinal. Los
objetos pueden ordenarse, y de ahí el nombre de la escala. En psicología
son muchas las características cuya medición se considera que está a
nivel ordinal, pues son muchos los casos en los que lo único que puede
decirse es que un individuo es más extravertido que otro, que un niño es
más hiperactivo que otro, o que el aprendizaje es más rápido con el
método A que con el método B. Apliquemos de nuevo el concepto de
transformación admisible a este tipo de escalas. No todas las
transformaciones que eran admisibles en las escalas nominales lo son
para las escalas ordinales. Al igual que en las escalas nominales, las
ordinales tienen unas transformaciones admisibles, que lógicamente serán
todas aquellas que preserven las características de la escala ordinal.
Se puede demostrar que esto ocurre con todas aquellas transformaciones
que cumplan la condición de ser transformaciones crecientes. Se dice que
la transformación es creciente si para todo par de objetos a y b se
cumple la siguiente condición: Si n (a) n (b), entonces n (a) n(b) La
limitación de las escalas ordinales es que aunque nos informa de que un
objeto presenta la característica en cuestión en una mayor magnitud que
otro objeto, no nos dice en cuánto más. Para poder extraer conclusiones
más precisas, como la de en cuánto más presenta la característica un
objeto sobre otro, hay que contar con una unidad de medida, y para ello
hay que pasar al siguiente tipo de escala. Escala de intervalo, la
tercera condición añadida a las exigidas para una escala ordinal impone
que el número asignado al objeto y que representamos por n(oi), sea una
función lineal de la magnitud real que ese objeto representa en la
característica en cuestión. Cuenta con una unidad de medida, si se
cumple esta tercera condición podemos extraer consecuencias acerca de la
igualdad o desigualdad de diferencias. Si la diferencia entre los
números asignados a dos objetos es igual a la diferencia entre los
números asignados a otros dos, también son iguales las diferencias en
magnitudes entre estos dos pares. Una mayor diferencia entre los números
asignados implica una mayor diferencia entre las magnitudes
representadas. El ejemplo clásico de este tipo de escalas es el de las
temperaturas. Las transformaciones admisibles para las escalas de
intervalo no significan más que un cambio en la unidad de medida y en el
origen asignado a la escala, valores ambos arbitrarios en este tipo de
escalas. La principal limitación de este tipo de escalas es que no tiene
un cero absoluto. El número cero no representa realmente la ausencia de
esta característica. Las escalas de razón Esta tercera condición cumple
la función de preservar el significado del valor cero, de forma que
siempre representa la ausencia de esa característica. La consecuencia
fundamental de la presencia de un origen absoluto, y no arbitrario, es
que además de poder extraer conclusiones acerca de la igualdad o
desigualdad de diferencias, también puede hablarse de la igualdad o
desigualdad de razones. NOMINAL El sexo de los individuos se clasifica
simbolizando con un 0 hembra y con un 1 varón. Posteriormente se hace
una transformación admisible, 0 ® 5 y 1 ® 3. ORDINAL La dureza de los
elementos se ordena, asignándoles números que representen esa
ordenación. Posteriormente se hace una transformación admisible, es
decir, una que respeta esa ordenación. INTERVALO Las cantidades de
calor, pueden representarse por distintos conjuntos de números, en tanto
en cuanto en ellos se mantenga la diferencia de temperatura entre los
objetos 1 y 2 sea la misma que la diferencia entre los objetos 3 y 4, y
ambas sean mayores que la diferencia entre los objetos 2 y 3. Estas
condiciones las cumplen tanto la escala centígrada como la escala
Fahrenheit. Además, de cualquiera de ellas puede pasarse a la otra, pues
cada una es una transformación admisible para la otra. Cada una tiene
su propia unidad de medida y su origen propio. RAZÓN Las longitudes,
pueden representarse también por distintos conjuntos de números, en
tanto en cuanto en ellos se mantenga que le objeto 2 tenga el doble que
le objeto 1, y que el cociente entre los números asignados a los objetos
3 y 1 sea mayor que el cociente entre los números asignados a los
objetos 2 y 1. Estas condiciones se cumplen tanto al medir en metros
como al medir en yardas. Se puede pasar de una a otra, son
transformaciones mutuamente admisibles, ya que aunque cada una tiene su
unidad de medida, ambas respetan el cero absoluto, que coincide con las
dos, y representa la ausencia de esta característica. Tipo Información
deducible Transform. admisibles Ejemplos Nominal Relaciones igual que o
distinto que Aplicaciones inyectivas Sexo, estado civil, diagnóstico
clínico. Ordinal Relaciones mayor que o igual que Funciones crecientes
Dureza, nivel socioeconómico, grado de asertividad Intervalo Igualdad o
desigualdad de diferencias A + b . x (b ¹ 0) Temperatura, calendario,
inteligencia. Razón Igualdad o desigualdad de razones B . x (b ¹ 0)
Longitud, peso.
1.3.1 Las variables: clasificación y notación Una
variable es una representación numérica de una característica. Ejemplo
Tipo de estudio Variables Tipo de escala 1 Descriptivo Grado de patrón A
Intervalo 2 Inferencial Grupo, Nivel cultural, Inteligencia, estrés.
Nominal, Ordinal, Intervalo, Intervalo 3 Inferencial Tiempo de reacción
Razón 4 Inferencial Intención de voto Nominal Estadística descriptiva
con una variable
2. ORGANIZACIÓN Y REPRESENTACIÓN DE DATOS
2.2
Distribución de frecuencias: La distribución de frecuencias es un
instrumento diseñado para cumplir tres funciones: Proporcionar una
reorganización y ordenación racional de los datos recogidos. Ofrecer la
información necesaria para hacer representaciones gráficas Facilitar los
cálculos necesarios para obtener los estadísticos muestrales Se llama
frecuencia absoluta de un valor Xi, y se simboliza por ni, al número de
veces que se repite el valor Xi, en la muestra. Se llama frecuencia
relativa de un valor Xi, y se simboliza por pi, al cociente entre la
frecuencia absoluta de ese valor y el tamaño de la muestra. Es decir: pi
= ni / n Se llama frecuencia absoluta acumulada de un valor Xi, y se
simboliza por na, al número de veces que se repite en la muestra ese
valor Xi, o cualquier otro valor inferior. Se llama frecuencia relativa
acumulada de un valor Xi, y se simboliza por pa, al cociente entre su
frecuencia absoluta acumulada y el tamaño de la muestra. Es decir: pa =
na / n. Las frecuencias relativas, se expresan en términos porcentuales.
Suelen representarse con mayúsculas, para obtenerlas basta con
multiplicar por 100 las frecuencias relativas. Para cualquier valor de
la variable, Xi tenemos que: Pi = pi 100 y Pa = pa 100 Una distribución
de frecuencias se organiza en forma de tabla. En una distribución de
frecuencias completa aparece, una columna con los valores que adopta la
variable, creciendo de abajo hacia arriba. Construimos la distribución
de frecuencias siguiendo los pasos descritos: 1. Ponemos en la primera
columna esos valores, creciendo de abajo hacia arriba 2. Para la columna
de frecuencias absolutas contamos el número de veces que se repite cada
valor, si el número de valores es muy grande conviene ir haciendo
marcas por cada valor, para contarlas al final 3. Para la columna de
frecuencias relativas dividimos cada frecuencia absoluta por n 4. Para
obtener las frecuencias absolutas acumuladas sumamos para cada valor su
frecuencia absoluta más la absoluta acumulada del valor anterior. 5.
Para las frecuencias relativas acumuladas dividimos cada frecuencia
absoluta acumulada por n. La frecuencia relativa acumulada del valor
mayor debe ser igual a 1. Distribución de frecuencias construida sobre
el ejemplo del número de hijos (texto) Xi ni pi na pa 4 1 0.05 20 1.00 3
3 0.15 19 0.95 2 7 0.35 16 0.80 1 6 0.30 9 0.45 0 3 0.15 3 0.15 20 1.00
Agrupación en intervalos: consisten en formar grupos de valores
consecutivos, llamados intervalos, y poner uno de estos grupos en cada
fila, en lugar de poner cada valor individual por separado. Cada uno de
estos grupos suele indicarse en la distribución de frecuencias poniendo
los valores mayor y menos incluidos en él. A continuación se calculan
las frecuencias absolutas conjuntas de los valores incluidos en el
intervalo, haciendo lo mismo después con las frecuencias relativas, las
absolutas acumuladas y las relativas acumuladas. Se llama intervalo a
cada uno de los grupos de valores que ocupan una fila en una
distribución de frecuencias. En algunos textos se llaman clases. Se
llaman límites aparentes o informados de un intervalo a los valores
mayor y menor que puede adoptar la variable dentro de ese intervalo,
según el instrumento de medida utilizado. Se llaman límites exactos de
un intervalo a los valores máximo y mínimo incluidos en el intervalo y
que podrían medirse si se contara con un instrumento de precisión
perfecta. Se llama punto medio de un intervalo a la suma de sus límites
exactos partido por dos. En algunos libros se llama marca de clase. Se
llama amplitud de un intervalo a la diferencia entre su límite exacto
superior y su límite exacto inferior. Suele representarse por la letra
I. Para hacer una distribución de frecuencias: 1. El intervalo superior
debe incluir al mayor valor observado. 2. el intervalo inferior debe
incluir al menor valor observado. 3. Cada intervalo debe incluir el
mismo número de valores. Dado que el objetivo de una distribución de
frecuencias es conseguir una ordenación manejable que ayude a comprender
el significado de los datos, no es conveniente que el número de
intervalos sea demasiado grande. Como consecuencia de lo anterior,
podemos sentirnos inclinados a reducir al máximo el número de
intervalos, pero lo cierto es que esto traería consigo una consecuencia
negativa, los intervalos tendrían una excesiva amplitud y acabaríamos
teniendo a sujetos con puntuaciones muy distintas en el mismo intervalo.
El número apropiado de intervalos debe ser tal que, con ella se consiga
una agrupación operativa y que cumpla los objetivos para los que ha
sido diseñada la distribución de frecuencias, pero sin distorsionar
excesivamente los valores con el error de agrupamiento. A veces hay
casos en los que hacer un número de intervalos siguiendo las directrices
que acabamos de plantear distorsionarían demasiado los datos. Para
evitar eso se utilizan lo que se denomina intervalos abiertos, en los
cuales no se pone el límite inferior del intervalo que incluye los
valores menores, el límite superior del intervalo que incluye los
valores mayores o no se pone ninguno de estos dos. Ej. + de ....
Problema de los bordes Supongamos que vamos a construir una agrupación
en intervalos, siendo los valores mayor y menor observados iguales a 79 y
43, respectivamente. Como el número de valores distintos sería igual a
37, que es un número primo, no pueden hacerse intervalos de amplitud
constante tales que el mayor tenga al 79 como límite aparente superior y
al 43 como límite aparente inferior. En estos casos suele añadirse al
listado de valores distintos observados algunos otros valores no
observados en la muestra. Estos valores tendrán frecuencias absolutas
iguales a cero, pero nos permitirán conseguir un número de valores
distinto que sea múltiplo del número de intervalos que queremos hacer.
Para no distorsionar demasiado ninguno de los intervalos extremos es
preferible repartirlos lo más homogéneamente posible entre los dos.
2.2.1 Supuestos de distribución intraintervalo Una vez confeccionada una
distribución de frecuencias con datos agrupados en intervalos, ésta se
puede utilizar para hacer representaciones gráficas y para facilitar los
cálculos de estadísticos que iremos explicando. Dado que de cada
puntuación sólo sabemos el intervalo al que pertenece, un procedimiento
que a veces resultará útil consiste en asumir el supuesto de
concentración en el punto medio. Según este supuesto, trataríamos a esos
dos datos como si fueran dos valores iguales. Entonces este es el punto
medio de su intervalo. El supuesto de distribución homogénea, los
valores incluidos en un intervalo se reparte con absoluta conformidad en
su interior, si en un intervalo hay cinco observaciones, aceptaremos
que sus valores son los que tendríamos si partiéramos al intervalo en
cinco subintervalos de igual amplitud y asignáramos a cada individuo el
punto medio de un subintervalo. 2.3 Representaciones gráficas A partir
de las distribuciones de frecuencias se pueden construir
representaciones gráficas. La función de éstas es dar informaciones
globales mediante un solo golpe de vista. 2.3.1 Representaciones
gráficas de uso frecuente Diagrama de rectángulos: Para hacer un
diagrama de rectángulos se colocan en el eje de abscisas las modalidades
(o los números que las representan) y en el eje de ordenadas las
frecuencias. Sobre cada modalidad se levanta un rectángulo cuya altura
es la frecuencia correspondiente. Este tipo de representaciones se suele
utilizar para variables nominales, pero también se utiliza para
variables ordinales, como el nivel cultural. Perfil ortogonal: Se
utiliza mucho en informes psicopedagógicos o de rendimiento.
Calificaciones obtenidas por un alumno a lo largo de 4 exámenes.
Pictograma: Son representaciones en forma de círculos en las que éstos
son divididos en secciones cuya superficie es proporcional a la
frecuencia de la modalidad correspondiente. Diagrama de barras: Se
utiliza para variables cuantitativas discretas. En el eje de abscisas se
colocan los distintos valores de la variable y en el eje de ordenadas
las frecuencias. Sobre cada valor de la variable se traza una línea o
barra perpendicular cuya altura debe ser igual a la frecuencia.
Histograma: Se utiliza para variables cuantitativas continuas con datos
agrupados en intervalos. En el eje de abscisas se colocan los límites
exactos de los intervalos, y en el eje de ordenadas las frecuencias.
Polígono de frecuencias: Para variables discretas, el polígono de
frecuencias es la figura que resulta de unir los extremos superiores de
las que hubieran sido las barras. Si se trata de las bases superiores de
los rectángulos correspondientes a un hipotético histograma construido
con esos mismos datos. Diagrama de barras acumulativo: Se utiliza en
variables discretas. En el eje de abscisas se colocan los valores de la
variable, y en el de ordenadas las frecuencias acumuladas, ya sean
absolutas o relativas. Sobre cada valor se traza una perpendicular cuya
longitud sea igual a la frecuencia acumulada. Desde el extremo superior
de cada una de estas barras se traza una línea horizontal que se une con
la barra situada a su derecha. Polígono de frecuencias acumuladas: Se
utilizan en variables continuas. El eje de abscisas se construye igual
que en los histogramas, pero en el de ordenadas se incluyen las
frecuencias acumuladas, ya sean absolutas o relativas. Sobre cada límite
se levanta una perpendicular cuya longitud sea idéntica a la frecuencia
acumulada y se unen los extremos superiores de dichas perpendiculares.
2.3.2 Convenciones sobre las representaciones gráficas 1. En el eje de
abscisas colocamos los valores de la variable, y en el de ordenadas las
frecuencias (absolutas o relativas, simples o acumuladas). 2. La
intersección de los dos ejes es el origen , de modo que en el eje de
abscisas las puntuaciones más bajas estarán a la izquierda, y las más
altas a la derecha; en el de ordenadas los valores los valores pequeños
estarán abajo y los altos arriba. 3. Si el valor mínimo del eje de
abscisas fuera excesivamente grande, se debe cortar la línea 4. Conviene
incluir en cada gráfico toda la información posible para evitar
ambigüedades y facilitar su interpretación por otras personas o por
nosotros mismos al cabo del tiempo. 5. Cuando un mismo gráfico se
representan dos o más grupos simultáneamente y éstos son de tamaños
considerablemente distintos se deben utilizar frecuencias relativas. Las
representaciones sirven para comunicar información de un solo golpe de
vista, y por ello en su construcción debe tenerse en cuenta el público
al que va dirigida, sus necesidades de informaciones más bien globales y
generales o específicas y precisas, y cualquier otra consideración que
pueda mejorar la transmisión de información ágil y precisa. 2.3.3
Tendenciosidad en las representaciones gráficas Un primer método
consiste en recortar el eje de ordenadas, eliminando los menores valores
de frecuencias con la excusa de que no hay ninguna observación que las
adopte. Esto tiene como consecuencia que pequeñas diferencias parezcan
mayores. Un segundo tipo de distorsión se produce cuando se utilizan
figuras representativas de aquello que se está midiendo. Suelen hacerse
proporcionando sus alturas a las frecuencias correspondientes, el
incremento en la altura conlleva también un incremento en la anchura.
Como consecuencia de ello, la superficie de las figuras no guarda
relación con las frecuencias observadas, dando la impresión de que la
diferencia es mayor que la realmente registrada. 2.3.4 Propiedades de
las distribuciones de frecuencias Los polígonos de frecuencias dependen
demasiado de la unidad de medida utilizada, de la agrupación en
intervalos hecha y de las fluctuaciones particulares esperables en una
muestra concreta. Las curvas suavizadas suelen ser representaciones más
apropiadas que los polígonos de frecuencias simples. Son cuatro las
propiedades con las que describiremos las distribuciones de frecuencias:
1. Tendencia central: Una primera propiedad es la que se refiere a la
magnitud general de las observaciones hechas. Esta magnitud general
puede cuantificarse mediante unos índices conocidos como índices de
tendencia central o promedios, y que reciben ese nombre porque pretenden
ser síntesis de los valores de la variable. 2. Variabilidad: Grado de
concentración de las observaciones en torno al promedio. Una
distribución de frecuencias será homogéneo o poco variable si los datos
difieren poco entre sí, y por tanto, se agolpan en torno a su promedio.
Sería heterogénea o muy variable si los datos se dispersan mucho con
respecto al promedio. 3. Asimetría o sesgo: Esta propiedad se refiere al
grado en que los datos tienden a concentrarse en los valores centrales,
en los valores inferiores al promedio, o en los valores supriores a
éste. Existe simetría perfecta cuando en caso de doblar la
representación gráfica por una vertical trazada sobre la media, las dos
mitades se superponen perfectamente. Las distribuciones con asimetría
negativa son propias de las pruebas, tareas o tests fáciles, en las que
la mayoría de los sujetos puntúan alto. Las distribuciones asimétricas
positivas son típicas de pruebas, tareas o tests difíciles en las que la
mayoría de los sujetos puntúan bajo. 4. Curtosi: Se refiere al grado de
apuntamiento de la distribución de frecuencias. Si es muy apuntada se
llama leptocúrtica y si es muy aplastada, se llama platicúrtica. 2.4
Diagrama de tallo y hojas Las distribuciones de frecuencias no son el
único medio para resumir y exponer conjuntos de datos; una alternativa a
ellas son los llamados diagramas de tallo y hojas. Su obtención
requiere separar cada puntuación en dos partes. El primer o primeros
dígitos, que reciben el nombre de tallo, y el dígito o dígitos
restantes, que reciben el nombre de hojas; por ejemplo, X = 56 se puede
separar en 5 (tallo) y 6 hoja. Estos diagramas tienen la suficiente
flexibilidad como para admitir otras posibilidades. 1. Se identifican
los valores máximo y mínimo observados. 2. Se toma una decisión acerca
del número más apropiado de tallos distintos. 3. Se listan todos los
tallos distintos en una columna, ordenados de forma creciente de arriba
abajo. 4. Se escribe cada hoja junto al tallo que le corresponda,
preferiblemente ordenados según su valor. En general, un número de
tallos superior a cinco y que no pase de 20 suele ser apropiado. Aparte
de ser más fácil de construir, el diagrama de tallo y hojas tiene varias
ventajas sobre la distribución de frecuencias, y también algún
inconveniente: 1. Ventaja: permite identificar cada puntuación
individual. En las distribuciones tradicionales sólo conocemos la
frecuencia del intervalo y nos obliga a tratar los datos de ciertas
maneras distorsionantes. La ventaja de retener cada valor individual
viene acompañada del inconveniente de que le diagrama de tallo y hojas
no facilita, como la distribución de frecuencias clásica, el cálculo de
los estadísticos que estudiaremos más adelante. 2. Ofrece
simultáneamente tanto un listado de las puntuaciones como un dibujo de
distribución, si tumbamos el diagrama obtenemos una especie de
histograma. 3. Al contener los valores de cada observación, es más fácil
de modificar para obtener un dibujo con un nivel de detalle distinto,
mayor o menor, de la distribución. 4. Pueden presentarse dos conjuntos
de datos simultáneamente en el mismo diagrama, con lo que se facilita la
comparación.
3. MEDIDAS DE POSICIÓN
3.2 Centiles o percentiles Son 99
valores de la variable que dividen a la distribución en 100 secciones,
cada una conteniendo a la centésima parte de las observaciones. Se
pueden representar por la inicial de cada uno de los dos términos que
los designan más el subíndice correspondiente, Ck o Pk (k = 1,2,...99).
Se simboliza por C28 a aquella puntuación que deja por debajo de sí al
28 por 100 de las observaciones y que es superada por el 72 por 100.
Aunque por definición son sólo 99 valores, por extensión a veces se
utilizan posiciones intermedias, como, por ejemplo, el centil 88,5 o
C88,5, que sería aquel valor de la variable por debajo del cual se
encuentra el 88,5 por 100 de las observaciones. Dado que los valores
correspondientes a los centiles se determinan en función de los
porcentajes de observaciones, normalmente las distancias entre ellos, en
términos de puntuación, no serán constantes.
continúa ¨Análisis de datos en psicología¨