Intervalos de confianza: estimaciones aproximadas

En este capítulo
Comprender los elementos y la
interpretación de un intervalo de confianza
Realizar cálculos con confianza
Analizar los factores que influyen en la
amplitud de un intervalo de confianza
Detectar resultados engañosos

La mayoría de los estadísticos se utilizan para estimar alguna característica sobre una población de interés, por ejemplo los ingresos medios por unidad familiar, el porcentaje de personas que compran regalos de cumpleaños por Internet, o la cantidad media de helado que consume un español en un año (y el aumento de peso resultante, por desgracia). Estas características de una población se llaman parámetros. Por regla general, para estimar el valor de un parámetro se toma una muestra de la población y se utilizan estadísticos de esa muestra que permitan obtener una estimación válida. La pregunta es la siguiente: ¿qué es una estimación válida?
Si el proceso se lleva a cabo correctamente (cosa que no suelen hacer los medios de comunicación), la estimación estará muy cerca del parámetro. Este capítulo ofrece una visión general de los intervalos de confianza (el tipo de estimaciones utilizado y recomendado por los estadísticos): por qué deben utilizarse (en lugar de una estimación consistente en un único número), cómo definir, calcular e interpretar los intervalos de confianza más utilizados, y cómo detectar estimaciones engañosas.
No todas las estimaciones son iguales
Basta con leer una revista o un periódico o escuchar un programa informativo para oír montones de estadísticas, muchas de las cuales son estimaciones de alguna cantidad. Quizá te preguntes de dónde salen esas estadísticas. En algunos casos las cifras son el resultado de una investigación bien realizada, y en otros casos no son más que un disparo a ciegas. Aquí tienes, a modo de ejemplo, varias estimaciones que encontré en un solo número de una revista sobre negocios publicada en Estados Unidos. Proceden de diversas fuentes:
Aunque en determinados sectores cuesta
colocarse, hay otros sectores donde se busca gente: en los próximos
ocho años se necesitarán 13.000 auxiliares de anestesia. Los
sueldos oscilan entre 80.000 y 95.000 dólares al año.
Un jugador de la liga profesional de
béisbol utiliza una media de 90 bates cada temporada.
El Lamborghini Murciélago puede pasar de 0
a 100 kilómetros por hora en 3,7 segundos y alcanza una velocidad
máxima de casi 330 kilómetros por hora.
Algunas de estas estimaciones son más fáciles de obtener que otras. Pongo a continuación algunas observaciones referidas a esas estimaciones:
¿Cuál es la forma de estimar cuántos
auxiliares de anestesia harán falta en los próximos ocho años?
Podrías empezar por averiguar cuántos se jubilarán en ese plazo,
pero eso no tendría en cuenta el aumento de la demanda. Podríamos
predecir de manera más o menos fiable la oferta de empleos para el
próximo año o dos años, pero a ocho años vista es mucho más
difícil.
El número medio de bates utilizados por un
jugador de la liga profesional a lo largo de una temporada podría
hallarse preguntando a los propios jugadores, a las personas que se
encargan del equipamiento o a las empresas que suministran los
bates.
Determinar la aceleración de un coche es
más difícil, pero podría hacerse en una pista con ayuda de un
cronómetro. Habría que medir la aceleración media de muchos coches
(no sólo uno) de la misma marca y modelo, siempre bajo las mismas
condiciones de conducción.

No todas las estadísticas son iguales. No te creas de entrada todo lo que te digan. Para determinar si una estadística es fiable y creíble, piensa si tiene sentido y qué harías tú para obtener una estimación. Si la estadística es muy importante para ti, averigua qué procedimiento siguieron para obtenerla. (En el capítulo 16 encontrarás todo lo relativo a las encuestas, y en el capítulo 17 te doy pelos y señales sobre los experimentos.)
Vincular un estadístico a un parámetro
Un parámetro es un único número que describe a una población, por ejemplo los ingresos medios de una unidad familiar en Estados Unidos. Un estadístico es un único número que describe a una muestra, por ejemplo los ingresos medios de una unidad familiar en una muestra de, pongamos, 1.200 unidades familiares. Lo normal es que desconozcas los valores de parámetros poblacionales, de manera que tomas muestras y utilizas estadísticos para dar la estimación posible.
Supongamos que quieres saber qué porcentaje de todos los vehículos de Estados Unidos son camionetas pickup (ése es el parámetro, en este caso). No puedes comprobar todos los vehículos, así que tomas una muestra aleatoria de 1.000 vehículos en varias autopistas a diferentes horas del día. Observas que el 7% de los vehículos de tu muestra son camionetas pickup. Llegados a este punto, no puedes afirmar que exactamente el 7% de todos los vehículos que circulan por las carreteras estadounidenses son camionetas pickup, porque sabes que esto se basa exclusivamente en los 1.000 vehículos que componen tu muestra. Aunque confías en que ese 7% esté cerca del porcentaje real, no puedes estar seguro porque tus resultados se basan en una muestra de vehículos, no en todos los vehículos de Estados Unidos.
Entonces, ¿qué haces? Pues coges el resultado de tu muestra y le sumas y restas un número para indicar que estás dando un intervalo de valores posibles para el parámetro poblacional, en lugar de dar por sentado que el estadístico muestral es igual al parámetro poblacional (lo cual no sería correcto, aunque los medios de comunicación lo hacen continuamente). Ese número que sumas y restas al estadístico se llama margen de error (ME). El más/menos (se escribe ±) que se añade a la estimación ayuda a ver los resultados con perspectiva. Si conoces el margen de error, te haces una idea de cuánto podrían variar los resultados muestrales si tomaras otra muestra.

La palabra “error” (en el término “margen de error”) no significa que alguien se haya equivocado ni que los datos sean inválidos. Simplemente quiere decir que los resultados de una muestra no son exactamente iguales a los que habrías obtenido si hubieras incluido a toda la población. Esta divergencia mide el error debido a la probabilidad aleatoria, el puro azar, no el debido al sesgo (por eso es tan importante reducir el sesgo al mínimo al seleccionar la muestra y al recopilar los datos; ver los capítulos 16 y 17).
Terminología básica
Un estadístico más/menos un margen de error es lo que se llama un intervalo de confianza:
La palabra intervalo se utiliza porque el resultado consiste
en un intervalo de valores. Por ejemplo, supongamos que al 40% de
los niños les gusta el fútbol, con un margen de error de más/menos
el 3,5%. Eso significa que el porcentaje de niños a los que les
gusta el fútbol está entre el 40%–3,5%=36,5% y el 40%+3,5%=43,5%.
El extremo inferior del intervalo es el estadístico menos el margen
de error, y el extremo superior es el estadístico más el margen de
error.
Con todos los intervalos de confianza
tienes cierto grado de confianza en que has estimado correctamente
el parámetro por medio de tu muestra. Este grado de confianza se
expresa como porcentaje y se denomina nivel de
confianza.
Más adelante en este mismo capítulo encontrarás fórmulas y ejemplos para los intervalos de confianza más utilizados.
A continuación verás los pasos generales para estimar un parámetro con un intervalo de confianza. En lo que queda de capítulo te proporciono información pormenorizada sobre los pasos 1 y 4-6. Los pasos 2 y 3 se refieren al muestreo y la recopilación de datos, que se explican con más detalle en el capítulo 16 (muestreo y recopilación de datos para encuestas) y en el capítulo 17 (recopilación de datos de experimentos):
1. Elegir el nivel de confianza y el tamaño muestral.
2. Seleccionar una muestra aleatoria de elementos de la población.
3. Recopilar datos fiables y relevantes de los elementos que componen la muestra.
4. Resumir los datos en un estadístico, por ejemplo una media o una proporción.
5. Calcular el margen de error.
6. Sumar y restar el margen de error al estadístico para obtener la estimación final del parámetro. Este paso calcula el intervalo de confianza para ese parámetro.
Interpretar resultados con confianza
Imagina que eres biólogo investigador y estás intentando pescar un pez con una red de mano, y el tamaño de esa red representa el margen de error de un intervalo de confianza. Pongamos que tu nivel de confianza es del 95%. ¿Qué significa eso en realidad? Significa que si lanzas al agua esa red en concreto muchas veces seguidas, cogerás un pez el 95% de las veces. Si has cogido un pez, significa que tu intervalo de confianza era correcto y contiene el parámetro real (en este caso el parámetro está representado por el propio pez).
Pero ¿significa eso que tienes una probabilidad del 95% de coger un pez en cualquier intento? No. ¿Te resulta confuso? Lo cierto es que lo es. Aquí va la explicación: imagina que cierras los ojos y a continuación lanzas la red al agua. En ese momento la probabilidad de coger un pez es del 95%. Ahora recoges la red y vuelves a lanzarla al agua con los ojos todavía cerrados. Después de haber hecho eso, abres los ojos y ves uno de los dos únicos resultados posibles: has cogido un pez o no lo has cogido. La probabilidad ya no tiene nada que ver.
De igual modo, después de haber recopilado los datos y haber calculado el intervalo de confianza, habrás capturado el parámetro poblacional real o no lo habrás capturado. No podrás decir que estás seguro al 95% de que el parámetro está dentro de tu intervalo concreto. De lo que estás seguro al 95% es del proceso mediante el cual se seleccionan muestras aleatorias y se crean intervalos de confianza (es decir, que a largo plazo el 95% de las veces cogerás un pez).
Sabes que este proceso generará intervalos que capturarán la media poblacional el 95% de las veces. El otro 5% de las veces, los datos recopilados en la muestra tendrán valores anormalmente altos o anormalmente bajos por puro azar, y no representarán a la población. Este 5% mide exclusivamente los errores debidos a la probabilidad aleatoria, y no incluye el sesgo.

El margen de error no significa nada si los datos utilizados en el estudio estaban sesgados o no eran fiables. Sin embargo, no puedes saber tal cosa con sólo mirar los resultados estadísticos de alguien. Mi consejo es que, antes de aceptar el margen de error que te digan, averigües cómo se recopilaron los datos (en los capítulos 16 y 17 hablo de los problemas que entraña la recopilación de datos). Por tanto, antes de creerte un estudio debes hacer algunas preguntas.
Cuestión de amplitud
La amplitud de tu intervalo de confianza es dos veces el margen de error. Por ejemplo, supongamos que el margen de error es ±5%. Un intervalo de confianza del 7%, ± 5%, abarca desde el 7% – 5% = 2% hasta el 7% + 5% = 12%. Por lo tanto, la amplitud del intervalo de confianza es de 12% – 2% = 10%. Una manera más sencilla de calcularlo es decir que la amplitud del intervalo de confianza es dos veces el margen de error. En este caso la amplitud del intervalo de confianza es 2 × 5% = 10%.

La amplitud de un intervalo de confianza es la distancia que hay entre el extremo inferior del intervalo (el valor del estadístico menos el margen de error) y el extremo superior del intervalo (el valor del estadístico más el margen de error). Una manera rápida de calcular la amplitud de un intervalo de confianza consiste en multiplicar por dos el margen de error.
Cuando realizas una estimación utilizando un intervalo de confianza, el objetivo final es que ese intervalo sea estrecho, porque eso significa que estás centrándote en el punto donde se encuentra el parámetro. Tener que sumar y restar un margen de error grande hace que tu resultado sea mucho menos preciso.

Entonces, si un margen de error pequeño es algo deseable, ¿uno más pequeño sería todavía mejor? No siempre. Un intervalo de confianza estrecho es algo bueno... hasta cierto punto. Para obtener un intervalo de confianza extremadamente estrecho tienes que realizar un estudio mucho más grande (y más caro), con lo que llega un momento en que el incremento del coste no justifica la pequeña diferencia en cuanto a precisión. La mayoría de la gente se conforma con un margen de error comprendido entre el 2 y el 3% cuando la propia estimación es un porcentaje (por ejemplo el porcentaje de mujeres, de republicanos o de fumadores).
¿Cómo te aseguras de que tu intervalo de confianza será suficientemente estrecho? Desde luego, es importante reflexionar sobre esta cuestión antes de recopilar los datos (después de recopilarlos, la amplitud del intervalo de confianza ya está definida).
Los factores que influyen en la amplitud de un intervalo de confianza son:
Nivel de confianza.
Tamaño de la muestra.
Variabilidad de la población.
Cada uno de estos tres factores influye de manera considerable en la amplitud de un intervalo de confianza. En los siguientes apartados explicaré cada elemento y de qué manera influye.
Elegir un nivel de confianza
A cada intervalo de confianza (y, por tanto, a cada margen de error) le corresponde un porcentaje que representa tu grado de confianza en que los resultados capturarán el parámetro poblacional real, dependiendo de cómo el azar influya en la muestra aleatoria. Este porcentaje se denomina nivel de confianza.

El nivel de confianza te ayuda a justificar el resto de los resultados muestrales que podrías haber obtenido cuando estás estimando un parámetro utilizando los datos procedentes de una única muestra. Si quieres justificar el 95% del resto de los resultados posibles, tu nivel de confianza será del 95%.
¿Qué nivel de confianza suelen utilizar los investigadores? Yo he visto niveles de confianza entre el 80 y el 99%, pero el más frecuente es el 95%. De hecho, hay incluso un chiste sobre esta cuestión: ¿por qué a los estadísticos les gusta su trabajo? Porque sólo tienen que acertar el 95 % de las veces (tiene gracia, ¿no? Y creo que los meteorólogos aciertan menos).
La variabilidad en los resultados muestrales se mide por el número de errores estándares. Un error estándar es similar a la desviación estándar de un conjunto de datos, sólo que el error estándar se aplica a medias muestrales o porcentajes muestrales que podrías haber obtenido si hubieras tomado otras muestras. (En el capítulo 11 encontrarás información sobre los errores estándares.)

Los errores estándares son los elementos básicos de los intervalos de confianza. Un intervalo de confianza es un estadístico más/menos un margen de error, y el margen de error es el número de errores estándares que necesitas para llegar al nivel de confianza que quieres.
A cada nivel de confianza le corresponde un número de errores estándares que deben sumarse o restarse. Este número de errores estándares es lo que se denomina valor crítico. Si estás utilizando una distribución Z para encontrar el número de errores estándares (de la forma descrita posteriormente en este mismo capítulo), el valor crítico se llama valor z* (se pronuncia “valor zeta asterisco”). En la tabla 13-1 encontrarás una lista de valores z* para los intervalos de confianza más comunes.

A medida que aumenta el nivel de confianza, aumenta también el número de errores estándares y, por tanto, el margen de error.

Si quieres un nivel de confianza en los resultados superior al 95%, tendrás que sumar y restar más de dos errores estándares aproximadamente. Por ejemplo, para tener una confianza del 99%, sumas y restas aproximadamente dos errores estándares y medio (2,58, para ser exactos) para obtener el margen de error. Cuanto mayor es el nivel de confianza, más grande es el valor z* y el margen de error, y más ancho es el intervalo de confianza (suponiendo que todo lo demás permanece igual). Para tener más confianza hay que pagar un precio.
Observa que he dicho “suponiendo que todo lo demás permanece igual”. Puedes compensar un incremento del margen de error incrementando también el tamaño de la muestra. Encontrarás más información sobre este tema en el siguiente apartado.
La importancia del tamaño muestral
La relación entre el margen de error y el tamaño muestral es simple: cuando el tamaño muestral aumenta, el margen de error disminuye y el intervalo de confianza se hace más estrecho. Esta relación confirma algo que esperas que sea cierto: cuanta más información (datos) tienes, más precisos serán los resultados (eso, naturalmente, suponiendo que la información sea válida y creíble. En el capítulo 3 explico por qué pueden estar equivocadas las estadísticas).

En todas las fórmulas de margen de error para
intervalos de confianza incluidas en este capítulo aparece el
tamaño muestral (n) en el denominador.
Por ejemplo, la fórmula del margen de error para la media muestral,
(que se
comenta con más detalle más adelante en este mismo capítulo) tiene
una n en el denominador de una fracción
(igual que la mayoría de las fórmulas de margen de error). Si
n aumenta, el denominador de esa fracción
aumenta, con lo que el valor de la fracción en general se hace más
pequeño. Como consecuencia, el margen de error disminuye y el
intervalo de confianza se hace más estrecho. Si necesitas un nivel
de confianza alto, debes incrementar el valor z* y, por tanto, el
margen de error, con el resultado de un intervalo de confianza más
ancho, lo cual no es bueno (ver el apartado anterior). Sin embargo,
este intervalo de confianza más ancho puede compensarse aumentando
el tamaño muestral y reduciendo de nuevo el margen de error, con lo
que el intervalo de confianza se hace más estrecho.

El aumento del tamaño muestral te permite alcanzar el nivel de confianza que deseas, al tiempo que garantiza un intervalo de confianza estrecho (que es lo que quieres en último término). Es posible incluso determinar el tamaño muestral que necesitas antes de comenzar un estudio: si conoces el margen de error que quieres obtener, basta con definir el tamaño muestral en consecuencia. (Tienes más información en el apartado “Determinar qué tamaño muestral necesitas”.)

Si tu estadístico va a ser un porcentaje (por
ejemplo el porcentaje de personas que prefieren llevar sandalias en
verano), una manera aproximada de determinar el margen de error
para un intervalo de confianza del 95% consiste en dividir 1 por la
raíz cuadrada de n (el tamaño muestral).
Puedes probar con diferentes valores de n
y ver cómo repercuten en el margen de error. Por ejemplo, una
encuesta de 100 personas pertenecientes a una población grande
tendrá un margen de error aproximado de =0,1, es decir, ± 10% (por
tanto el intervalo de confianza tendrá un ancho del 20%, que es
mucho).
No obstante, si preguntas a 1.000 personas, el margen de error disminuye muchísimo, hasta ± 3%, aproximadamente, con lo que la amplitud pasa a ser de tan sólo el 6%. Si la encuesta es de 2.500 personas, el margen de error será de ± 2% (y la amplitud disminuye hasta el 4%). Si piensas en lo grande que es la población (en Estados Unidos, por ejemplo, viven más de 310 millones de personas), este tamaño muestral es bastante pequeño para semejante precisión.
Sin embargo, ten presente que no conviene aumentar en exceso el tamaño muestral, porque llega un punto en que ya no merece la pena. Por ejemplo, si el tamaño muestral pasa de 2.500 a 5.000, la amplitud del intervalo de confianza pasa del 4% al 2 × 1,4=2,8%. Por cada persona más que incorporas a la encuesta el coste aumenta, de manera que preguntar a otras 2.500 personas para estrechar el intervalo un poco más del 1% posiblemente no merezca la pena.

El primer paso en cualquier problema de análisis de datos (y también para valorar críticamente los resultados de otra persona) consiste en cerciorarse de que los datos son válidos. Los resultados estadísticos sólo son válidos si los datos también lo son, de manera que la precisión real depende tanto de la calidad de los datos como del tamaño muestral. Un tamaño muestral grande que tenga mucho sesgo (el asunto está tratado en el capítulo 16) aparentemente tendrá un intervalo de confianza estrecho, pero no significará nada. Es como si compites en tiro con arco y obtienes buenas puntuaciones en todas las rondas, pero al final te das cuenta de que has estado disparando todo el rato a la diana de la persona que tienes al lado; eso te dará una idea de lo equivocado que estás. En el campo de la estadística, sin embargo, no puedes medir el sesgo de forma exacta; tan sólo puedes intentar reducirlo al mínimo diseñando muestras y estudios válidos (para saber cómo tendrás que leer los capítulos 16 y 17).
Tener en cuenta la variabilidad de la población
Uno de los factores que influyen en la variabilidad de los resultados muestrales es el hecho de que la propia población contiene variabilidad. Por ejemplo, en la población formada por las casas que hay en una ciudad grande como Columbus, Ohio, existe mucha variedad, no sólo en cuanto a tipos de casas, sino también en cuanto a tamaños y precios. Además, la variabilidad de los precios de las casas de Columbus probablemente sea mayor que la variabilidad de los precios de las casas de una urbanización en concreto de Columbus.
Eso significa que si tomas una muestra de casas de toda la ciudad de Columbus y calculas el precio medio, el margen de error será más grande que si tomas una muestra de una urbanización concreta de Columbus, incluso si tienes el mismo nivel de confianza y el mismo tamaño muestral.
¿Por qué? Pues porque las casas de toda la ciudad presentan una variabilidad mayor en cuanto a precio, y se supone que tu media muestral cambiaría más de una muestra a otra de lo que cambiaría si tomaras todas las muestras en esa urbanización en concreto, en la que los precios son bastante similares porque todas las casas son parecidas. Por tanto, si eliges casas de toda la ciudad de Columbus tienes que incluir más casas en la muestra para tener el mismo grado de precisión que obtendrías en esa urbanización en concreto.

La desviación estándar de la población se
designa con la letra griega σ. Observa que σ aparece en el
numerador del error estándar en la fórmula del margen de error para
la media muestral: .

Por consiguiente, cuando la desviación estándar (el numerador) aumenta, el error estándar (la fracción entera) también aumenta. Esto se traduce en un margen de error más grande y un intervalo de confianza más ancho. (En el capítulo 11 encontrarás más información sobre el error estándar.) Cuanta más variabilidad haya en la población original, mayor será el margen de error y más ancho será el intervalo de confianza. Este incremento se puede compensar aumentando el tamaño muestral.
Calcular un intervalo de confianzapara una media poblacional
Cuando la característica medida (por ejemplo
ingresos, coeficiente intelectual, precio, altura, cantidad o peso)
es numérica, la mayoría de las personas
quieren estimar el valor medio para la población. Para estimar la
media poblacional, μ, se utiliza una media muestral, , más/menos un margen
de error. El resultado se llama intervalo de
confianza para la media poblacional, μ. Su fórmula depende de
si se cumplen ciertas condiciones. Divido las condiciones en dos
casos, ilustrados en los siguientes apartados.
Caso 1: Se conoce la desviación estándar de la población
En el caso 1, la desviación estándar de la
población es conocida. La fórmula de un intervalo de confianza (IC)
para una media poblacional en este caso es , en la que
es la media muestral,
σ es la desviación estándar de la población, n es el tamaño muestral, y z* representa el valor
z* adecuado
de la distribución normal estándar para el nivel de confianza que
deseas (en la tabla 13-1 encontrarás los valores de z* para varios niveles
de confianza).

En este caso los datos deben provenir de una distribución normal o bien, si no es así, n debe ser suficientemente grande (al menos 30) como para poder aplicar el teorema del límite central (ver el capítulo 11), y así poder utilizar los valores z* en la fórmula.
A fin de calcular un IC para la media poblacional bajo las condiciones del caso 1, haz lo siguiente:
1. Determina el nivel de confianza y encuentra el valor z* adecuado.
Consulta la tabla 13-1.
2. Encuentra la
media muestral () para el tamaño muestral (n).
Nota: se supone que la desviación estándar de la población es un valor conocido, σ.
3. Multiplica z* por σ y divide el resultado por la raíz cuadrada de n.
Este cálculo proporciona el margen de error.
4. El IC es ±
el margen
de error.
El extremo inferior del IC es menos el margen de
error, y el extremo superior del IC es
más el margen de error.
Por ejemplo, imagina que trabajas para el Departamento de Recursos Naturales y quieres estimar, con un intervalo de confianza del 95%, la longitud media de los alevines de trucha en una piscifactoría.
1. Como quieres un intervalo de confianza del 95%, tu valor z* es 1,96.
2. Pongamos que coges una muestra de 100
alevines y determinas que la longitud media es 7,5 centímetros, y
supongamos que la desviación estándar es 2,3 centímetros. Esto
significa que = 7,5, σ = 2,3 y n = 100.
3. Multiplica 1,96 por 2,3 y divide por la raíz cuadrada de 100 (que es 10). El margen de error es, pues, ± 1,96 × (2,3 / 10) = 1,96 × 0,23 = 0,45 centímetros.
4. Tu intervalo de confianza del 95% para la longitud media de los alevines de lucioperca en esa piscifactoría es 7,5 centímetros ±0,45 centímetros (el extremo inferior del intervalo es 7,5 – 0,45 = 7,05 centímetros, y el extremo superior es 7,5 + 0,45 = 7,95 centímetros).

Después de calcular un intervalo de confianza, asegúrate de interpretarlo con palabras comprensibles para alguien que no sepa de estadística. Es decir, procura exponer los resultados refiriéndote a lo que la persona del problema intenta averiguar. Esto es lo que en estadística se llama interpretar los resultados “en el contexto del problema”. En este ejemplo puedes decir lo siguiente: “A partir de los datos de mi muestra, y con un nivel de confianza del 95%, la longitud media de los alevines de trucha de esta piscifactoría está entre 7,05 y 7,95 centímetros”.
Caso 2: Se desconoce la desviación estándar de la población y/o n es pequeño
En muchas situaciones σ es desconocida, de manera que se estima con la desviación estándar de la muestra, s; o el tamaño muestral es pequeño (inferior a 30), y no puedes saber si los datos proceden de una distribución normal (en este último caso no se puede aplicar el teorema del límite central; ver el capítulo 11). En ninguna de las dos situaciones puedes utilizar un valor z* de la distribución normal estándar (distribución Z) como valor crítico; tienes que utilizar un valor crítico más grande porque desconoces σ o porque tienes menos datos.
La fórmula del intervalo de confianza para una
media poblacional en el caso 2 es , en la que t*n–1 es el valor t* crítico de la distribución t que tiene n–1 grados de
libertad (donde n es el tamaño muestral).
Los valores t* para los niveles de confianza habituales
se encuentran mirando en la última fila de la tabla t (que encontrarás en el apéndice). En el capítulo
10 encontrarás información detallada sobre la distribución
t y sobre cómo utilizar la tabla
t.

La distribución t tiene una forma similar a la distribución Z, salvo que es más plana y sus valores están más dispersos. Para valores pequeños de n y un determinado nivel de confianza, los valores críticos en la distribución t son más grandes que en la distribución Z, de manera que cuando utilices los valores críticos de la distribución t el margen de error para tu intervalo de confianza será mayor. Conforme los valores de n se hacen más grandes, los valores t* se acercan más a los valores z*. (En el capítulo 10 encontrarás información detallada sobre la distribución t y sus relaciones con la distribución Z.)
En el ejemplo de la piscifactoría del caso 1,
el tamaño muestral era 10 en lugar de 100, y todo lo demás era
igual. El valor t* en este caso viene de una distribución
t con 10–1=9 grados de libertad. Este
valor t* se
encuentra mirando en la tabla t (incluida
en el apéndice). Primero miras en la última fila, donde están los
niveles de confianza, y localizas el nivel de confianza del 95%,
que señala la columna que necesitas. A continuación buscas la fila
correspondiente a gl=9. En la
intersección de esa fila y esa columna encuentras t*=2,262. Éste es el
valor t*
correspondiente a un intervalo de confianza del 95% para la media
con un tamaño muestral de 10 (observa que es más grande que el
valor z* de
1,96 encontrado en la tabla 13-1). Si aplicas la fórmula para
calcular el intervalo de confianza, obtienes , es decir, entre 5,86 y 9,15
centímetros.
(En el capítulo 10 encontrarás información detallada sobre la distribución t y sobre cómo utilizar la tabla t.)
Observa que este intervalo de confianza es más ancho que el calculado para n=100. Además de tener un valor crítico más grande (t* en lugar de z*), el tamaño de la muestra es mucho menor, con lo que el margen de error aumenta porque n está en el denominador.

En el supuesto de que tengas que utilizar s porque no conoces σ, el intervalo de confianza también será más ancho. También suele ocurrir que σ no se conoce y el tamaño muestral es pequeño, en cuyo caso el intervalo de confianza también es más ancho.
Determinar qué tamaño muestral necesitas
El margen de error de un intervalo de confianza está relacionado con el tamaño muestral (puedes releer el apartado anterior “La importancia del tamaño muestral”): cuanto más grande es la muestra, más pequeño es el margen de error. Si lo piensas al revés, verás que para conseguir un margen de error pequeño (lo que siempre quieres) necesitas un tamaño muestral grande. Imagina que estás preparándote para hacer tu propia encuesta con el fin de estimar una media poblacional. ¿No estaría bien saber de antemano qué tamaño muestral necesitas para conseguir el margen de error que quieres? Pensar las cosas con antelación te ahorrará tiempo y dinero y te proporcionará resultados con un margen de error razonable, para que luego no tengas sorpresas.

La fórmula con la que averiguar el tamaño
muestral necesario para obtener el margen de error (ME) que deseas
cuando estás elaborando un intervalo de confianza para μ es
. El tamaño
muestral debe redondearse siempre hacia arriba, sea cual sea el
valor decimal obtenido (por ejemplo, si los cálculos arrojan un
tamaño muestral de 126,2 personas, no puedes coger el 0,2 de una
persona. Necesitas la persona completa, así que la incluyes
redondeando a 127).
En esta fórmula, ME es el número que representa el margen de error deseado, y z* es el valor z* correspondiente al nivel de confianza que buscas (según la tabla 13-1; generalmente se utiliza el valor 1,96 para un intervalo de confianza del 95%). Si desconoces la desviación estándar de la población, σ, puedes utilizar el valor aproximado que correspondería a la situación más desfavorable posible o bien puedes hacer un estudio preliminar (un pequeño estudio de prueba), encontrar la desviación estándar de los datos muestrales (s) y utilizar ese número. Esto puede ser arriesgado si el tamaño muestral es muy pequeño, ya que es menos probable que refleje a la población entera. Por tanto, si haces un estudio de prueba, procura que sea lo más grande posible. De otro modo, mejor que seas conservador en tu estimación de σ.

Generalmente merece la pena dedicar algo de tiempo y esfuerzo a un pequeño estudio preliminar. Además de obtener una estimación de σ que te ayudará a elegir el tamaño muestral adecuado, puede que descubras posibles problemas en el proceso de recopilación de datos.

En este capítulo únicamente pongo una fórmula para calcular el tamaño muestral: la que corresponde a un intervalo de confianza para una media poblacional (no obstante, puedes utilizar la fórmula aproximada que menciono en el apartado anterior “La importancia del tamaño muestral” cuando se trate de proporciones).
Veamos un ejemplo en el que necesitas calcular n para estimar una media poblacional: imagina que quieres estimar el número medio de canciones que los universitarios tienen almacenadas en sus reproductores portátiles. Quieres que el margen de error no sea superior a ± 20 canciones, y quieres un intervalo de confianza del 95%. ¿Cuántos universitarios deben componer tu muestra?
Como quieres un IC del 95%, z* es 1,96 (según la
tabla 13-1); y sabes que el ME deseado es 20. Ahora necesitas un
número para la desviación estándar de la población, σ. Este número
es desconocido, así que haces un estudio preliminar con 35
universitarios y ves que la desviación estándar (s) para la muestra es de 148 canciones: éste será
el número que utilices como sustituto de σ. Aplicando la fórmula,
calculas que el tamaño muestral necesario es = (14,504)2 = 210,37, cifra que
redondeas a 211 universitarios (al calcular n hay que redondear siempre al alza). Por lo tanto,
debes tomar una muestra aleatoria de al menos 211 universitarios
para que el margen de error en el número de canciones almacenadas
no sea superior a 20. Por eso en la fórmula aparece el signo
≥, mayor o igual que.

Cuando calcules el tamaño muestral debes redondear siempre al siguiente número entero, con independencia del valor decimal que hayas obtenido (por ejemplo 0,37). Esto es así porque el margen de error no debe ser mayor que el valor definido. Si redondearas a la baja al obtener un valor decimal inferior a 0,50 (como sueles hacer en otros cálculos matemáticos), el ME sería un poco mayor que lo deseado.

Si te estás preguntando de dónde sale esta fórmula para el tamaño muestral, es el resultado de algunos cálculos matemáticos. Coges la fórmula del margen de error (donde aparece n), sustituyes el resto de las variables de la fórmula por los números que sacas del problema, igualas al ME deseado y despejas para n.
Determinar el intervalo de confianza para una proporción poblacional
Si la característica medida es categórica —por
ejemplo la opinión sobre una determinada cuestión (a favor, en
contra o indiferente), el sexo, la filiación política o el tipo de
comportamiento (llevar/no llevar el cinturón de seguridad puesto al
conducir)—, generalmente se quiere estimar la proporción (o
porcentaje) de personas de la población que pertenecen a cierta
categoría de interés. Piensa, por ejemplo, en el porcentaje de
personas que están a favor de la semana laboral de cuatro días, el
porcentaje de republicanos que acudieron a las urnas en las pasadas
elecciones en Estados Unidos o la proporción de conductores que no
llevan puesto el cinturón de seguridad. En todos estos casos se
trata de estimar una proporción poblacional, p, utilizando una proporción muestral, , más/menos un margen
de error. El resultado se llama intervalo de
confianza para la proporción poblacional, p.
La fórmula con la que se halla el IC para una
proporción poblacional es en la que
es la proporción poblacional, n es el tamaño muestral, y z* es el valor de la
distribución normal estándar que resulta adecuado para el nivel de
confianza que deseas. En la tabla 13-1 encontrarás los valores
z*
correspondientes a varios niveles de confianza.
Para calcular un IC para la proporción poblacional, haz lo siguiente:
1. Determina el nivel de confianza y encuentra el valor z* adecuado.
Encontrarás varios valores z* en la tabla 13-1.
2. Encuentra la
proporción muestral, , dividiendo el número de personas de la
muestra que poseen la característica de interés por el tamaño
muestral (n). Ten en cuenta que el resultado debe ser un
valor decimal entre 0 y 1.
3. Multiplica
(1 -
) y luego divide el resultado
por n.
4. Calcula la raíz cuadrada del resultado del paso 3.
5. Multiplica ese valor por z*.
Este cálculo proporciona el margen de error.
6. El IC es
± el
margen de error. El extremo inferior del IC es
– el margen de error, y el
extremo superior del IC es
+ el margen de error.

La fórmula indicada en el ejemplo anterior, con la que se determina el IC para p, se utiliza con la condición de que el tamaño muestral sea suficientemente grande como para poder aplicar el teorema del límite central y así poder utilizar un valor z* (un asunto del capítulo 11), lo cual ocurre en aquellos casos en que se estima una proporción a partir de una encuesta a gran escala (esto se trata en el capítulo 9). Para tamaños muestrales pequeños, los intervalos de confianza para la proporción están fuera del alcance de un curso de introducción a la estadística.
Por ejemplo, imagina que quieres estimar el porcentaje de veces que te tropiezas con un semáforo en rojo en un determinado cruce.
1. Como quieres un intervalo de confianza del 95%, tu valor z* es 1,96.
2. Coges una muestra aleatoria de 100 viajes
diferentes que pasen por ese cruce y compruebas que te encuentras
con el semáforo rojo en 53 ocasiones, de manera que = 53 / 100 = 0,53.
3. Encuentra (1 -
) =
0,53* (1 – 0,53) = 0,2491 / 100 =
0,002491.
4. Calcula la raíz cuadrada para obtener 0,0499.
El margen de error es, pues, ± 1,96 × (0,0499) = 0,0978, es decir, el 9,78%.
5. El intervalo de confianza del 95% para el porcentaje de veces que te encuentras con el semáforo en rojo en ese cruce en concreto es 0,53 (o el 53%) más/menos 0,0978 (redondeamos a 0,10, que es el 10%). El extremo inferior del intervalo es 0,53 – 0,10 = 0,43, o sea, el 43%; el extremo superior es 0,53 + 0,10 = 0,63, el 63%.
Para interpretar estos resultados en el contexto del problema, puedes decir que, basándote en los resultados de tu muestra y con un nivel de confianza del 95%, el porcentaje de veces que te encuentras con un semáforo en rojo en ese cruce está entre el 43 y el 63%.

Cuando hagas cálculos con porcentajes muestrales, utiliza siempre la forma decimal. Una vez que hayas terminado los cálculos, convierte a porcentajes multiplicando por 100. Para evitar el error de redondeo, conserva siempre dos decimales por lo menos.
Crear un intervalo de confianza para la diferencia entre dos medias
Muchas encuestas y estudios tienen el propósito de comparar dos poblaciones, por ejemplo hombres frente a mujeres, ingresos bajos frente a ingresos elevados, o republicanos frente a demócratas. Cuando la característica comparada es numérica (por ejemplo altura, peso o ingresos), el objeto de interés es la magnitud de la diferencia entre las medias de las dos poblaciones.
Por ejemplo, puede que quieras comparar la
diferencia de la edad que tienen de media los republicanos y los
demócratas, o la diferencia de los ingresos medios de hombres y
mujeres. Para estimar la diferencia entre dos medias poblacionales,
μ1 - μ2,
hay que tomar una muestra de cada población (llamémoslas muestra 1
y muestra 2) y coger la diferencia entre ambas medias muestrales,
1 -
2, ± un margen
de error. El resultado es un intervalo de
confianza para la diferencia entre dos medias poblacionales,
μ1 - μ2.
La fórmula para hallar el IC varía en función de ciertas
condiciones, como hemos visto en los apartados anteriores. Tenemos
el caso 1 y el caso 2.
Caso 1. Se conocen las desviaciones estándares de la población
El caso 1 presupone que las desviaciones
estándares de las dos poblaciones son conocidas. La fórmula con la
que se calcula el IC para la diferencia entre dos medias
poblacionales es , en la que
1 y
n1 son la
media y el tamaño de la primera muestra (la desviación estándar de
la primera población, σ1, nos la dan),
y
2 y n2 son la media y el
tamaño de la segunda muestra (la desviación estándar de la segunda
población, σ2, también nos la dan).
Aquí z* es
el valor de la distribución normal estándar que es adecuado para el
nivel de confianza que deseas (en la tabla 13-1 encontrarás valores
de z* para
varios niveles de confianza).
Para calcular un IC para la diferencia entre dos medias poblaciones, haz lo siguiente:
1. Determina el nivel de confianza y encuentra el valor z* adecuado.
Consulta la tabla 13-1.
2.
Identifica 1, n1
y σ1, así como ,
2 n2
y σ2.
3. Calcula la
diferencia, (1–
2), entre las medias muestrales.
4. Eleva al cuadrado σ1 y divide el resultado por n1; eleva al cuadrado σ2 y divide el resultado por n2. Suma los resultados y calcula la raíz cuadrada.
5. Multiplica la respuesta del paso 4 por z*. Este cálculo proporciona el margen de error.
6. El IC es
1 –
2 ± el margen
de error.
El extremo inferior del IC es 1 –
2 - margen de
error, y el extremo superior del IC es
1 –
2 + margen de error.
Pongamos que quieres estimar con un nivel de confianza del 95% cuál es la diferencia entre la longitud media de las espigas de dos variedades distintas de trigo (permitiendo que crezcan el mismo número de días bajo las mismas condiciones). Llamaremos a las dos variedades A y B. Por investigaciones anteriores sabes que las desviaciones estándares de población para las variedades A y B son 0,35 centímetros y 0,45 centímetros, respectivamente.
1. Como quieres un intervalo de confianza del 95%, tu valor z* es 1,96.
2. Supongamos que la muestra aleatoria de
100 espigas de la variedad A tiene una longitud media de 8,5
centímetros, y la muestra aleatoria de 110 espigas de la variedad B
tiene una longitud media de 7,5 centímetros. Así pues, tienes la
información siguiente: 1 =8,5,
σ1 = 0,35, n1, n1=100,
2 = 7,5, σ2 = 0,45 y
n2 =
110.
3. Según el paso 3 hay que calcular la
diferencia entre las medias muestrales, 1–
2, que es 8,5 – 7,5 = +1 centímetro. La media de
la variedad A menos la media de la variedad B es un valor positivo,
de manera que la variedad A es la variedad más grande de las dos, a
partir de los datos de esta muestra. Pero ¿esta diferencia es
suficiente para extrapolar el resultado a toda la población? Eso es
lo que vas a decidir con la ayuda de este intervalo de
confianza.
4. Calculas el cuadrado de σ1 (0,35), que es 0,1225; divides por 100 y obtienes 0,0012. Calculas el cuadrado de σ2 (0,45) y divides por 110, con lo que resulta 0,2025 / 110 = 0,0018. La suma es 0,0012 + 0,0018 = 0,0030; la raíz cuadrada es 0,0554 centímetros (sin redondeo).
5. Multiplicas 1,96 × 0,0554; te sale 0,1085 centímetros, el margen de error.
6. El intervalo de confianza del 95% para la diferencia entre las longitudes medidas de estas dos variedades de trigo es 1 centímetro ± 0,1085 centímetros (el extremo inferior del intervalo es 1 – 0,1085 = 0,8915 centímetros, y el extremo superior es 1 + 0,1085 = 1,1085 centímetros). Observa que todos los valores de este intervalo son positivos. Por tanto, estimas que la variedad A es más larga que la variedad B, según los datos que manejas.
Para interpretar estos resultados en el contexto del problema, puedes decir que, basándote en los resultados de tu muestra y con un nivel de confianza del 95%, la variedad A es más larga, en promedio, que la variedad B, y la diferencia está entre 0,8915 y 1,1085 centímetros.

Ten presente que 1
–
2 podría
dar como resultado un valor negativo. Por ejemplo, si hubieras
intercambiado las dos variedades de trigo, la diferencia habría
sido –1. En ese caso habrías dicho que la variedad B era, en
promedio, un centímetro más corta que la variedad A (la misma
conclusión expresada de manera diferente).

Si quieres evitar valores negativos para la diferencia entre medias muestrales, pon primero el grupo que tenga la media muestral más grande. De este modo la diferencia será positiva (es lo que hago yo).
Caso 2. Se desconocen las desviaciones estándares de la población y/o los tamaños muestrales son pequeños
Es posible que desconozcas σ1 y σ2, en cuyo caso las estimas con las desviaciones estándares de las muestras, s11 y s12, y/o que los tamaños muestrales sean pequeños (inferiores a 30) y no estés seguro de si los datos proceden de una distribución normal.
En el caso 2, el intervalo de confianza para la
diferencia entre dos medias poblacionales es , en la que t* es el valor crítico
de la distribución t que tiene n1 + n2–2 grados de
libertad; n1
y n2 son los
dos tamaños muestrales, respectivamente; y s1 y s2 son las dos
desviaciones estándares de las muestras. Este valor t* se encuentra en la
tabla t (está en el apéndice), buscando
la intersección entre la fila correspondiente a gl = n1 + n2 – 2 y la columna correspondiente al nivel de
confianza que necesites, según indique la última fila de la tabla
(mira el capítulo 10). Aquí suponemos que las desviaciones
estándares de las poblaciones son similares. De lo contrario, se
introduce la modificación correspondiente utilizando el error
estándar y los grados de libertad. (Consulta el final del apartado
sobre comparación de dos medias, en el capítulo 15.)
Volviendo al ejemplo del caso 1, imagina que
las espigas de las dos variedades de maíz, la variedad A (grupo 1)
y la variedad B (grupo 2), tienen la misma longitud media que
antes: 1=8,5 y
2 = 7,5 centímetros. Esta vez, sin embargo, no
conoces las desviaciones estándares de las poblaciones, de manera
que utilizas en su lugar las desviaciones estándares de las
muestras (pongamos que son s1 = 0,40 y s2 = 0,50 centímetros, respectivamente).
Supongamos que los tamaños muestrales, n1 y n2, son solamente 15
en este caso.
Para calcular el IC, primero hay que encontrar
el valor t*
de la distribución t que tiene (15 + 15 –
2) = 28 grados de libertad (suponemos que el nivel de confianza
continúa siendo del 95%). En la tabla t
(la tienes en el apéndice), busca la fila correspondiente a 28
grados de libertad y la columna que representa un nivel de
confianza del 95% (mira las etiquetas que hay en la última fila de
la tabla); encuentra la intersección de fila y columna y verás que
t*28 = 2,048.
Utilizando el resto de la información que te dan, el intervalo de
confianza para la diferencia entre las longitudes medias de las
espigas de las dos variedades es =1 ± 2,048 (0,45) = 1 ± 0,9273
centímetros.
Eso significa que el IC del 95% para la diferencia entre las longitudes medias de las espigas de estas dos variedades de trigo en esta situación es (0,0727, 1,9273) centímetros, y las espigas de la variedad A son las más largas. (Advierte que este IC es más ancho que el obtenido para el caso 1, como era de esperar.)
Estimar la diferencia entre dos proporciones
Cuando la característica de los dos grupos que se comparan es categórica, por ejemplo la opinión sobre una determinada cuestión (a favor/en contra), lo que se quiere plasmar son las diferencias entre las dos proporciones poblacionales, por ejemplo la diferencia entre la proporción de mujeres que están a favor de la semana de cuatro días laborables y la proporción de hombres que están a favor de la semana de cuatro días laborables. ¿Y esto cómo se hace?
Para estimar la diferencia entre dos
proporciones poblacionales, p1 – p2, hay que tomar una muestra de cada población y
coger la diferencia entre ambas proporciones muestrales, 1 –
2, ± un margen
de error. El resultado es un intervalo de confianza para la
diferencia entre dos proporciones poblacionales, p1 – p2.
La fórmula con la que se calcula el IC para la
diferencia entre dos proporciones poblacionales es , en la que
1 y n1 son la proporción muestral y el tamaño muestral
de la primera muestra, y
2 y n2 son la proporción
muestral y el tamaño muestral de la segunda muestra. z* es el valor de la
distribución normal estándar que es adecuado para el nivel de
confianza que deseas (encontrarás valores z* en la tabla
13-1).
Para calcular el IC correspondiente a la diferencia entre dos proporciones poblaciones, haz lo siguiente:
1. Determina el nivel de confianza y encuentra el valor z* adecuado.
Consulta la tabla 13-1.
2. Encuentra la
proporción muestral 1 de la primera
muestra, para lo cual debes coger el número total de elementos de
la primera muestra que pertenecen a la categoría de interés y
dividirlo por el tamaño muestral, n1. De forma similar,
encuentra la proporción muestral
2 de la segunda
muestra.
3. Calcula la
diferencia entre las proporciones muestrales, 1 -
2.
4. Calcula (1 -
) y luego
divide el resultado por n1. Calcula
1 (1 -
2) y luego
divide el resultado por n2. Suma estos dos
resultados y calcula la raíz cuadrada.
5. Multiplica z* por el resultado del paso 4.
Este cálculo proporciona el margen de error.
6. El IC es
1 -
>sub>2 ± el margen de error
obtenido en el paso 5.
El extremo inferior del IC es 1–
2 – el margen
de error, y el extremo superior del IC es
1–
2 + más el
margen de error.
La fórmula aquí indicada, con la que se determina el IC para p1–p2, se utiliza con la condición de que los dos tamaños muestrales sean suficientemente grandes como para poder aplicar el teorema del límite central y así poder utilizar un valor z* (ver el capítulo 11), lo cual ocurre cuando se estiman proporciones utilizando encuestas a gran escala, por ejemplo. Para tamaños muestrales pequeños, los intervalos de confianza están fuera del alcance de un curso de introducción a la estadística.
Imagina que trabajas para la Cámara de Comercio de Las Vegas y quieres estimar con un nivel de confianza del 95% cuál es la diferencia entre el porcentaje de mujeres que alguna vez han ido a ver a un imitador de Elvis y el porcentaje de hombres que alguna vez han ido a ver a un imitador de Elvis, con el propósito de determinar cuál es la mejor estrategia de marketing para la oferta de espectáculos de la ciudad.
1. Como quieres un intervalo de confianza del 95%, tu valor z* es 1,96.
2. Supón que en tu muestra aleatoria de 100
mujeres hay 53 mujeres que en alguna ocasión han ido a ver el
espectáculo de un imitador de Elvis, de manera que 1 es 53 / 100 =0,53. Supón también que en tu
muestra aleatoria de 110 hombres hay 37 hombres que en alguna
ocasión han ido a ver el espectáculo de un imitador de Elvis, de
manera que
2 es 37 / 110
=0,34.
3. La diferencia entre estas proporciones muestrales (mujeres-hombres) es 0,53 – 0,34 =0,19.
4. Calculas 0,53 × (1 – 0,53) y lo divides por 100, con lo que resulta 0,2491 / 100 = 0,0025. Ahora calculas 0,34 × (1 – 0,34) y lo divides por 110, con lo que resulta 0,2244 / 110 = 0,0020. Si sumas estos dos resultados, te da 0,0025 + 0,0020 = 0,0045, cuya raíz cuadrada es 0,0671. 5. 1,96 × 0,0671 = 0,13, es decir, el 13%, que es el margen de error.
6. El intervalo de confianza del 95% para la diferencia entre el porcentaje de mujeres que han visto a un imitador de Elvis y el porcentaje de hombres que han visto a un imitador de Elvis es 0,19, es decir, el 19% (valor obtenido en el paso 3), ± 13%. El extremo inferior del intervalo es 0,19 – 0,13 = 0,06, o sea, el 6%; el extremo superior es 0,19 + 0,13 = 0,32, el 32%.
Para interpretar estos resultados en el contexto del problema, puedes decir que, basándote en los resultados de tu muestra y con un nivel de confianza del 95%, hay un porcentaje mayor de mujeres que de hombres que hayan visto alguna vez a un imitador de Elvis, y la diferencia entre ambos porcentajes está entre el 6 y el 32%.
Estoy pensando que algunos hombres no admitirían nunca haber asistido al espectáculo de un imitador de Elvis (aunque probablemente ellos mismos lo hayan imitado alguna vez en un karaoke). Esto podría generar cierto sesgo en los resultados (la última vez que estuve en Las Vegas creo que vi al verdadero Elvis; iba conduciendo un taxi camino del aeropuerto).

Ten presente que 1–
2 podría dar como resultado un valor negativo.
Por ejemplo, si hubieras intercambiado los hombres y las mujeres,
la diferencia habría sido –0,19. No es que pase nada, pero puedes
evitar diferencias negativas en las proporciones muestrales
poniendo primero el grupo que tenga la proporción muestral más
grande (en este caso, las mujeres).
Detectar intervalos de confianza engañosos
Cuando el ME es pequeño, en términos relativos, tiendes a creer que esos intervalos de confianza proporcionan estimaciones precisas y fiables de sus parámetros. Sin embargo, no siempre es así.

No todas las estimaciones son tan precisas y fiables como las fuentes quieren hacerte creer. Por ejemplo, una encuesta de un sitio web basada en 20.000 visitas puede que tenga un ME pequeño según la fórmula, pero el ME no significa nada si la encuesta se hace exclusivamente a las personas que entren en ese sitio web.
Dicho de otro modo, la muestra dista mucho de ser una muestra aleatoria (donde todas las muestras de igual tamaño seleccionadas entre la población tienen la misma probabilidad de ser elegidas para participar). No obstante, es frecuente que se publiquen este tipo de resultados, junto con los márgenes de error que hacen que el estudio parezca verdaderamente científico. ¡Mucho ojo con estos resultados fraudulentos! (En el capítulo 12 encontrarás más información sobre los límites del ME.)

Antes de tomar una decisión basada en la estimación de otra persona, haz lo siguiente:
Entérate de dónde proviene la estadística;
debe ser el resultado de un proceso científico que genere datos
fiables, no sesgados y exactos.
Averigua cuál es el margen de error. Si no
lo mencionan, pídeselo a la fuente original.
Recuerda que si la estadística no es fiable
o tiene sesgo, el margen de error no significa nada.
(En el capítulo 16 explico cómo evaluar los datos de una encuesta y en el capítulo 17 expongo las condiciones que deben cumplirse para que los datos de los experimentos se consideren válidos.)