Intervalos de confianza: estimaciones aproximadas

En este capítulo

Comprender los elementos y la interpretación de un intervalo de confianza

Realizar cálculos con confianza

Analizar los factores que influyen en la amplitud de un intervalo de confianza

Detectar resultados engañosos

La mayoría de los estadísticos se utilizan para estimar alguna característica sobre una población de interés, por ejemplo los ingresos medios por unidad familiar, el porcentaje de personas que compran regalos de cumpleaños por Internet, o la cantidad media de helado que consume un español en un año (y el aumento de peso resultante, por desgracia). Estas características de una población se llaman parámetros. Por regla general, para estimar el valor de un parámetro se toma una muestra de la población y se utilizan estadísticos de esa muestra que permitan obtener una estimación válida. La pregunta es la siguiente: ¿qué es una estimación válida?

Si el proceso se lleva a cabo correctamente (cosa que no suelen hacer los medios de comunicación), la estimación estará muy cerca del parámetro. Este capítulo ofrece una visión general de los intervalos de confianza (el tipo de estimaciones utilizado y recomendado por los estadísticos): por qué deben utilizarse (en lugar de una estimación consistente en un único número), cómo definir, calcular e interpretar los intervalos de confianza más utilizados, y cómo detectar estimaciones engañosas.

No todas las estimaciones son iguales

Basta con leer una revista o un periódico o escuchar un programa informativo para oír montones de estadísticas, muchas de las cuales son estimaciones de alguna cantidad. Quizá te preguntes de dónde salen esas estadísticas. En algunos casos las cifras son el resultado de una investigación bien realizada, y en otros casos no son más que un disparo a ciegas. Aquí tienes, a modo de ejemplo, varias estimaciones que encontré en un solo número de una revista sobre negocios publicada en Estados Unidos. Proceden de diversas fuentes:

Aunque en determinados sectores cuesta colocarse, hay otros sectores donde se busca gente: en los próximos ocho años se necesitarán 13.000 auxiliares de anestesia. Los sueldos oscilan entre 80.000 y 95.000 dólares al año.

Un jugador de la liga profesional de béisbol utiliza una media de 90 bates cada temporada.

El Lamborghini Murciélago puede pasar de 0 a 100 kilómetros por hora en 3,7 segundos y alcanza una velocidad máxima de casi 330 kilómetros por hora.

Algunas de estas estimaciones son más fáciles de obtener que otras. Pongo a continuación algunas observaciones referidas a esas estimaciones:

¿Cuál es la forma de estimar cuántos auxiliares de anestesia harán falta en los próximos ocho años? Podrías empezar por averiguar cuántos se jubilarán en ese plazo, pero eso no tendría en cuenta el aumento de la demanda. Podríamos predecir de manera más o menos fiable la oferta de empleos para el próximo año o dos años, pero a ocho años vista es mucho más difícil.

El número medio de bates utilizados por un jugador de la liga profesional a lo largo de una temporada podría hallarse preguntando a los propios jugadores, a las personas que se encargan del equipamiento o a las empresas que suministran los bates.

Determinar la aceleración de un coche es más difícil, pero podría hacerse en una pista con ayuda de un cronómetro. Habría que medir la aceleración media de muchos coches (no sólo uno) de la misma marca y modelo, siempre bajo las mismas condiciones de conducción.

No todas las estadísticas son iguales. No te creas de entrada todo lo que te digan. Para determinar si una estadística es fiable y creíble, piensa si tiene sentido y qué harías tú para obtener una estimación. Si la estadística es muy importante para ti, averigua qué procedimiento siguieron para obtenerla. (En el capítulo 16 encontrarás todo lo relativo a las encuestas, y en el capítulo 17 te doy pelos y señales sobre los experimentos.)

Vincular un estadístico a un parámetro

Un parámetro es un único número que describe a una población, por ejemplo los ingresos medios de una unidad familiar en Estados Unidos. Un estadístico es un único número que describe a una muestra, por ejemplo los ingresos medios de una unidad familiar en una muestra de, pongamos, 1.200 unidades familiares. Lo normal es que desconozcas los valores de parámetros poblacionales, de manera que tomas muestras y utilizas estadísticos para dar la estimación posible.

Supongamos que quieres saber qué porcentaje de todos los vehículos de Estados Unidos son camionetas pickup (ése es el parámetro, en este caso). No puedes comprobar todos los vehículos, así que tomas una muestra aleatoria de 1.000 vehículos en varias autopistas a diferentes horas del día. Observas que el 7% de los vehículos de tu muestra son camionetas pickup. Llegados a este punto, no puedes afirmar que exactamente el 7% de todos los vehículos que circulan por las carreteras estadounidenses son camionetas pickup, porque sabes que esto se basa exclusivamente en los 1.000 vehículos que componen tu muestra. Aunque confías en que ese 7% esté cerca del porcentaje real, no puedes estar seguro porque tus resultados se basan en una muestra de vehículos, no en todos los vehículos de Estados Unidos.

Entonces, ¿qué haces? Pues coges el resultado de tu muestra y le sumas y restas un número para indicar que estás dando un intervalo de valores posibles para el parámetro poblacional, en lugar de dar por sentado que el estadístico muestral es igual al parámetro poblacional (lo cual no sería correcto, aunque los medios de comunicación lo hacen continuamente). Ese número que sumas y restas al estadístico se llama margen de error (ME). El más/menos (se escribe ±) que se añade a la estimación ayuda a ver los resultados con perspectiva. Si conoces el margen de error, te haces una idea de cuánto podrían variar los resultados muestrales si tomaras otra muestra.

La palabra “error” (en el término “margen de error”) no significa que alguien se haya equivocado ni que los datos sean inválidos. Simplemente quiere decir que los resultados de una muestra no son exactamente iguales a los que habrías obtenido si hubieras incluido a toda la población. Esta divergencia mide el error debido a la probabilidad aleatoria, el puro azar, no el debido al sesgo (por eso es tan importante reducir el sesgo al mínimo al seleccionar la muestra y al recopilar los datos; ver los capítulos 16 y 17).

Terminología básica

Un estadístico más/menos un margen de error es lo que se llama un intervalo de confianza:

La palabra intervalo se utiliza porque el resultado consiste en un intervalo de valores. Por ejemplo, supongamos que al 40% de los niños les gusta el fútbol, con un margen de error de más/menos el 3,5%. Eso significa que el porcentaje de niños a los que les gusta el fútbol está entre el 40%–3,5%=36,5% y el 40%+3,5%=43,5%. El extremo inferior del intervalo es el estadístico menos el margen de error, y el extremo superior es el estadístico más el margen de error.

Con todos los intervalos de confianza tienes cierto grado de confianza en que has estimado correctamente el parámetro por medio de tu muestra. Este grado de confianza se expresa como porcentaje y se denomina nivel de confianza.

Más adelante en este mismo capítulo encontrarás fórmulas y ejemplos para los intervalos de confianza más utilizados.

A continuación verás los pasos generales para estimar un parámetro con un intervalo de confianza. En lo que queda de capítulo te proporciono información pormenorizada sobre los pasos 1 y 4-6. Los pasos 2 y 3 se refieren al muestreo y la recopilación de datos, que se explican con más detalle en el capítulo 16 (muestreo y recopilación de datos para encuestas) y en el capítulo 17 (recopilación de datos de experimentos):

1. Elegir el nivel de confianza y el tamaño muestral.

2. Seleccionar una muestra aleatoria de elementos de la población.

3. Recopilar datos fiables y relevantes de los elementos que componen la muestra.

4. Resumir los datos en un estadístico, por ejemplo una media o una proporción.

5. Calcular el margen de error.

6. Sumar y restar el margen de error al estadístico para obtener la estimación final del parámetro. Este paso calcula el intervalo de confianza para ese parámetro.

Interpretar resultados con confianza

Imagina que eres biólogo investigador y estás intentando pescar un pez con una red de mano, y el tamaño de esa red representa el margen de error de un intervalo de confianza. Pongamos que tu nivel de confianza es del 95%. ¿Qué significa eso en realidad? Significa que si lanzas al agua esa red en concreto muchas veces seguidas, cogerás un pez el 95% de las veces. Si has cogido un pez, significa que tu intervalo de confianza era correcto y contiene el parámetro real (en este caso el parámetro está representado por el propio pez).

Pero ¿significa eso que tienes una probabilidad del 95% de coger un pez en cualquier intento? No. ¿Te resulta confuso? Lo cierto es que lo es. Aquí va la explicación: imagina que cierras los ojos y a continuación lanzas la red al agua. En ese momento la probabilidad de coger un pez es del 95%. Ahora recoges la red y vuelves a lanzarla al agua con los ojos todavía cerrados. Después de haber hecho eso, abres los ojos y ves uno de los dos únicos resultados posibles: has cogido un pez o no lo has cogido. La probabilidad ya no tiene nada que ver.

De igual modo, después de haber recopilado los datos y haber calculado el intervalo de confianza, habrás capturado el parámetro poblacional real o no lo habrás capturado. No podrás decir que estás seguro al 95% de que el parámetro está dentro de tu intervalo concreto. De lo que estás seguro al 95% es del proceso mediante el cual se seleccionan muestras aleatorias y se crean intervalos de confianza (es decir, que a largo plazo el 95% de las veces cogerás un pez).

Sabes que este proceso generará intervalos que capturarán la media poblacional el 95% de las veces. El otro 5% de las veces, los datos recopilados en la muestra tendrán valores anormalmente altos o anormalmente bajos por puro azar, y no representarán a la población. Este 5% mide exclusivamente los errores debidos a la probabilidad aleatoria, y no incluye el sesgo.

El margen de error no significa nada si los datos utilizados en el estudio estaban sesgados o no eran fiables. Sin embargo, no puedes saber tal cosa con sólo mirar los resultados estadísticos de alguien. Mi consejo es que, antes de aceptar el margen de error que te digan, averigües cómo se recopilaron los datos (en los capítulos 16 y 17 hablo de los problemas que entraña la recopilación de datos). Por tanto, antes de creerte un estudio debes hacer algunas preguntas.

Cuestión de amplitud

La amplitud de tu intervalo de confianza es dos veces el margen de error. Por ejemplo, supongamos que el margen de error es ±5%. Un intervalo de confianza del 7%, ± 5%, abarca desde el 7% – 5% = 2% hasta el 7% + 5% = 12%. Por lo tanto, la amplitud del intervalo de confianza es de 12% – 2% = 10%. Una manera más sencilla de calcularlo es decir que la amplitud del intervalo de confianza es dos veces el margen de error. En este caso la amplitud del intervalo de confianza es 2 × 5% = 10%.

La amplitud de un intervalo de confianza es la distancia que hay entre el extremo inferior del intervalo (el valor del estadístico menos el margen de error) y el extremo superior del intervalo (el valor del estadístico más el margen de error). Una manera rápida de calcular la amplitud de un intervalo de confianza consiste en multiplicar por dos el margen de error.

Cuando realizas una estimación utilizando un intervalo de confianza, el objetivo final es que ese intervalo sea estrecho, porque eso significa que estás centrándote en el punto donde se encuentra el parámetro. Tener que sumar y restar un margen de error grande hace que tu resultado sea mucho menos preciso.

Entonces, si un margen de error pequeño es algo deseable, ¿uno más pequeño sería todavía mejor? No siempre. Un intervalo de confianza estrecho es algo bueno... hasta cierto punto. Para obtener un intervalo de confianza extremadamente estrecho tienes que realizar un estudio mucho más grande (y más caro), con lo que llega un momento en que el incremento del coste no justifica la pequeña diferencia en cuanto a precisión. La mayoría de la gente se conforma con un margen de error comprendido entre el 2 y el 3% cuando la propia estimación es un porcentaje (por ejemplo el porcentaje de mujeres, de republicanos o de fumadores).

¿Cómo te aseguras de que tu intervalo de confianza será suficientemente estrecho? Desde luego, es importante reflexionar sobre esta cuestión antes de recopilar los datos (después de recopilarlos, la amplitud del intervalo de confianza ya está definida).

Los factores que influyen en la amplitud de un intervalo de confianza son:

Nivel de confianza.

Tamaño de la muestra.

Variabilidad de la población.

Cada uno de estos tres factores influye de manera considerable en la amplitud de un intervalo de confianza. En los siguientes apartados explicaré cada elemento y de qué manera influye.

Elegir un nivel de confianza

A cada intervalo de confianza (y, por tanto, a cada margen de error) le corresponde un porcentaje que representa tu grado de confianza en que los resultados capturarán el parámetro poblacional real, dependiendo de cómo el azar influya en la muestra aleatoria. Este porcentaje se denomina nivel de confianza.

El nivel de confianza te ayuda a justificar el resto de los resultados muestrales que podrías haber obtenido cuando estás estimando un parámetro utilizando los datos procedentes de una única muestra. Si quieres justificar el 95% del resto de los resultados posibles, tu nivel de confianza será del 95%.

¿Qué nivel de confianza suelen utilizar los investigadores? Yo he visto niveles de confianza entre el 80 y el 99%, pero el más frecuente es el 95%. De hecho, hay incluso un chiste sobre esta cuestión: ¿por qué a los estadísticos les gusta su trabajo? Porque sólo tienen que acertar el 95 % de las veces (tiene gracia, ¿no? Y creo que los meteorólogos aciertan menos).

La variabilidad en los resultados muestrales se mide por el número de errores estándares. Un error estándar es similar a la desviación estándar de un conjunto de datos, sólo que el error estándar se aplica a medias muestrales o porcentajes muestrales que podrías haber obtenido si hubieras tomado otras muestras. (En el capítulo 11 encontrarás información sobre los errores estándares.)

Los errores estándares son los elementos básicos de los intervalos de confianza. Un intervalo de confianza es un estadístico más/menos un margen de error, y el margen de error es el número de errores estándares que necesitas para llegar al nivel de confianza que quieres.

A cada nivel de confianza le corresponde un número de errores estándares que deben sumarse o restarse. Este número de errores estándares es lo que se denomina valor crítico. Si estás utilizando una distribución Z para encontrar el número de errores estándares (de la forma descrita posteriormente en este mismo capítulo), el valor crítico se llama valor z* (se pronuncia “valor zeta asterisco”). En la tabla 13-1 encontrarás una lista de valores z* para los intervalos de confianza más comunes.

A medida que aumenta el nivel de confianza, aumenta también el número de errores estándares y, por tanto, el margen de error.

Si quieres un nivel de confianza en los resultados superior al 95%, tendrás que sumar y restar más de dos errores estándares aproximadamente. Por ejemplo, para tener una confianza del 99%, sumas y restas aproximadamente dos errores estándares y medio (2,58, para ser exactos) para obtener el margen de error. Cuanto mayor es el nivel de confianza, más grande es el valor z* y el margen de error, y más ancho es el intervalo de confianza (suponiendo que todo lo demás permanece igual). Para tener más confianza hay que pagar un precio.

Observa que he dicho “suponiendo que todo lo demás permanece igual”. Puedes compensar un incremento del margen de error incrementando también el tamaño de la muestra. Encontrarás más información sobre este tema en el siguiente apartado.

La importancia del tamaño muestral

La relación entre el margen de error y el tamaño muestral es simple: cuando el tamaño muestral aumenta, el margen de error disminuye y el intervalo de confianza se hace más estrecho. Esta relación confirma algo que esperas que sea cierto: cuanta más información (datos) tienes, más precisos serán los resultados (eso, naturalmente, suponiendo que la información sea válida y creíble. En el capítulo 3 explico por qué pueden estar equivocadas las estadísticas).

En todas las fórmulas de margen de error para intervalos de confianza incluidas en este capítulo aparece el tamaño muestral (n) en el denominador. Por ejemplo, la fórmula del margen de error para la media muestral, (que se comenta con más detalle más adelante en este mismo capítulo) tiene una n en el denominador de una fracción (igual que la mayoría de las fórmulas de margen de error). Si n aumenta, el denominador de esa fracción aumenta, con lo que el valor de la fracción en general se hace más pequeño. Como consecuencia, el margen de error disminuye y el intervalo de confianza se hace más estrecho. Si necesitas un nivel de confianza alto, debes incrementar el valor z* y, por tanto, el margen de error, con el resultado de un intervalo de confianza más ancho, lo cual no es bueno (ver el apartado anterior). Sin embargo, este intervalo de confianza más ancho puede compensarse aumentando el tamaño muestral y reduciendo de nuevo el margen de error, con lo que el intervalo de confianza se hace más estrecho.

El aumento del tamaño muestral te permite alcanzar el nivel de confianza que deseas, al tiempo que garantiza un intervalo de confianza estrecho (que es lo que quieres en último término). Es posible incluso determinar el tamaño muestral que necesitas antes de comenzar un estudio: si conoces el margen de error que quieres obtener, basta con definir el tamaño muestral en consecuencia. (Tienes más información en el apartado “Determinar qué tamaño muestral necesitas”.)

Si tu estadístico va a ser un porcentaje (por ejemplo el porcentaje de personas que prefieren llevar sandalias en verano), una manera aproximada de determinar el margen de error para un intervalo de confianza del 95% consiste en dividir 1 por la raíz cuadrada de n (el tamaño muestral). Puedes probar con diferentes valores de n y ver cómo repercuten en el margen de error. Por ejemplo, una encuesta de 100 personas pertenecientes a una población grande tendrá un margen de error aproximado de =0,1, es decir, ± 10% (por tanto el intervalo de confianza tendrá un ancho del 20%, que es mucho).

No obstante, si preguntas a 1.000 personas, el margen de error disminuye muchísimo, hasta ± 3%, aproximadamente, con lo que la amplitud pasa a ser de tan sólo el 6%. Si la encuesta es de 2.500 personas, el margen de error será de ± 2% (y la amplitud disminuye hasta el 4%). Si piensas en lo grande que es la población (en Estados Unidos, por ejemplo, viven más de 310 millones de personas), este tamaño muestral es bastante pequeño para semejante precisión.

Sin embargo, ten presente que no conviene aumentar en exceso el tamaño muestral, porque llega un punto en que ya no merece la pena. Por ejemplo, si el tamaño muestral pasa de 2.500 a 5.000, la amplitud del intervalo de confianza pasa del 4% al 2 × 1,4=2,8%. Por cada persona más que incorporas a la encuesta el coste aumenta, de manera que preguntar a otras 2.500 personas para estrechar el intervalo un poco más del 1% posiblemente no merezca la pena.

El primer paso en cualquier problema de análisis de datos (y también para valorar críticamente los resultados de otra persona) consiste en cerciorarse de que los datos son válidos. Los resultados estadísticos sólo son válidos si los datos también lo son, de manera que la precisión real depende tanto de la calidad de los datos como del tamaño muestral. Un tamaño muestral grande que tenga mucho sesgo (el asunto está tratado en el capítulo 16) aparentemente tendrá un intervalo de confianza estrecho, pero no significará nada. Es como si compites en tiro con arco y obtienes buenas puntuaciones en todas las rondas, pero al final te das cuenta de que has estado disparando todo el rato a la diana de la persona que tienes al lado; eso te dará una idea de lo equivocado que estás. En el campo de la estadística, sin embargo, no puedes medir el sesgo de forma exacta; tan sólo puedes intentar reducirlo al mínimo diseñando muestras y estudios válidos (para saber cómo tendrás que leer los capítulos 16 y 17).

Tener en cuenta la variabilidad de la población

Uno de los factores que influyen en la variabilidad de los resultados muestrales es el hecho de que la propia población contiene variabilidad. Por ejemplo, en la población formada por las casas que hay en una ciudad grande como Columbus, Ohio, existe mucha variedad, no sólo en cuanto a tipos de casas, sino también en cuanto a tamaños y precios. Además, la variabilidad de los precios de las casas de Columbus probablemente sea mayor que la variabilidad de los precios de las casas de una urbanización en concreto de Columbus.

Eso significa que si tomas una muestra de casas de toda la ciudad de Columbus y calculas el precio medio, el margen de error será más grande que si tomas una muestra de una urbanización concreta de Columbus, incluso si tienes el mismo nivel de confianza y el mismo tamaño muestral.

¿Por qué? Pues porque las casas de toda la ciudad presentan una variabilidad mayor en cuanto a precio, y se supone que tu media muestral cambiaría más de una muestra a otra de lo que cambiaría si tomaras todas las muestras en esa urbanización en concreto, en la que los precios son bastante similares porque todas las casas son parecidas. Por tanto, si eliges casas de toda la ciudad de Columbus tienes que incluir más casas en la muestra para tener el mismo grado de precisión que obtendrías en esa urbanización en concreto.

La desviación estándar de la población se designa con la letra griega σ. Observa que σ aparece en el numerador del error estándar en la fórmula del margen de error para la media muestral: .

Por consiguiente, cuando la desviación estándar (el numerador) aumenta, el error estándar (la fracción entera) también aumenta. Esto se traduce en un margen de error más grande y un intervalo de confianza más ancho. (En el capítulo 11 encontrarás más información sobre el error estándar.) Cuanta más variabilidad haya en la población original, mayor será el margen de error y más ancho será el intervalo de confianza. Este incremento se puede compensar aumentando el tamaño muestral.

Calcular un intervalo de confianzapara una media poblacional

Cuando la característica medida (por ejemplo ingresos, coeficiente intelectual, precio, altura, cantidad o peso) es numérica, la mayoría de las personas quieren estimar el valor medio para la población. Para estimar la media poblacional, μ, se utiliza una media muestral, , más/menos un margen de error. El resultado se llama intervalo de confianza para la media poblacional, μ. Su fórmula depende de si se cumplen ciertas condiciones. Divido las condiciones en dos casos, ilustrados en los siguientes apartados.

Caso 1: Se conoce la desviación estándar de la población

En el caso 1, la desviación estándar de la población es conocida. La fórmula de un intervalo de confianza (IC) para una media poblacional en este caso es , en la que es la media muestral, σ es la desviación estándar de la población, n es el tamaño muestral, y z* representa el valor z* adecuado de la distribución normal estándar para el nivel de confianza que deseas (en la tabla 13-1 encontrarás los valores de z* para varios niveles de confianza).

En este caso los datos deben provenir de una distribución normal o bien, si no es así, n debe ser suficientemente grande (al menos 30) como para poder aplicar el teorema del límite central (ver el capítulo 11), y así poder utilizar los valores z* en la fórmula.

A fin de calcular un IC para la media poblacional bajo las condiciones del caso 1, haz lo siguiente:

1. Determina el nivel de confianza y encuentra el valor z* adecuado.

Consulta la tabla 13-1.

2. Encuentra la media muestral () para el tamaño muestral (n).

Nota: se supone que la desviación estándar de la población es un valor conocido, σ.

3. Multiplica z* por σ y divide el resultado por la raíz cuadrada de n.

Este cálculo proporciona el margen de error.

4. El IC es ± el margen de error.

El extremo inferior del IC es menos el margen de error, y el extremo superior del IC es más el margen de error.

Por ejemplo, imagina que trabajas para el Departamento de Recursos Naturales y quieres estimar, con un intervalo de confianza del 95%, la longitud media de los alevines de trucha en una piscifactoría.

1. Como quieres un intervalo de confianza del 95%, tu valor z* es 1,96.

2. Pongamos que coges una muestra de 100 alevines y determinas que la longitud media es 7,5 centímetros, y supongamos que la desviación estándar es 2,3 centímetros. Esto significa que = 7,5, σ = 2,3 y n = 100.

3. Multiplica 1,96 por 2,3 y divide por la raíz cuadrada de 100 (que es 10). El margen de error es, pues, ± 1,96 × (2,3 / 10) = 1,96 × 0,23 = 0,45 centímetros.

4. Tu intervalo de confianza del 95% para la longitud media de los alevines de lucioperca en esa piscifactoría es 7,5 centímetros ±0,45 centímetros (el extremo inferior del intervalo es 7,5 – 0,45 = 7,05 centímetros, y el extremo superior es 7,5 + 0,45 = 7,95 centímetros).

Después de calcular un intervalo de confianza, asegúrate de interpretarlo con palabras comprensibles para alguien que no sepa de estadística. Es decir, procura exponer los resultados refiriéndote a lo que la persona del problema intenta averiguar. Esto es lo que en estadística se llama interpretar los resultados “en el contexto del problema”. En este ejemplo puedes decir lo siguiente: “A partir de los datos de mi muestra, y con un nivel de confianza del 95%, la longitud media de los alevines de trucha de esta piscifactoría está entre 7,05 y 7,95 centímetros”.

Caso 2: Se desconoce la desviación estándar de la población y/o n es pequeño

En muchas situaciones σ es desconocida, de manera que se estima con la desviación estándar de la muestra, s; o el tamaño muestral es pequeño (inferior a 30), y no puedes saber si los datos proceden de una distribución normal (en este último caso no se puede aplicar el teorema del límite central; ver el capítulo 11). En ninguna de las dos situaciones puedes utilizar un valor z* de la distribución normal estándar (distribución Z) como valor crítico; tienes que utilizar un valor crítico más grande porque desconoces σ o porque tienes menos datos.

La fórmula del intervalo de confianza para una media poblacional en el caso 2 es , en la que t*n–1 es el valor t* crítico de la distribución t que tiene n–1 grados de libertad (donde n es el tamaño muestral). Los valores t* para los niveles de confianza habituales se encuentran mirando en la última fila de la tabla t (que encontrarás en el apéndice). En el capítulo 10 encontrarás información detallada sobre la distribución t y sobre cómo utilizar la tabla t.

La distribución t tiene una forma similar a la distribución Z, salvo que es más plana y sus valores están más dispersos. Para valores pequeños de n y un determinado nivel de confianza, los valores críticos en la distribución t son más grandes que en la distribución Z, de manera que cuando utilices los valores críticos de la distribución t el margen de error para tu intervalo de confianza será mayor. Conforme los valores de n se hacen más grandes, los valores t* se acercan más a los valores z*. (En el capítulo 10 encontrarás información detallada sobre la distribución t y sus relaciones con la distribución Z.)

En el ejemplo de la piscifactoría del caso 1, el tamaño muestral era 10 en lugar de 100, y todo lo demás era igual. El valor t* en este caso viene de una distribución t con 10–1=9 grados de libertad. Este valor t* se encuentra mirando en la tabla t (incluida en el apéndice). Primero miras en la última fila, donde están los niveles de confianza, y localizas el nivel de confianza del 95%, que señala la columna que necesitas. A continuación buscas la fila correspondiente a gl=9. En la intersección de esa fila y esa columna encuentras t*=2,262. Éste es el valor t* correspondiente a un intervalo de confianza del 95% para la media con un tamaño muestral de 10 (observa que es más grande que el valor z* de 1,96 encontrado en la tabla 13-1). Si aplicas la fórmula para calcular el intervalo de confianza, obtienes , es decir, entre 5,86 y 9,15 centímetros.

(En el capítulo 10 encontrarás información detallada sobre la distribución t y sobre cómo utilizar la tabla t.)

Observa que este intervalo de confianza es más ancho que el calculado para n=100. Además de tener un valor crítico más grande (t* en lugar de z*), el tamaño de la muestra es mucho menor, con lo que el margen de error aumenta porque n está en el denominador.

En el supuesto de que tengas que utilizar s porque no conoces σ, el intervalo de confianza también será más ancho. También suele ocurrir que σ no se conoce y el tamaño muestral es pequeño, en cuyo caso el intervalo de confianza también es más ancho.

Determinar qué tamaño muestral necesitas

El margen de error de un intervalo de confianza está relacionado con el tamaño muestral (puedes releer el apartado anterior “La importancia del tamaño muestral”): cuanto más grande es la muestra, más pequeño es el margen de error. Si lo piensas al revés, verás que para conseguir un margen de error pequeño (lo que siempre quieres) necesitas un tamaño muestral grande. Imagina que estás preparándote para hacer tu propia encuesta con el fin de estimar una media poblacional. ¿No estaría bien saber de antemano qué tamaño muestral necesitas para conseguir el margen de error que quieres? Pensar las cosas con antelación te ahorrará tiempo y dinero y te proporcionará resultados con un margen de error razonable, para que luego no tengas sorpresas.

La fórmula con la que averiguar el tamaño muestral necesario para obtener el margen de error (ME) que deseas cuando estás elaborando un intervalo de confianza para μ es . El tamaño muestral debe redondearse siempre hacia arriba, sea cual sea el valor decimal obtenido (por ejemplo, si los cálculos arrojan un tamaño muestral de 126,2 personas, no puedes coger el 0,2 de una persona. Necesitas la persona completa, así que la incluyes redondeando a 127).

En esta fórmula, ME es el número que representa el margen de error deseado, y z* es el valor z* correspondiente al nivel de confianza que buscas (según la tabla 13-1; generalmente se utiliza el valor 1,96 para un intervalo de confianza del 95%). Si desconoces la desviación estándar de la población, σ, puedes utilizar el valor aproximado que correspondería a la situación más desfavorable posible o bien puedes hacer un estudio preliminar (un pequeño estudio de prueba), encontrar la desviación estándar de los datos muestrales (s) y utilizar ese número. Esto puede ser arriesgado si el tamaño muestral es muy pequeño, ya que es menos probable que refleje a la población entera. Por tanto, si haces un estudio de prueba, procura que sea lo más grande posible. De otro modo, mejor que seas conservador en tu estimación de σ.

Generalmente merece la pena dedicar algo de tiempo y esfuerzo a un pequeño estudio preliminar. Además de obtener una estimación de σ que te ayudará a elegir el tamaño muestral adecuado, puede que descubras posibles problemas en el proceso de recopilación de datos.

En este capítulo únicamente pongo una fórmula para calcular el tamaño muestral: la que corresponde a un intervalo de confianza para una media poblacional (no obstante, puedes utilizar la fórmula aproximada que menciono en el apartado anterior “La importancia del tamaño muestral” cuando se trate de proporciones).

Veamos un ejemplo en el que necesitas calcular n para estimar una media poblacional: imagina que quieres estimar el número medio de canciones que los universitarios tienen almacenadas en sus reproductores portátiles. Quieres que el margen de error no sea superior a ± 20 canciones, y quieres un intervalo de confianza del 95%. ¿Cuántos universitarios deben componer tu muestra?

Como quieres un IC del 95%, z* es 1,96 (según la tabla 13-1); y sabes que el ME deseado es 20. Ahora necesitas un número para la desviación estándar de la población, σ. Este número es desconocido, así que haces un estudio preliminar con 35 universitarios y ves que la desviación estándar (s) para la muestra es de 148 canciones: éste será el número que utilices como sustituto de σ. Aplicando la fórmula, calculas que el tamaño muestral necesario es = (14,504)2 = 210,37, cifra que redondeas a 211 universitarios (al calcular n hay que redondear siempre al alza). Por lo tanto, debes tomar una muestra aleatoria de al menos 211 universitarios para que el margen de error en el número de canciones almacenadas no sea superior a 20. Por eso en la fórmula aparece el signo , mayor o igual que.

Cuando calcules el tamaño muestral debes redondear siempre al siguiente número entero, con independencia del valor decimal que hayas obtenido (por ejemplo 0,37). Esto es así porque el margen de error no debe ser mayor que el valor definido. Si redondearas a la baja al obtener un valor decimal inferior a 0,50 (como sueles hacer en otros cálculos matemáticos), el ME sería un poco mayor que lo deseado.

Si te estás preguntando de dónde sale esta fórmula para el tamaño muestral, es el resultado de algunos cálculos matemáticos. Coges la fórmula del margen de error (donde aparece n), sustituyes el resto de las variables de la fórmula por los números que sacas del problema, igualas al ME deseado y despejas para n.

Determinar el intervalo de confianza para una proporción poblacional

Si la característica medida es categórica —por ejemplo la opinión sobre una determinada cuestión (a favor, en contra o indiferente), el sexo, la filiación política o el tipo de comportamiento (llevar/no llevar el cinturón de seguridad puesto al conducir)—, generalmente se quiere estimar la proporción (o porcentaje) de personas de la población que pertenecen a cierta categoría de interés. Piensa, por ejemplo, en el porcentaje de personas que están a favor de la semana laboral de cuatro días, el porcentaje de republicanos que acudieron a las urnas en las pasadas elecciones en Estados Unidos o la proporción de conductores que no llevan puesto el cinturón de seguridad. En todos estos casos se trata de estimar una proporción poblacional, p, utilizando una proporción muestral, , más/menos un margen de error. El resultado se llama intervalo de confianza para la proporción poblacional, p.

La fórmula con la que se halla el IC para una proporción poblacional es en la que es la proporción poblacional, n es el tamaño muestral, y z* es el valor de la distribución normal estándar que resulta adecuado para el nivel de confianza que deseas. En la tabla 13-1 encontrarás los valores z* correspondientes a varios niveles de confianza.

Para calcular un IC para la proporción poblacional, haz lo siguiente:

1. Determina el nivel de confianza y encuentra el valor z* adecuado.

Encontrarás varios valores z* en la tabla 13-1.

2. Encuentra la proporción muestral, , dividiendo el número de personas de la muestra que poseen la característica de interés por el tamaño muestral (n). Ten en cuenta que el resultado debe ser un valor decimal entre 0 y 1.

3. Multiplica (1 - ) y luego divide el resultado por n.

4. Calcula la raíz cuadrada del resultado del paso 3.

5. Multiplica ese valor por z*.

Este cálculo proporciona el margen de error.

6. El IC es ± el margen de error. El extremo inferior del IC es – el margen de error, y el extremo superior del IC es + el margen de error.

La fórmula indicada en el ejemplo anterior, con la que se determina el IC para p, se utiliza con la condición de que el tamaño muestral sea suficientemente grande como para poder aplicar el teorema del límite central y así poder utilizar un valor z* (un asunto del capítulo 11), lo cual ocurre en aquellos casos en que se estima una proporción a partir de una encuesta a gran escala (esto se trata en el capítulo 9). Para tamaños muestrales pequeños, los intervalos de confianza para la proporción están fuera del alcance de un curso de introducción a la estadística.

Por ejemplo, imagina que quieres estimar el porcentaje de veces que te tropiezas con un semáforo en rojo en un determinado cruce.

1. Como quieres un intervalo de confianza del 95%, tu valor z* es 1,96.

2. Coges una muestra aleatoria de 100 viajes diferentes que pasen por ese cruce y compruebas que te encuentras con el semáforo rojo en 53 ocasiones, de manera que = 53 / 100 = 0,53.

3. Encuentra (1 - ) = 0,53* (1 – 0,53) = 0,2491 / 100 = 0,002491.

4. Calcula la raíz cuadrada para obtener 0,0499.

El margen de error es, pues, ± 1,96 × (0,0499) = 0,0978, es decir, el 9,78%.

5. El intervalo de confianza del 95% para el porcentaje de veces que te encuentras con el semáforo en rojo en ese cruce en concreto es 0,53 (o el 53%) más/menos 0,0978 (redondeamos a 0,10, que es el 10%). El extremo inferior del intervalo es 0,53 – 0,10 = 0,43, o sea, el 43%; el extremo superior es 0,53 + 0,10 = 0,63, el 63%.

Para interpretar estos resultados en el contexto del problema, puedes decir que, basándote en los resultados de tu muestra y con un nivel de confianza del 95%, el porcentaje de veces que te encuentras con un semáforo en rojo en ese cruce está entre el 43 y el 63%.

Cuando hagas cálculos con porcentajes muestrales, utiliza siempre la forma decimal. Una vez que hayas terminado los cálculos, convierte a porcentajes multiplicando por 100. Para evitar el error de redondeo, conserva siempre dos decimales por lo menos.

Crear un intervalo de confianza para la diferencia entre dos medias

Muchas encuestas y estudios tienen el propósito de comparar dos poblaciones, por ejemplo hombres frente a mujeres, ingresos bajos frente a ingresos elevados, o republicanos frente a demócratas. Cuando la característica comparada es numérica (por ejemplo altura, peso o ingresos), el objeto de interés es la magnitud de la diferencia entre las medias de las dos poblaciones.

Por ejemplo, puede que quieras comparar la diferencia de la edad que tienen de media los republicanos y los demócratas, o la diferencia de los ingresos medios de hombres y mujeres. Para estimar la diferencia entre dos medias poblacionales, μ1 - μ2, hay que tomar una muestra de cada población (llamémoslas muestra 1 y muestra 2) y coger la diferencia entre ambas medias muestrales, 1 - 2, ± un margen de error. El resultado es un intervalo de confianza para la diferencia entre dos medias poblacionales, μ1 - μ2. La fórmula para hallar el IC varía en función de ciertas condiciones, como hemos visto en los apartados anteriores. Tenemos el caso 1 y el caso 2.

Caso 1. Se conocen las desviaciones estándares de la población

El caso 1 presupone que las desviaciones estándares de las dos poblaciones son conocidas. La fórmula con la que se calcula el IC para la diferencia entre dos medias poblacionales es , en la que 1 y n1 son la media y el tamaño de la primera muestra (la desviación estándar de la primera población, σ1, nos la dan), y 2 y n2 son la media y el tamaño de la segunda muestra (la desviación estándar de la segunda población, σ2, también nos la dan). Aquí z* es el valor de la distribución normal estándar que es adecuado para el nivel de confianza que deseas (en la tabla 13-1 encontrarás valores de z* para varios niveles de confianza).

Para calcular un IC para la diferencia entre dos medias poblaciones, haz lo siguiente:

1. Determina el nivel de confianza y encuentra el valor z* adecuado.

Consulta la tabla 13-1.

2. Identifica 1, n1 y σ1, así como , 2 n2 y σ2.

3. Calcula la diferencia, (12), entre las medias muestrales.

4. Eleva al cuadrado σ1 y divide el resultado por n1; eleva al cuadrado σ2 y divide el resultado por n2. Suma los resultados y calcula la raíz cuadrada.

5. Multiplica la respuesta del paso 4 por z*. Este cálculo proporciona el margen de error.

6. El IC es 12 ± el margen de error.

El extremo inferior del IC es 12 - margen de error, y el extremo superior del IC es 12 + margen de error.

Pongamos que quieres estimar con un nivel de confianza del 95% cuál es la diferencia entre la longitud media de las espigas de dos variedades distintas de trigo (permitiendo que crezcan el mismo número de días bajo las mismas condiciones). Llamaremos a las dos variedades A y B. Por investigaciones anteriores sabes que las desviaciones estándares de población para las variedades A y B son 0,35 centímetros y 0,45 centímetros, respectivamente.

1. Como quieres un intervalo de confianza del 95%, tu valor z* es 1,96.

2. Supongamos que la muestra aleatoria de 100 espigas de la variedad A tiene una longitud media de 8,5 centímetros, y la muestra aleatoria de 110 espigas de la variedad B tiene una longitud media de 7,5 centímetros. Así pues, tienes la información siguiente: 1 =8,5, σ1 = 0,35, n1, n1=100, 2 = 7,5, σ2 = 0,45 y n2 = 110.

3. Según el paso 3 hay que calcular la diferencia entre las medias muestrales, 12, que es 8,5 – 7,5 = +1 centímetro. La media de la variedad A menos la media de la variedad B es un valor positivo, de manera que la variedad A es la variedad más grande de las dos, a partir de los datos de esta muestra. Pero ¿esta diferencia es suficiente para extrapolar el resultado a toda la población? Eso es lo que vas a decidir con la ayuda de este intervalo de confianza.

4. Calculas el cuadrado de σ1 (0,35), que es 0,1225; divides por 100 y obtienes 0,0012. Calculas el cuadrado de σ2 (0,45) y divides por 110, con lo que resulta 0,2025 / 110 = 0,0018. La suma es 0,0012 + 0,0018 = 0,0030; la raíz cuadrada es 0,0554 centímetros (sin redondeo).

5. Multiplicas 1,96 × 0,0554; te sale 0,1085 centímetros, el margen de error.

6. El intervalo de confianza del 95% para la diferencia entre las longitudes medidas de estas dos variedades de trigo es 1 centímetro ± 0,1085 centímetros (el extremo inferior del intervalo es 1 – 0,1085 = 0,8915 centímetros, y el extremo superior es 1 + 0,1085 = 1,1085 centímetros). Observa que todos los valores de este intervalo son positivos. Por tanto, estimas que la variedad A es más larga que la variedad B, según los datos que manejas.

Para interpretar estos resultados en el contexto del problema, puedes decir que, basándote en los resultados de tu muestra y con un nivel de confianza del 95%, la variedad A es más larga, en promedio, que la variedad B, y la diferencia está entre 0,8915 y 1,1085 centímetros.

Ten presente que 1 2 podría dar como resultado un valor negativo. Por ejemplo, si hubieras intercambiado las dos variedades de trigo, la diferencia habría sido –1. En ese caso habrías dicho que la variedad B era, en promedio, un centímetro más corta que la variedad A (la misma conclusión expresada de manera diferente).

Si quieres evitar valores negativos para la diferencia entre medias muestrales, pon primero el grupo que tenga la media muestral más grande. De este modo la diferencia será positiva (es lo que hago yo).

Caso 2. Se desconocen las desviaciones estándares de la población y/o los tamaños muestrales son pequeños

Es posible que desconozcas σ1 y σ2, en cuyo caso las estimas con las desviaciones estándares de las muestras, s11 y s12, y/o que los tamaños muestrales sean pequeños (inferiores a 30) y no estés seguro de si los datos proceden de una distribución normal.

En el caso 2, el intervalo de confianza para la diferencia entre dos medias poblacionales es , en la que t* es el valor crítico de la distribución t que tiene n1 + n2–2 grados de libertad; n1 y n2 son los dos tamaños muestrales, respectivamente; y s1 y s2 son las dos desviaciones estándares de las muestras. Este valor t* se encuentra en la tabla t (está en el apéndice), buscando la intersección entre la fila correspondiente a gl = n1 + n2 – 2 y la columna correspondiente al nivel de confianza que necesites, según indique la última fila de la tabla (mira el capítulo 10). Aquí suponemos que las desviaciones estándares de las poblaciones son similares. De lo contrario, se introduce la modificación correspondiente utilizando el error estándar y los grados de libertad. (Consulta el final del apartado sobre comparación de dos medias, en el capítulo 15.)

Volviendo al ejemplo del caso 1, imagina que las espigas de las dos variedades de maíz, la variedad A (grupo 1) y la variedad B (grupo 2), tienen la misma longitud media que antes: 1=8,5 y 2 = 7,5 centímetros. Esta vez, sin embargo, no conoces las desviaciones estándares de las poblaciones, de manera que utilizas en su lugar las desviaciones estándares de las muestras (pongamos que son s1 = 0,40 y s2 = 0,50 centímetros, respectivamente). Supongamos que los tamaños muestrales, n1 y n2, son solamente 15 en este caso.

Para calcular el IC, primero hay que encontrar el valor t* de la distribución t que tiene (15 + 15 – 2) = 28 grados de libertad (suponemos que el nivel de confianza continúa siendo del 95%). En la tabla t (la tienes en el apéndice), busca la fila correspondiente a 28 grados de libertad y la columna que representa un nivel de confianza del 95% (mira las etiquetas que hay en la última fila de la tabla); encuentra la intersección de fila y columna y verás que t*28 = 2,048. Utilizando el resto de la información que te dan, el intervalo de confianza para la diferencia entre las longitudes medias de las espigas de las dos variedades es =1 ± 2,048 (0,45) = 1 ± 0,9273 centímetros.

Eso significa que el IC del 95% para la diferencia entre las longitudes medias de las espigas de estas dos variedades de trigo en esta situación es (0,0727, 1,9273) centímetros, y las espigas de la variedad A son las más largas. (Advierte que este IC es más ancho que el obtenido para el caso 1, como era de esperar.)

Estimar la diferencia entre dos proporciones

Cuando la característica de los dos grupos que se comparan es categórica, por ejemplo la opinión sobre una determinada cuestión (a favor/en contra), lo que se quiere plasmar son las diferencias entre las dos proporciones poblacionales, por ejemplo la diferencia entre la proporción de mujeres que están a favor de la semana de cuatro días laborables y la proporción de hombres que están a favor de la semana de cuatro días laborables. ¿Y esto cómo se hace?

Para estimar la diferencia entre dos proporciones poblacionales, p1p2, hay que tomar una muestra de cada población y coger la diferencia entre ambas proporciones muestrales, 12, ± un margen de error. El resultado es un intervalo de confianza para la diferencia entre dos proporciones poblacionales, p1p2.

La fórmula con la que se calcula el IC para la diferencia entre dos proporciones poblacionales es , en la que 1 y n1 son la proporción muestral y el tamaño muestral de la primera muestra, y 2 y n2 son la proporción muestral y el tamaño muestral de la segunda muestra. z* es el valor de la distribución normal estándar que es adecuado para el nivel de confianza que deseas (encontrarás valores z* en la tabla 13-1).

Para calcular el IC correspondiente a la diferencia entre dos proporciones poblaciones, haz lo siguiente:

1. Determina el nivel de confianza y encuentra el valor z* adecuado.

Consulta la tabla 13-1.

2. Encuentra la proporción muestral 1 de la primera muestra, para lo cual debes coger el número total de elementos de la primera muestra que pertenecen a la categoría de interés y dividirlo por el tamaño muestral, n1. De forma similar, encuentra la proporción muestral 2 de la segunda muestra.

3. Calcula la diferencia entre las proporciones muestrales, 1 - 2.

4. Calcula (1 - ) y luego divide el resultado por n1. Calcula 1 (1 - 2) y luego divide el resultado por n2. Suma estos dos resultados y calcula la raíz cuadrada.

5. Multiplica z* por el resultado del paso 4.

Este cálculo proporciona el margen de error.

6. El IC es 1 - >sub>2 ± el margen de error obtenido en el paso 5.

El extremo inferior del IC es 12 – el margen de error, y el extremo superior del IC es 12 + más el margen de error.

La fórmula aquí indicada, con la que se determina el IC para p1–p2, se utiliza con la condición de que los dos tamaños muestrales sean suficientemente grandes como para poder aplicar el teorema del límite central y así poder utilizar un valor z* (ver el capítulo 11), lo cual ocurre cuando se estiman proporciones utilizando encuestas a gran escala, por ejemplo. Para tamaños muestrales pequeños, los intervalos de confianza están fuera del alcance de un curso de introducción a la estadística.

Imagina que trabajas para la Cámara de Comercio de Las Vegas y quieres estimar con un nivel de confianza del 95% cuál es la diferencia entre el porcentaje de mujeres que alguna vez han ido a ver a un imitador de Elvis y el porcentaje de hombres que alguna vez han ido a ver a un imitador de Elvis, con el propósito de determinar cuál es la mejor estrategia de marketing para la oferta de espectáculos de la ciudad.

1. Como quieres un intervalo de confianza del 95%, tu valor z* es 1,96.

2. Supón que en tu muestra aleatoria de 100 mujeres hay 53 mujeres que en alguna ocasión han ido a ver el espectáculo de un imitador de Elvis, de manera que 1 es 53 / 100 =0,53. Supón también que en tu muestra aleatoria de 110 hombres hay 37 hombres que en alguna ocasión han ido a ver el espectáculo de un imitador de Elvis, de manera que 2 es 37 / 110 =0,34.

3. La diferencia entre estas proporciones muestrales (mujeres-hombres) es 0,53 – 0,34 =0,19.

4. Calculas 0,53 × (1 – 0,53) y lo divides por 100, con lo que resulta 0,2491 / 100 = 0,0025. Ahora calculas 0,34 × (1 – 0,34) y lo divides por 110, con lo que resulta 0,2244 / 110 = 0,0020. Si sumas estos dos resultados, te da 0,0025 + 0,0020 = 0,0045, cuya raíz cuadrada es 0,0671. 5. 1,96 × 0,0671 = 0,13, es decir, el 13%, que es el margen de error.

6. El intervalo de confianza del 95% para la diferencia entre el porcentaje de mujeres que han visto a un imitador de Elvis y el porcentaje de hombres que han visto a un imitador de Elvis es 0,19, es decir, el 19% (valor obtenido en el paso 3), ± 13%. El extremo inferior del intervalo es 0,19 – 0,13 = 0,06, o sea, el 6%; el extremo superior es 0,19 + 0,13 = 0,32, el 32%.

Para interpretar estos resultados en el contexto del problema, puedes decir que, basándote en los resultados de tu muestra y con un nivel de confianza del 95%, hay un porcentaje mayor de mujeres que de hombres que hayan visto alguna vez a un imitador de Elvis, y la diferencia entre ambos porcentajes está entre el 6 y el 32%.

Estoy pensando que algunos hombres no admitirían nunca haber asistido al espectáculo de un imitador de Elvis (aunque probablemente ellos mismos lo hayan imitado alguna vez en un karaoke). Esto podría generar cierto sesgo en los resultados (la última vez que estuve en Las Vegas creo que vi al verdadero Elvis; iba conduciendo un taxi camino del aeropuerto).

Ten presente que 12 podría dar como resultado un valor negativo. Por ejemplo, si hubieras intercambiado los hombres y las mujeres, la diferencia habría sido –0,19. No es que pase nada, pero puedes evitar diferencias negativas en las proporciones muestrales poniendo primero el grupo que tenga la proporción muestral más grande (en este caso, las mujeres).

Detectar intervalos de confianza engañosos

Cuando el ME es pequeño, en términos relativos, tiendes a creer que esos intervalos de confianza proporcionan estimaciones precisas y fiables de sus parámetros. Sin embargo, no siempre es así.

No todas las estimaciones son tan precisas y fiables como las fuentes quieren hacerte creer. Por ejemplo, una encuesta de un sitio web basada en 20.000 visitas puede que tenga un ME pequeño según la fórmula, pero el ME no significa nada si la encuesta se hace exclusivamente a las personas que entren en ese sitio web.

Dicho de otro modo, la muestra dista mucho de ser una muestra aleatoria (donde todas las muestras de igual tamaño seleccionadas entre la población tienen la misma probabilidad de ser elegidas para participar). No obstante, es frecuente que se publiquen este tipo de resultados, junto con los márgenes de error que hacen que el estudio parezca verdaderamente científico. ¡Mucho ojo con estos resultados fraudulentos! (En el capítulo 12 encontrarás más información sobre los límites del ME.)

Antes de tomar una decisión basada en la estimación de otra persona, haz lo siguiente:

Entérate de dónde proviene la estadística; debe ser el resultado de un proceso científico que genere datos fiables, no sesgados y exactos.

Averigua cuál es el margen de error. Si no lo mencionan, pídeselo a la fuente original.

Recuerda que si la estadística no es fiable o tiene sesgo, el margen de error no significa nada.

(En el capítulo 16 explico cómo evaluar los datos de una encuesta y en el capítulo 17 expongo las condiciones que deben cumplirse para que los datos de los experimentos se consideren válidos.)