image
image
image

Images

Colección Textos Universitarios

© Rosa Millones, Emma Barreno, Félix Vásquez, Carlos Castillo

© Universidad de Lima

Fondo Editorial

Av. Javier Prado Este N.o 4600,

Urb. Fundo Monterrico Chico, Lima 33, Perú

Apartado postal 852, Lima 100, Perú

Teléfono: 437-6767, anexo 30131

fondoeditorial@ulima.edu.pe

www.ulima.edu.pe

Diseño, edición y carátula: Fondo Editorial de la Universidad de Lima

Versión ebook 2017

Se prohíbe la reproducción total o parcial de este libro sin permiso expreso del Fondo Editorial.

ISBN versión electrónica: 978-9972-45-356-4

Índice

Presentación

Capítulo 1. Distribuciones muestrales

1. Conceptos básicos

2. Muestra aleatoria

3. Tipos de muestreo

3.1 Muestreo probabilístico

3.1.1 Muestreo aleatorio simple

3.1.2 Muestreo sistemático

3.1.3 Muestreo estratificado

3.1.4 Muestreo por conglomerados

3.2 Muestreo no probabilístico

3.2.1 Muestreo por cuotas

3.2.2 Muestreo por conveniencia

3.2.3 Muestreo de juicio

4. Principales estadísticos

5. Distribución de la media muestral

6. Teorema central del límite

6.1 Aplicación del teorema central del límite a diferentes distribuciones

6.1.1 Distribución de Poisson

6.1.2 Distribución uniforme

7. Distribuciones de muestras pequeñas

7.1 Distribución Ji cuadrado

7.2 Distribución t de Student

7.3 Distribución F de Fisher

8. Distribuciones muestrales de un estadígrafo

8.1 Distribución de la media muestral con varianza poblacional conocida

8.2 Distribución de la media muestral con varianza poblacional desconocida

8.3 Distribución de una proporción muestral

8.4 Distribución de la varianza muestral

9. Distribuciones muestrales de dos muestras

9.1 Diferencia de medias muestrales con varianzas poblacionales conocidas

9.2 Diferencia de medias muestrales con varianzas poblacionales desconocidas

9.2.1 Varianzas poblacionales homogéneas

9.2.2 Varianzas poblacionales heterogéneas

9.3 Cociente de varianzas muestrales

9.4 Diferencia de proporciones muestrales

Problemas resueltos

Problemas propuestos

Capítulo 2. Estimación de parámetros

1. Definición

2. Propiedades de un buen estimador puntual

2.1 Insesgabilidad

2.2 Consistencia

2.3 Suficiencia

2.4 Eficiencia

3. Métodos de obtención de estimadores puntuales

3.1 Método de momentos

3.2 Método de máxima verosimilitud

4. Estimación por intervalos

4.1 Intervalo de confianza para la media poblacional

4.1.1 Caso 1: la varianza poblacional (σ2) es conocida

4.1.2 Caso 2: la varianza poblacional (σ2) es desconocida

4.2 Intervalo de confianza para π

4.3 Intervalo de confianza para la varianza poblacional μ

4.4 Intervalo de confianza para la diferencia de proporciones (σ2)

4.5 Intervalo de confianza para una razón de varianzas Images

4.6 Intervalo de confianza para la diferencia de medias (μ1 – μ2)

4.6.1 Varianzas poblacionales conocidas

4.6.2 Varianzas poblacionales desconocidas

Problemas resueltos

Problemas propuestos

Capítulo 3. Prueba de hipótesis

1. Definición

2. Clases de hipótesis

2.1 Hipótesis nula (H0)

2.2 Hipótesis alternativa (H1)

2.3 Prueba estadística de una hipótesis

3. Tipos de prueba

3.1 Prueba de cola izquierda o inferior

3.2 Prueba de cola derecha o superior

3.3 Prueba de dos colas o bilateral

4. Tipos de errores

4.1 Nivel de significación

4.2 Región crítica

4.3 Región de aceptación

4.4 Procedimiento para realizar una prueba de hipótesis referente a un parámetro θ

5. Prueba de hipótesis para los parámetros

5.1 Prueba de hipótesis para la media de una población (μ)

5.1.1 Cuando la varianza poblacional es conocida

5.1.2 Cuando la varianza poblacional es desconocida

5.2 Prueba de hipótesis para una proporción poblacional (π)

5.3 Prueba de hipótesis para la varianza de la población (σ2)

5.4 Prueba de hipótesis para una razón de varianzas Images

5.5 Prueba de hipótesis para la diferencia de dos medias (μ1 – μ2)

5.5.1 Varianzas conocidas y muestras independientes

5.5.2 Varianzas desconocidas y muestras independientes

5.5.3 Muestras pareadas o dependientes

5.6 Prueba de hipótesis para la diferencia de dos proporciones

6. Funciones potencia y característica de operación

7. Prueba de bondad de ajuste

8. Prueba de independencia

Problemas resueltos

Problemas propuestos

Capítulo 4. Análisis de regresión

1. Definición

2. Tipos de relaciones

3. Tipos de modelo de regresión

3.1 Por la forma de influencia

3.2 Por el número de variables independientes que influyen en la variable respuesta

4. Análisis de regresión lineal simple

4.1 Metodología para la formulación de un modelo de regresión simple

4.2 Especificación del modelo de regresión lineal simple

4.2.1 Supuestos básicos del modelo de regresión lineal simple

4.3 Estimación de parámetros en un modelo de regresión lineal simple

4.3.1 Varianza de los estimadores Images y Images

4.3.2 Intervalos de confianza para los parámetros

4.4 Tabla de análisis de varianza (ANOVA)

4.5 Verificación del modelo

4.5.1 Coeficiente de determinación (R2)

4.5.2 Coeficiente de correlación lineal simple (r)

4.5.3 Pruebas de significación de las variables. Prueba T

4.5.4 Prueba de significación del modelo. Prueba F

5. Análisis de regresión lineal múltiple

5.1 Especificación del modelo de regresión lineal múltiple

5.1.1 Supuestos básicos del modelo de regresión lineal múltiple

5.2 Tabla de análisis de varianza (ANOVA)

5.3 Obtención de estimadores en un modelo de regresión lineal múltiple

5.3.1 Propiedades de los estimadores

5.3.2 Intervalos de confianza de los estimadores – RLM

5.4 Pruebas de verificación

5.4.1 Coeficiente de determinación múltiple (R2)

5.4.2 Prueba de significación del modelo – Prueba F

5.4.3 Prueba individual de las variables – Prueba T

5.5 Prueba de los supuestos del modelo de regresión lineal múltiple

Problemas resueltos

Problemas propuestos

Capítulo 5. Diseño y análisis de experimentos

1. Definición

2. Tipos de variabilidad

3. Etapas de un diseño de experimento

4. Conceptos básicos

4.1 Unidad experimental

4.2 Factor

4.3 Niveles de un factor

4.4 Tratamientos

5. Principios básicos de un diseño experimental

5.1 Repetición del experimento

5.2 Aleatoriedad

5.3 Formación de bloques

6. Tipos de diseños experimentales

6.1 Diseño completamente aleatorio

6.2 Diseño en bloques

6.3 Diseño cuadrado latino

7. Diseño completamente aleatorio

7.1 Modelo de efectos fijos

7.2 Estimación de los parámetros del modelo

7.3 Intervalo de confianza para los parámetros del modelo

7.4 Procedimiento para los supuestos del modelo

8. Diseños de bloques completamente aleatorizados

8.1 Características

8.2 Representación simbólica de los datos con una observación por unidad experimental

8.3 Estimación de los parámetros del modelo

8.4 Intervalo de confianza para los parámetros del modelo

Problemas resueltos

Problemas propuestos

Capítulo 6. Casos resueltos y propuestos

1. Casos resueltos: capítulos 1 y 2

2. Casos propuestos: capítulos 1 y 2

3. Casos resueltos: capítulos 3, 4 y 5

4. Casos propuestos: capítulos 3, 4 y 5

Respuestas a los problemas propuestos

Anexos

Anexo 1. Valores de la función distribución normal estándar

Anexo 2. Valores críticos para la distribución Ji cuadrado

Anexo 3. Valores críticos para la distribución t de Student

Anexo 4. Resumen de fórmulas de distribuciones muestrales

Anexo 5. Resumen de fórmulas de intervalos de confianza

Anexo 6. Resumen de fórmulas de pruebas de hipótesis

Anexo 7. Resumen de fórmulas de regresión lineal simple

Anexo 8. Resumen de fórmulas de regresión lineal múltiple

Anexo 9. Resumen de diseño completamente aleatorizado

Bibliografía

Presentación

En la actualidad, los ingenieros y los profesionales en diversas áreas deben estar en condiciones de aplicar métodos estadísticos avanzados, que les permitan analizar la información cuantitativa y cualitativa, originada en la gestión empresarial y en el desarrollo de los planes de negocios, para una adecuada toma de decisiones. Por ejemplo, en muchas situaciones prácticas se hace uso de muestras representativas, debido a que no siempre se tiene información completa de una población, o su obtención resulta muy costosa, por lo que los métodos de selección y análisis de muestras estadísticas son de vital importancia; además, en las diversas actividades empresariales se hace necesaria la obtención de pronósticos asociados a diversas variables, como la demanda de un producto, para lo cual se requiere la aplicación de modelos de pronóstico mediante las técnicas de regresión.

Precisamente, el presente libro, producto de la experiencia docente de los autores en la asignatura de Estadística y Probabilidad en las escuelas de Ingeniería y de Negocios de la Universidad de Lima, busca dotar a los estudiantes de los conocimientos teóricos necesarios de esta disciplina para un óptimo desempeño en su futuro profesional.

El texto está constituido por cinco capítulos, y en cada uno de ellos se hace una exposición de los fundamentos teóricos seguidos de un conjunto de problemas resueltos y propuestos; además, se expone el uso del software Minitab, versión 17, como herramienta de apoyo para el desarrollo de los casos prácticos; cuyos respectivos archivos se podrán encontrar en <http://downloads.ulima.edu.pe/fondoeditorial/libros/estadaplic/datos>.

En el capítulo 1 se explican las distintas técnicas de selección de muestras aleatorias, así como las distribuciones de probabilidad de los estadísticos muestrales, con especial énfasis en el teorema del límite central como fundamento del análisis estadístico inferencial.

La estimación de parámetros, estudiada en el capítulo 2, comprende los métodos de obtención, a partir de una muestra, de estimadores puntuales; además, se detalla la construcción de intervalos de confianza para los parámetros de la población.

En el capítulo 3 se realiza un estudio de las pruebas de hipótesis tanto para los parámetros como para las pruebas de bondad de ajuste e independencia; en cada caso se explica la formulación de las hipótesis de evaluación, y el procedimiento de comprobación de las hipótesis expuestas.

En el capítulo 4 se desarrolla el análisis de la regresión lineal simple y la regresión lineal múltiple, mediante una explicación de los supuestos del modelo, y la interpretación de los resultados obtenidos.

El diseño completamente al azar y el diseño de bloques son los temas tratados en el capítulo 5, en los que se resalta las situaciones en las que se deben aplicar cada uno de ellos.

Expresamos nuestro agradecimiento a quienes brindaron su apoyo para que esta obra esté a disposición del público interesado, así como a nuestros alumnos por sus consultas y sugerencias, esperando que responda a las expectativas de nuestros lectores.

Los autores

1 Images

Capítulo

1 Distribuciones muestrales

Las poblaciones suelen ser demasiado grandes para estudiarlas en su totalidad; se puede estar interesado, por ejemplo, en determinar el consumo promedio per cápita en una región del país o la proporción de consumidores que prefieren un determinado producto. En estos casos, es preferible elegir una muestra representativa que tenga un tamaño manejable y que permita obtener conclusiones válidas sobre la población objetivo que interesa estudiar. Para el primero de los ejemplos citados, se puede calcular la media aritmética Images de la muestra de consumidores y utilizarla como una estimación de la media aritmética poblacional μ. Cuando se desea usar una muestra para obtener conclusiones sobre la población, se deben aplicar las técnicas de la estadística inferencial.

En la estadística inferencial se desarrollan dos puntos importantes: el problema de estimación de los parámetros y el de la dócima o prueba de hipótesis, que serán desarrollados en los capítulos posteriores.

1. CONCEPTOS BÁSICOS

a. Unidad de análisis.- Se define como el elemento que se observa en una población y del que se busca información de características o variables de interés.

b. Población.- Se entiende por población o universo a la totalidad de elementos o unidades de análisis, ya sean empresas, personas, objetos, etcétera, que presentan una o más características observables.

c. Población objetivo.- Es la población completamente caracterizada; por ejemplo, en una encuesta sobre la aceptación de un nuevo producto de belleza de una empresa que produce cosméticos, la población objetivo estará conformada por todas las mujeres que son usuarias de los productos de la empresa, con edades entre 20 y 39 años, pertenecientes al nivel socioeconómico medio alto; a partir de esta población se selecciona una muestra de mujeres para la investigación.

d. Marco muestral.- Se define como el listado de elementos, unidades de análisis, a partir del cual se seleccionará la muestra.

e. Unidad de muestreo.- Son aquellas que contienen las unidades de análisis de la población y que se utilizarán para seleccionar la muestra. En general, la unidad de muestreo se encuentra asociada a la selección de los conjuntos de unidades de análisis que serán tomados en cuenta para conformar la muestra final en la investigación.

f. Error muestral.- Es la diferencia entre el resultado obtenido a partir de una muestra y el que se obtendría de la población; por ejemplo, la diferencia existente entre la media muestral y la media poblacional. También se le denomina error de estimación, y en resumen es el error que se origina debido a que se trabaja sobre una muestra en lugar de la población completa.

2. MUESTRA ALEATORIA

La estimación de parámetros y las pruebas de hipótesis se basan en la información proporcionada por las unidades de análisis, sobre una característica de estudio X, mediante sus valores x1, x2,…, xn. Estas unidades de análisis se eligen de manera independiente y deben tener la misma probabilidad de ser seleccionadas. El conjunto de estas unidades seleccionadas recibe el nombre de muestra aleatoria.

Cuando se trata de poblaciones finitas de N elementos se seleccionarán Images muestras diferentes sin reemplazamiento, donde Images; si el muestreo es con reemplazamiento se seleccionarán k = Nn muestras diferentes.

Definición. Se dice que los valores x1, x2,…, xn de la variable de interés X con función de probabilidad f (x) constituyen una muestra aleatoria de tamaño n, si son variables aleatorias independientes e idénticamente distribuidas.

Es decir, si se sabe que la ley de probabilidad es la misma para cada una de las observaciones, esto es:

f (x1) = f (x2) = … = f (xn)

La función de probabilidad de las observaciones muestrales está dada por:

Images

La expresión (1) se conoce como función de probabilidad conjunta.

3. TIPOS DE MUESTREO

Se dispone de dos métodos para seleccionar las muestras de poblaciones: muestreo probabilístico y muestreo no probabilístico.

3.1 Muestreo probabilístico

En este tipo de muestreo se tiene información de las probabilidades de las unidades de análisis seleccionadas en la muestra. El muestreo probabilístico permite calcular el grado hasta el cual el valor obtenido de la muestra puede diferir del valor correspondiente a la población de interés, esta diferencia recibe el nombre de error muestral. Existen varios tipos de muestreo probabilístico, los cuales se detallan a continuación:

3.1.1 Muestreo aleatorio simple

En este tipo de muestreo cada unidad de la población tiene igual probabilidad de ser seleccionada, se recomienda cuando la variable en estudio es homogénea.

Ejemplo 1

Suponga que se desea seleccionar una muestra aleatoria simple de 20 asistentes, de entre los 100 asistentes de una charla sobre marketing digital. A cada asistente se le asignó un número del 1 al 100.

Con Minitab. Para la obtención de la muestra aleatoria mediante el uso del software Minitab se realiza el siguiente procedimiento:

Se disponen en una columna los 100 números, un número asignado a cada asistente, tal como se muestra en la figura 1.

Image

Con el comando Calc / Random Data / Sample From Columns…

Colocar el tamaño de la muestra que se desea extraer: 20.

Seleccionar el marco muestral: Columnas C1 (‘N.° Asistente’).

Indicar la columna donde se almacenarán los resultados del muestreo: C3. Lo anteriormente expuesto se aprecia en la figura 2.

Image

Los resultados se almacenarán en la columna C3, tal como se indicó, entonces se procede a etiquetar la columna, por ejemplo: “M. Aleatorio Simple”. De acuerdo con el resultado (figura 3), la muestra estará conformada por los asistentes cuyos números asignados sean: 27, 25, 75…

Images

Nota: Cada vez que se realice el muestreo se obtendrán resultados diferentes, ya que son resultados aleatorios.

Si se desea los resultados del muestreo se pueden ordenar, para una mejor visualización, mediante el siguiente procedimiento:

Data / Sort …

Sort column(s): ‘M. Aleatorio Simple’.

Señalar el criterio de ordenamiento. By column: ‘M. Aleatorio Simple’.

Seleccionar la opción ‘Original column(s)’.

Lo anteriormente expuesto se aprecia en la figura 4.

Images

Luego, la muestra aparecerá ordenada en forma ascendente.

3.1.2 Muestreo sistemático

Es un tipo de muestreo que simplifica el proceso de selección de las unidades de análisis, las cuales se seleccionan en un intervalo constante, denominado salto sistemático, que se mide en el tiempo, en el orden o en el espacio. El método requiere la determinación del valor del salto sistemático (k) y elegir un valor de arranque aleatorio (A).

Determinación del salto sistemático: Images, donde N es el tamaño de la población y n es el tamaño de la muestra.

Elección del arranque aleatorio: se elige un número aleatorio A entre 1 y k, es decir, el valor A se encuentra acotado de la siguiente forma: 1 ≤ Ak.

Ejemplo 2

De acuerdo con el ejemplo anterior, relacionado con la charla sobre marketing digital:

Sean: N = 100 y n = 20, entonces se calcula el salto sistemático Images.

Por lo tanto, el arranque aleatorio se selecciona entre los cinco primeros asistentes registrados (1 ≤ A ≤ 5). Por ejemplo, si A = 2, los demás asistentes serán seleccionados mediante un salto sistemático de k = 5, obteniéndose: 2, 7, 12, 17, 22, …, 97; números relacionados a la numeración asignada a los asistentes.

Software Minitab. Para la obtención de la muestra sistemática mediante el uso del software Minitab se debe proceder como sigue:

Calc / Make Patterned Data / Simple Set of Numbers…

Store patterned data in: C5.

Arranque aleatorio: 2. Último valor de la numeración asignada en el marco muestral: 100. Tamaño del salto sistemático: 5.

Lo anteriormente expuesto se aprecia en la figura 5.

Images

Los resultados se almacenan en la columna C5, luego se procede a etiquetar la columna; por ejemplo: ‘M. Sistemático’. La figura 6 presenta el resultado obtenido.

Images

3.1.3 Muestreo estratificado

En este tipo de muestreo la población se divide en grupos o estratos. El principio básico radica en que los estratos tengan una gran homogeneidad o similitud interna, y heterogeneidad de estrato a estrato. Una vez determinado el número de estratos L y las unidades pertenecientes a cada uno de ellos, el siguiente paso es definir el número de las unidades muestrales por seleccionarse dentro de cada estrato. Este proceso es conocido como Asignación o Afijación de la muestra.

Asignación proporcional de la muestra.- Es un tipo de asignación que consiste en la distribución de la muestra entre los L estratos, de tal manera que el tamaño de cada muestra sea proporcional al tamaño de cada estrato que la origina. Sea N el tamaño de la población y n el tamaño de la muestra, entonces Nh es el tamaño del estrato h, y nh es el tamaño de la muestra en dicho estrato. Se sabe que:

Images

Por consiguiente, nh = (n)Wh, donde Images, llamado también ponderación del estrato h.

Ejemplo 3

Inka Móvil es una empresa de transporte interprovincial, cuyo gerente desea realizar un estudio de satisfacción de los clientes que residen en las nueve provincias del departamento de Lima, sin considerar Lima provincia, en relación con el servicio de encomiendas. Para la investigación se seleccionará una muestra de hogares de las mencionadas provincias.

a. Indicar, en forma detallada, la población objetivo del estudio.

b. Para el estudio descrito proponga, y justifique, el uso de un tipo de muestreo probabilístico.

c. Si se utiliza un muestreo estratificado, indique cómo se distribuiría el tamaño de muestra entre los estratos, explique.

Solución

a. La población objetivo está constituida por todos los hogares de las nueve provincias del departamento de Lima.

b. Sería adecuado utilizar el muestreo estratificado debido a que la selección se realizará de acuerdo al número de viviendas que tiene cada provincia, los cuales son agrupados en estratos homogéneos (cada provincia).

c. La distribución del tamaño de muestra se realizará mediante la asignación proporcional según el número de viviendas de cada una de las nueve provincias consideradas. Por ejemplo,

El tamaño de la población lo constituyen todas las viviendas de las nueve provincias.

Al dividir el número de viviendas de cada una de las provincias entre el total, se obtiene la proporción de viviendas para cada provincia.

De acuerdo a la proporción de viviendas por cada provincia se distribuirá proporcionalmente la muestra en cada estrato (provincia).

3.1.4 Muestreo por conglomerados

A diferencia de las otras técnicas donde se seleccionan unidades de muestreo, el muestreo por conglomerados divide a la población en grupos o conglomerados, y luego se selecciona una muestra aleatoria de ellos. Por ejemplo, si la unidad de muestreo es la vivienda, el conglomerado puede ser la manzana constituida por viviendas.

La característica del muestreo por conglomerados es que estos son internamente heterogéneos, y homogéneos de conglomerado a conglomerado. Por ejemplo, si se desea muestrear a los empleados de una gran empresa con el propósito de averiguar su percepción con respecto al clima laboral, un primer paso consiste en seleccionar una muestra de las diversas áreas de la empresa, posteriormente se realizaría una selección aleatoria de los empleados dentro de cada una de las áreas que resulten seleccionadas.

3.2 Muestreo no probabilístico

Los métodos de muestreo no probabilísticos, a diferencia de los probabilísticos, no permiten determinar el error de muestreo, no es posible determinar el nivel de confianza sobre la representatividad de la muestra, y no permiten realizar inferencias sobre la población. Existen varios tipos de muestreo no probabilístico, de los cuales los más usados son los siguientes:

3.2.1 Muestreo por cuotas

Es una técnica de uso frecuente en la investigación de mercados, sobre todo en encuestas de opinión. Se basa en el conocimiento de los estratos de una población y de los individuos más representativos de esta; en este tipo de muestreo se seleccionan cuotas de individuos que reúnen ciertas condiciones; por ejemplo, cincuenta clientes de un banco que reciben su estado de cuenta vía un servicio de mensajería. Una vez especificada la cuota, se eligen los primeros clientes que cumplan con estas características.

3.2.2 Muestreo por conveniencia

En este caso, como su nombre lo indica, las unidades que conformarán la muestra se seleccionan de acuerdo a la conveniencia del investigador. Por ejemplo, se puede solicitar a algunos asistentes a un centro comercial que colaboren voluntariamente para probar ciertos productos, y después realizar un proceso de monitoreo con las mismas unidades. También se puede solicitar la opinión de personas que transitan en un punto de alta afluencia peatonal. En cada caso, la unidad de muestreo se selecciona sobre la base de su fácil disponibilidad.

3.2.3 Muestreo de juicio

Este tipo de muestreo consiste en seleccionar las unidades muestrales a juicio del investigador, quien determina a los que representan a la población. Una importante diferencia radica en que la muestra no es típica, sino que el investigador la considera como tal. Como se observa, entonces, la eficacia del muestreo de juicio depende de la opinión del investigador o experto que selecciona las unidades por entrevistar.

4. PRINCIPALES ESTADÍSTICOS

La media y la varianza muestral son los principales estadísticos y se caracterizan porque sus valores varían de muestra a muestra, mientras que la media y la varianza poblacional son valores fijos y en general desconocidos. La media muestral y la varianza muestral están dadas por:

Images

Si se tiene una población conformada por N unidades con parámetros μ y σ2, la representación esquemática de la obtención de k muestras de tamaño n con su propia media y varianza, como se presenta en la figura 7:

Images

5. DISTRIBUCIÓN DE LA MEDIA MUESTRAL

La distribución de la media muestral Images se determina a partir de sus valores característicos: esperanza y varianza de la media muestral, es decir, si la distribución de la variable X es X ~ (μ; σ2), entonces se sabe que la esperanza de la media muestral es igual a la media poblacional, y que la varianza de la media muestral es igual a la varianza poblacional dividida entre el tamaño de la muestra, es decir:

Images

Se observa que mientras mayor sea el tamaño de la muestra menor será la variabilidad de la media. Por consiguiente,

Images

6. TEOREMA CENTRAL DEL LÍMITE

Sea X una variable aleatoria con cualquier tipo de distribución, con media μ y varianza σ2. Si se toma una muestra aleatoria de tamaño n, entonces

Images

Lo que implica que cuando el tamaño de la muestra aumenta, la media muestral estandarizada converge a una distribución normal estándar con media μ = 0 y varianza σ2 = 1

Ejemplo 4

El gasto anual, en soles, en el que incurre una empresa para el mantenimiento de cada equipo de cómputo presenta una distribución normal con una media y desviación estándar de S/. 120 y S/. 15, respectivamente. La empresa seleccionó 36 equipos de cómputo para realizarles un seguimiento de sus costos de mantenimiento. Con la media muestral que se obtenga se emitirá una opinión sobre los gastos incurridos, de acuerdo a los siguientes criterios:

Reducido: si la media muestral es como máximo S/. 117.

Moderado: si la media muestral es mayor a S/. 117 y menor de S/. 124.

Excesivo: si la media muestral es por lo menos S/. 124.

a. Luego del seguimiento realizado, ¿cuál es la probabilidad de que se concluya que se ha incurrido en un gasto reducido en relación al mantenimiento de los equipos de cómputo?

b. Luego del seguimiento realizado, ¿cuál es la probabilidad de que se concluya que se ha incurrido en un gasto excesivo en relación al mantenimiento de los equipos de cómputo?

c. Calcule la probabilidad de que luego del seguimiento se señale que la empresa presentó gastos moderados para el mantenimiento de los equipos de cómputo.

d. ¿Cuántos equipos de cómputo se deberían seleccionar para un próximo seguimiento, de tal forma que se tenga una probabilidad de 0.96 de que se concluya que en promedio se han presentado gastos entre S/. 115 y S/. 125?

Solución

a. Se define X: gasto anual, en soles (S/.), de mantenimiento del equipo de cómputo.

XN (120;152), n = 36

Como Images S/. 2.5, entonces ImagesN (120;2.52)

Luego, la probabilidad solicitada es: P(Gasto reducido) = P(Images ≤ 117)

Al hacer uso del software Minitab se tiene:

Graph / Probability Distribution Plot …

Seleccionar View Probability.

Distribution: Normal. Mean: 120. Standard deviation: 2.5

Shaded Area: Seleccionar X value y Left Tail. X value: 117

Lo anteriormente expuesto se aprecia en la figura 8.

Images

La probabilidad resultante se aprecia en la figura 9.

Images

Luego: P(Gasto reducido) = P(Images ≤ 117) = 0.1151

Interpretación: la probabilidad de que se incurra en un gasto reducido es de 0.1151.

b. Del ítem anterior: Images ~ N(120;2.52)

Luego, la probabilidad solicitada es: P(Gasto excesivo) = P(Images ≥ 124)

Haciendo uso del software Minitab:

Graph / Probability Distribution Plot …, seleccionar View Probability.

Distribution: Normal. Mean: 120. Standard deviation: 2.5

Shaded Area: Seleccionar X value y Right Tail. X value: 124

Lo anteriormente expuesto se aprecia en la figura 10.

Images

La probabilidad resultante se aprecia en la figura 11.

Images

Luego: P(Gasto excesivo) = P(Images ≥ 124) = 0.0548

Interpretación: la probabilidad de que se incurra en un gasto excesivo es de 0.0548.

c. Del ítem (a): ImagesN(120;2.52)

Luego, la probabilidad solicitada es: P(Gasto moderado) = P(117 ≤ Images ≤ 124)

Al usar el software Minitab:

Graph / Probability Distribution Plot …, seleccionar View Probability.

Distribution: Normal. Mean: 120. Standard deviation: 2.5

Shaded Area: Seleccionar X value y Middle. X value 1: 117, X value 2 = 124

Lo anteriormente expuesto se aprecia en la figura 12.

Images

La probabilidad resultante se aprecia en la figura 13.

Images

Luego: P(Gasto moderado) = P(117 ≤ Images ≤ 124) = 0.8301

Interpretación: existe una probabilidad de 0.8301 de que la empresa presente gastos moderados.

d. Hallar el valor del tamaño de muestra n, tal que P(115 < Images < 125) = 0.96

Images

Como la distribución normal estándar es simétrica respecto del origen de coordenadas, se tiene que las probabilidades idénticas de ambos extremos de la gráfica (colas) deben sumar 0.04, es decir, la diferencia con respecto a la unidad.

Al hacer uso del software Minitab:

Graph / Probability Distribution Plot …, seleccionar View Probability.

Distribution: Normal. Mean: 120. Standard deviation: 2.5

Shaded Area: Seleccionar Probability y Both Tails. Probability: 0.04

Lo anteriormente expuesto se aprecia en la figura 14.

Images

El valor de la abscisa resultante se aprecia en la figura 15.

Images

Se debe igualar el valor de la abscisa correspondiente:

Entonces: Images

Interpretación: se deberían seleccionar 38 equipos de cómputo.

6.1 Aplicación del teorema central del límite a diferentes distribuciones

El teorema central del límite es útil para aproximar la distribución de la media muestral (Images) a una distribución normal, cuando la muestra aleatoria es obtenida de diferentes distribuciones de probabilidad para valores grandes del tamaño n de la muestra.

6.1.1 Distribución de Poisson

Sea la variable aleatoria X ~ P(λ), con E(X) = λ, y V(X = λ

Si se seleccionan muestras de tamaño n, con n suficientemente grande, la distribución de la media muestral es:

Images. Es decir: Images

y por el teorema central del límite se tiene

Images

Ejemplo 5

M-Design es una empresa que brinda el servicio de pintura personalizada de motos y cuatrimotores. Luego del estudio se determinó que el número de personas interesadas en el servicio ofrecido, clientes que se apersonan o realizan llamadas para consultar por dicho servicio, presenta una distribución de Poisson con una media de 16 personas por día. Suponga que se seleccionan al azar 64 días y se registra el número diario de personas interesadas, ¿cuál es la probabilidad de que la media muestral de personas interesadas difiera de la media poblacional en a lo más 1 persona?

Solución

Se define:

X: Número diario de personas interesadas en el servicio ofrecido.

X ~ Poisson(λ = 16)

Como Images, por el teorema central del límite: Images ~ N(16;0.52)

Luego, la probabilidad solicitada es:

Images

Interpretación: la probabilidad de que la media muestral difiera de la media poblacional, en a lo más 1 persona es de 0.9545.

6.1.2 Distribución uniforme

Sea X una variable aleatoria con distribución uniforme U(α; β), entonces

Images

Si se toma una muestra de tamaño n la distribución de la media muestral Images es

Images, es decir

Images

y por el teorema central del límite, resulta Images

Ejemplo 6

Se sabe que el espesor de unas placas de acero es una variable aleatoria con distribución uniforme entre 12.52 y 12.88 milímetros.

a. Si se seleccionan 48 placas de acero, ¿cuál es la probabilidad de que la media muestral del espesor de las placas sea de por lo menos 12.68 mm?

b. ¿Cuál es la probabilidad de que 108 placas apiladas tengan una altura de a lo más 1.37 metros?

Solución

a. Sea X : Espesor, en milímetros, de una placa de acero, entonces

X ~ U(12.52;12.88), n = 48

Luego:

Images

Por consiguiente, la probabilidad solicitada es

Images

b. Sea X : Espesor, en milímetros, de una placa de acero, n = 108. Entonces,

Images

Luego, la probabilidad solicitada es: Images

Como el valor de la variable se encuentra expresado en milímetros y la altura de las placas apiladas en metros; para calcular la probabilidad solicitada se realiza una conversión a metros, por lo tanto:

Images

Nota. 1 metro = 1000 milímetros.

7. DISTRIBUCIONES DE MUESTRAS PEQUEÑAS

Se dice que una muestra es pequeña cuando el muestreo se realiza con un número no mayor de 30 observaciones. Si la muestra es grande, se aproxima a una distribución normal. En esta sección se estudiarán las distribuciones Ji cuadrado, t de Student y F de Fisher.

7.1 Distribución Ji cuadrado

Sea x1, x2,...,xn una muestra aleatoria seleccionada de una población N(μ; σ2)

Así, se tiene Images. Luego Images

Propiedad: sea x1, x2,…,xn una muestra aleatoria seleccionada de una población Images la varianza muestral. Entonces, se tiene Images

Esto es, la variable aleatoria V tiene una distribución χ2 con (n - 1) grados de libertad.

Características: si X es una variable aleatoria con distribución Ji cuadrado, con m grados de libertad, entonces:

E(X) = m y V(X) = 2m

El parámetro m de la distribución se conoce con el nombre de grados de libertad y es considerado como el número de valores que la variable puede tomar libremente con la condición de que la suma debe ser igual a un valor fijo, este valor se encuentra asociado con el tamaño de la muestra.

Ejemplo 7

El entrenador de un gimnasio realizó un estudio en relación con la distancia recorrida (en km) por los usuarios del gimnasio durante media hora de ejercicio en la caminadora mecánica. Como resultado del estudio se determinó que las distancias recorridas presentan una distribución normal con media de 5.2 km y una desviación estándar de 0.4 km. Determine la probabilidad de que la desviación estándar muestral de la distancia recorrida durante media hora de ejercicio por parte de 28 usuarios del gimnasio seleccionados al azar se encuentre entre 0.36 y 0.44 km.

Solución

Sea X: Distancia recorrida, en km, durante media hora de ejercicio en la caminadora mecánica, por parte del usuario del gimnasio. Luego, se tiene:

Images

Por consiguiente,

Images

Interpretación: la probabilidad de que la desviación estándar muestral de la distancia recorrida se encuentre entre 0.36 y 0.44 km es de 0.5358.

7.2 Distribución t de Student

Sean Z ~ N(0;1) e Images variables aleatorias independientes. Luego, la distribución de la variable aleatoria T es,

Images

Así, la variable T tiene distribución t con k grados de libertad.

Características:

Si Xt(k), entonces

E(X) = 0; para k > 1

Images

La distribución t de Student es muy similar a la distribución normal, ya que ambas varían en el conjunto de los números reales, aunque la distribución t presenta una mayor dispersión. Sin embargo, la varianza de la distribución t se aproxima a la unidad (1) cuando k es un número muy grande.

Propiedad: sea x1, x2,…,xn una muestra aleatoria seleccionada de una población N(μ; σ2). Entonces se tiene:

Images

La variable T tiene entonces una distribución t con (n – 1) grados de libertad.

Ejemplo 8

El administrador de Karaoke Live, un local de karaoke en vivo, ha determinado que el tiempo que permanecen los grupos de amigos que concurren durante los fines de semana es una variable aleatoria que sigue una distribución normal con una media poblacional de 3.5 horas, y una varianza poblacional desconocida, la cual se ha estimado en 0.25 horas2, ¿cuál es la probabilidad de que el tiempo promedio de permanencia, por parte de 16 grupos de amigos, sea de 3 horas 15 minutos como máximo?

Solución

Sea X: Tiempo de permanencia (en horas) por parte de los grupos de amigos que acuden a Karaoke Live durante el fin de semana. X ~ N(3.5; σ2), n = 16, s2 = (0.5 h)2

Dado que Images

Esta variable tiene una distribución t con (n – 1) grados de libertad.

Nota. 3 horas y cuarto = 3 horas y 15 minutos = 3.25 horas

Al calcular la probabilidad solicitada, se obtiene

Images

Interpretación: la probabilidad de que el tiempo promedio de permanencia por parte de 16 grupos de amigos sea de 3 horas y 15 minutos como máximo es de 0.03197.

7.3 Distribución F de Fisher

Definición. Sean Images variables aleatorias independientes.

La variable aleatoria dada por

Images

tiene una distribución F con parámetros m y n y se denota F(m;n).

Las características de la variable aleatoria W son:

Images

Propiedad: sean x1, x2,…,xn una muestra aleatoria seleccionada con reemplazo de una población Images y y1, y2,…,yn una muestra aleatoria seleccionada con reemplazo de una población Images. Entonces, se tiene

Images

Ejemplo 9

En un estudio realizado por una cadena de cafeterías de Lima metropolitana se seleccionó una muestra de 21 grupos de clientes en reunión de negocios que acudieron al local de La Molina y 24 grupos de clientes al local de San Miguel. Determine la probabilidad de que la varianza muestral del consumo realizado por los grupos de clientes que acudieron al local de La Molina sea menor que 2.5 veces la varianza muestral del consumo realizado por los grupos de clientes en San Miguel. Suponga que las varianzas poblacionales del consumo realizado por los grupos de clientes en ambos locales son similares.

Solución

X1: Consumo realizado (en S/.) por los grupos de clientes de la cadena de cafeterías en el local de La Molina. Images

X2: Consumo realizado (S/.) por los grupos de clientes de la cadena de cafeterías en el local de San Miguel. Images

Images

Dado que: Images

Como la varianza poblacional del consumo realizado por los grupos de clientes en ambos locales son similares. Entonces,

Images

Luego, la probabilidad solicitada es

Images

Interpretación: la probabilidad de que la varianza muestral del consumo realizado por los grupos de clientes en La Molina sea menor que 2.5 veces la varianza muestral en San Miguel es 0.9818.

8. DISTRIBUCIONES MUESTRALES DE UN ESTADÍGRAFO

Se denomina distribución muestral de un estadígrafo a su distribución de probabilidad, la cual se genera por la extracción de un número muy grande de muestras. Las principales distribuciones muestrales de un estadígrafo se presentan a continuación:

8.1 Distribución de la media muestral con varianza poblacional conocida

Sea x1, x2,…,xn una muestra aleatoria seleccionada, con reemplazo, de una población con distribución normal: N(μ; σ2). Si Images es la media muestral, entonces:

Images

Nota. Téngase en cuenta la diferencia entre la estandarización de la variable Images y la estandarización de la media muestral de la variable Images.

Ejemplo 10

El tiempo semanal de acceso a las redes sociales en Internet por parte de los escolares de nivel secundario presenta una distribución normal con una media poblacional de 250 minutos y una varianza poblacional de 900 minutos2.

a. En un colegio se seleccionarán a 36 escolares de secundaria, y si el tiempo promedio semanal de acceso a las redes sociales supera los 260 minutos se realizará una charla informativa dirigida a los padres de familia, ¿cuál es la probabilidad de que se realice dicha charla?

b. En una muestra de 64 escolares de secundaria se determinó una probabilidad de 0.91 de que el tiempo promedio semanal de acceso a las redes sociales sea de a lo más k minutos, ¿cuál es el valor de k?

Solución

a. Sea Images: Media muestral del tiempo semanal de acceso a redes sociales.

n = 36.

De acuerdo a los datos del problema, se tiene

Images

Luego, la probabilidad solicitada es

P(Images > 260) = 0.02275

Interpretación: la probabilidad de que se realice la charla, es decir, que la media muestral sea mayor a 260 minutos, es de 0.02275 aproximadamente.

b. Sea Images: Media muestral del tiempo semanal de acceso a redes sociales. n = 64.

De los datos del problema, se tiene

Images

El valor de k solicitado verifica la siguiente relación: P(Images < h) = 0.91

Al estandarizar, resulta

Images

Por consiguiente:

Images

Interpretación: El valor de k es de 255 minutos aproximadamente.

8.2 Distribución de la media muestral con varianza poblacional desconocida

Sea Images una muestra aleatoria seleccionada, con reemplazo, de una población con distribución normal: N(μ; σ2), donde la varianza poblacional σ2 es desconocida. Luego, la variable aleatoria

Images

tiene una distribución t de Student con (n - 1) grados de libertad.

Nota. Téngase presente que la distribución de la variable X debe ser normal, de otro modo este resultado es inaplicable.

Ejemplo 11

Si el uso de almacenamiento (tamaño en disco) de las fotografías capturadas durante un mes por parte de los jóvenes universitarios, mediante su smartphone, presenta una distribución normal con media 570 megabytes (MB), y con una varianza poblacional desconocida pero que se ha estimado en (60 MB)2, calcule la probabilidad de que la cantidad total de fotografías capturadas durante un mes por parte de 40 jóvenes universitarios tengan un tamaño de por lo menos 23 000 MB.

Solución

Sea Images: Media muestral del tamaño (en MB) de las fotografías capturadas durante un mes por parte de los jóvenes universitarios. n = 40.

Dado que: Images

Luego, la probabilidad solicitada es

Images

Interpretación: la probabilidad de que la cantidad total de fotografías capturadas por parte de 40 jóvenes universitarios tengan un tamaño de por lo menos 23 000 MB es de 0.3, aproximadamente.

8.3 Distribución de una proporción muestral

Sea x1, x2,…,xn una muestra aleatoria seleccionada, con reemplazo, de una población de Bernoulli: Be (1;π), donde π es la proporción de éxitos en la población. La proporción de éxitos en la muestra se encuentra definida como:

Images, donde Y es el número de éxitos en la muestra.

Nota. Una variable aleatoria Bernoulli asume únicamente los valores 0 y 1. Las características de la distribución de la proporción muestral son:

Images

Si n es suficientemente grande, se tiene:

Images

Nota. La desviación estándar de una distribución muestral se denomina también error estándar. Para la distribución de la proporción muestral el error estándar es:

Images

Ejemplo 12

Una reconocida marca de dispositivos móviles asegura que en Lima metropolitana, 3 de cada 10 tabletas adquiridas en un centro comercial ubicado en Santiago de Surco son de dicha marca.

a. Para una muestra conformada por las próximas 60 tabletas vendidas en el centro comercial ubicado en Santiago de Surco, calcular la probabilidad de que la proporción de tabletas de dicha marca sea mayor que 0.35.

b. ¿Cuántas tabletas deben ser seleccionadas para que la proporción de tabletas de la marca en estudio difiera de su proporción poblacional en a lo más 0.08, con una probabilidad de 0.90?

Solución

a. Sea X una variable dicotómica:

Images

Para la muestra de tabletas seleccionadas, se tiene

Images proporción muestral de tabletas de marca en análisis.

Images

Luego, la probabilidad solicitada es: P(p > 0.35) = 0.1992

Interpretación: la probabilidad de que la proporción de tabletas de dicha marca sea mayor que 0.35 es de 0.1992 aproximadamente.

b. Dado que: Images, entonces, para calcular el valor de n que verifica que

P(|p - π| ≤ 0.08) = 0.90, se tiene

Images

Como Z ~ N(0;1) es simétrica con respecto al origen, entonces la probabilidad de ambas colas es igual a 0.10. Véase figura 16.

Luego: Images

Interpretación: Se deben seleccionar 89 tabletas.

Images

8.4 Distribución de la varianza muestral

Sea x1, x2,…,xn una muestra aleatoria seleccionada, con reemplazo, de una población con distribución normal: N(μ; σ2), y sea: Images

Entonces, la variable Images tiene una distribución Ji cuadrado con (n - 1) grados de libertad.

Propiedades: para una muestra aleatoria seleccionada de una población con distribución normal: N(μ; σ2) se tiene:

Images

Ejemplo 13

Los montos de las transacciones realizadas en una agencia de barrio de una reconocida entidad bancaria, presentan una distribución normal con una desviación estándar poblacional de S/. 45.

a. ¿Cuál será la probabilidad de que las 37 próximas transacciones presenten una desviación estándar muestral de a lo más S/. 51?

b. Sobre la base de una muestra de 46 transacciones se ha estimado que existe una probabilidad de 0.15 de que la varianza sea de por lo menos k soles2. Determine el valor de k.

Solución

a. Sea X: Monto (en S/.) de la transacción realizada en una agencia de barrio, y X ~ N(μ; 452), n = 37

Como Images

Luego, la probabilidad solicitada es

Images

b. En este caso, se tiene:

Images

De acuerdo a los datos del problema se tiene: P(S2k) = 0.15

Images

De donde: Images

9. DISTRIBUCIONES MUESTRALES DE DOS MUESTRAS

Cuando se trata de comparar dos poblaciones de acuerdo a una característica de interés, se comparan las muestras aleatorias tomadas de ambas poblaciones.

9.1 Diferencia de medias muestrales con varianzas poblacionales conocidas

Sean: Images dos variables aleatorias independientes. Si se seleccionan muestras con reemplazo de tamaño nx y ny, y se obtienen las distribuciones de sus medias muestrales, se tiene:

Images

La distribución de la diferencia de las medias muestrales está dada por:

Images

Donde la esperanza y varianza de esta diferencia son:

Images

Nota. La expresión Images representa a una variable aleatoria.

Ejemplo 14

Los ladrillos para techo producidos en las plantas A y B de la empresa Blokart presentan medias y varianzas poblacionales conocidas: μ1 = 9.25 kg, = σ1 = 0.08 kg, y = μ2 = 9.30 kg y σ2 = 0.06 kg. Se seleccionan 42 y 40 ladrillos para techo producidos en las plantas A y B, respectivamente; calcule la probabilidad de que la diferencia del peso promedio de los ladrillos obtenidos en las muestras de las plantas A y B difiera en a lo más 30 gramos de la diferencia de medias poblacionales.

Solución

X1: Peso (en kg) de ladrillos para techo de la planta A. μ1 = 9.25, σ1 = 0.08, n1 = 42.

X2: Peso (en kg) de ladrillos para techo de la planta A. μ2 = 9.30, σ2 = 0.06, n2 = 40.

La distribución de la diferencia de medias muestrales es:

(Images1 - Images2) ~ N(– 0.05;0.015572)

donde

Images

Luego, la probabilidad solicitada es: P(|Images1 - Images2) - (μ1 - μ2)|≤ 0.03); 0.03 kg, equivalente a 30 gramos.

P(|Images1 - Images2) - (-0.05)| ≤ 0.03) = P(-0.08 ≤ Images1 - Images2 ≤ -0.02) = 0.946

9.2 Diferencia de medias muestrales con varianzas poblacionales desconocidas

En el caso de que las varianzas Images y Images sean desconocidas, estas varianzas pueden ser homogéneas o heterogéneas.

9.2.1 Varianzas poblacionales homogéneas Images

Para este caso, la variable aleatoria Images tiene la siguiente distribución:

Images

donde Images es la varianza ponderada de las 2 muestras.

Ejemplo 15

El automóvil modelo Saux se comercializa en 2 modelos: A y B, los que al tener distintos pesos presentan un diferente rendimiento de combustible. El rendimiento tiene distribución normal con media 19.6 y 19.2 kilómetros por litro (en km/l) de combustible para los modelos A y B, respectivamente. Las varianzas poblacionales de los modelos A y B se desconocen pero se ha determinado que son homogéneas y se estimaron en 1.82 y 2.02 (km/l)2, respectivamente. Se realizarán pruebas con muestras aleatorias de 37 automóviles modelo A y 34 modelo B. Determine la probabilidad de que la media muestral del rendimiento de combustible de los automóviles modelo A sea menor a la media muestral de los automóviles modelo B.

Solución

X1: Rendimiento (en km/l) de combustible de los autos Saux modelo A.
μ1 = 19.6, S1 = 1.8, n1 = 37.

X2: Rendimiento (en km/l) de combustible de los autos Saux modelo B.
μ2 = 19.2, S2 = 2.0, n2 = 34.

Dado que

Images

donde Images = μ1 - μ2 = 19.6 – 19.2 = 0.4

Images

Luego, la probabilidad solicitada es

Images

9.2.2 Varianzas poblacionales heterogéneas Images

En este caso la distribución de la variable aleatoria Images es

Images

Images Images

Donde V corresponde a los grados de libertad: Images

Nota. El valor de los grados de libertad (V) se redondea al entero inmediato inferior.

 

Ejemplo 16

Para llegar a un determinado lugar turístico ubicado en la provincia de Yauyos existen dos rutas. Los automóviles que van desde Lima por la ruta centro presentan un tiempo de viaje que se distribuye como una normal: μ1 = 8.4 horas, S1 = 0.30 h, y los automóviles que van por la ruta sur presentan un tiempo de viaje que también se distribuye como una normal: μ2 = 8.5 , 2h