Estadistica Inferencial UAN: 2009

martes, 23 de junio de 2009

Índices de utilización de la red

Tabla 1 Lugares de acceso

Tabla 2: Actividad de los usuarios

Tabla 3

La tabla nro. 3 es absolutamente descriptiva, aunque no tengamos datos fehacientes y actualizados, a la fecha de esta investigación,. Ahora bien, como dijimos, la "red" es en un futuro próximo una variable más para medir la marginación de la sociedad, esto nos dejaría del lado de los países marginados. En México queda mucho camino para recorrer en lo referente a posibilidad de conectividad de una amplia población. Teniendo en cuenta esto, no debemos olvidar que más allá de la PC y un simple módem, los costos que implica conectarse en lo referente a la comunicación telefónica son muy altos en nuestro país.

Uso de internet por sexos

Algunos estudios realizados nos indican también que la socialización tecnológica es mucho más compleja de lo que se pensó en un principio. Las tecnologías, y especialmente Internet, se introducen y se incorporan a ‘mundos’ existentes y socialmente construidos, transformándolos. La comprensión y el análisis de tales complejidades emerge en la medida en que nos orientemos hacia los usuarios y los escenarios de uso y no, como se ha hecho hasta ahora, exclusivamente hacia la tecnología misma empleada y sus posibilidades.
Existen 15.707.000 internautas, es decir, una penetración del 41.4% de la población mayor de 14 años. Otro dato importante que obtenemos de este último estudio es la distribución de los usuarios respecto a su sexo. Observamos que existe una tendencia clara a igualar ambas cifras (un 42,5% de chicas, frente a un 57,5% de chicos). Pero quizás el dato más relevante para nuestro estudio es el que nos indica que la casa es el lugar de acceso a Internet más usado y, además está experimentando un ascenso vertiginoso en comparación con otros lugares de acceso.

Si lo comparamos con la televisión, medio de mayor penetración social en la actualidad, descubrimos que frente al 88% de la población entre 14 a 19 años que ve la televisión, se encuentra un 52% de jóvenes de la misma edad que también usan Internet.

lunes, 22 de junio de 2009

Técnicas de muestreo.

Muestreo por conglomerado.

Cuando se diseña una investigación que requiere datos reales, a veces se observa que, por encima de los criterios estadísticos, el presupuesto económico juega un papel prioritario. Esta circunstancia justifica la puesta en práctica de algunos modelos cuya principal aportación es la sensible reducción de costos.
Técnicas de Muestreo. Instrumento de gran validez con el cual se seleccionan las unidades representativas, a partir de las cuales obtendrá los datos que le permitirán extraer inferencias acerca de una población.
Existen determinadas aglomeraciones naturales de unidades en la población: obreros en fábricas, estudiantes en universidades, amas de casa en grandes superficies, etc. El principio de estos modelos es acceder directamente a estas aglomeraciones.
Pongamos, por ejemplo, que se pretende probar el efecto de dos tipos de obsequio, asociados a un producto de consumo infantil. La recogida de datos es rápida y de coste reducido si se acude a los colegios en lugar de entrevistar individualmente a los niños en sus domicilios.
El muestreo por conglomerados requiere de elegir una muestra aleatoria simple de unidades amplias de agrupación física, en el espacio o en el tiempo, e idealmente los elementos dentro son heterogéneos. El muestreo se hace por etapas:
Seleccionamos aleatoriamente algunos conglomerados.
Si dentro de cada conglomerado existen nuevos conglomerados, seleccionamos aleatoriamente uno de ellos.
Dentro del conglomerado seleccionado se analizan todos los elementos.

Dentro de los grupos seleccionados se ubicarán las unidades elementales, por ejemplo, las personas a encuestar, y podría aplicársele el instrumento de medición a todas las unidades, es decir, los miembros del grupo, o sólo se le podría aplicar a algunos de ellos, seleccionados al azar. Este método tiene la ventaja de simplificar la información muestral almacenada. Ejemplo:
Suponga que una compañía de servicio de televisión por cable está pensando en abrir una sucursal en una ciudad grande; la compañía planea realizar un estudio para determinar el porcentaje de familias que utilizarían sus servicios, como no es práctico preguntar en cada casa, la empresa decide seleccionar una parte de la ciudad al azar, la cual forma un conglomerado.

Unidad 4. Análisis de Varianza.

El análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos.
Distribución F

Varianza intermediante

k = Al número de datos (datos que salen de las medias)
n = Número de datos por arreglo (número de datos originales)

Varianza interna

Realizar un análisis de varianza.

1.- Planteamiento de la hipótesis
2.- Determinar el estadístico de prueba (distribución F).
3.- Fijar el nivel de significación de la prueba (Tabla de distribución F)
4.- Establecer la regla de decisión
5.- Realizar los cálculos.
6.- Tomar la desición.

Unidad 3. Prueba de hipótesis.

Hipótesis. Afirmación de un evento que debe ser comprobada por una prueba.

Al definir nuestra hipótesis debe de existir 2 tipos de la misma:

- Hipótesis nula (Ho), lo que queremos comprobar, lo que afirmamos.
- Hipótesis Alternativa (Ha), contraria a la nula.

Prueba de hipótesis de media muestral y media poblacional.

1.- Definir el juego de hipótesis.

2.- Establecer el nivel de significancia. Porcentaje de error máximo, generalmente alcanza el 5%.

Error de tipo I. Rechazar una Ho cuando es verdadera.
Error de tipo II. Aceptar una Ho cuando es falsa.

3.- Calcular el estadístico de prueba.
Criterios para elegir el estadístico de prueba.
a) Si conocemos la σ de la población la distribución elegida debe ser Z.

b) Si la σ de la población no se conoce y la muestra o tamaño de muestra es mayor a 30.

c) Si no conoces la σ de la población y la muestra o tamaño es menor o igual a 30.

4.- Formular la regla de decisión.
Se toma en cuenta el estadístico.

5.- Tomar la decisión.

Prueba de hipótesis de la diferencia de dos medias muestrales.

La prueba de dos medias muestrales se utiliza para comprobar si las medias de dos poblaciones son iguales. Se requieren dos muestras independientes y se concentra en la diferencia relativa entre la media de las dos, la diferencia se divide entre la desviación estándar de una distribución de muestreo.

Las suposiciones para comparar dos poblaciones son las siguientes:

a) X1…. Xn es una muestra aleatoria de una población cuyo modelo probabilístico es N
b) Y1…. Ym es una muestra aleatoria de una población cuyo modelo probabilístico es N
c) Las muestras aleatorias X1…. Xn y Y1….Ym son independientes. No están relacionadas entre si.
Las poblaciones tienen la misma varianza.

Comparación de dos poblaciones con µx y µy

Si se desea comparar las medias µx y µy, para ese fin, se define el parámetro δ= µx- µy, o sea la diferencia entre las medias. Sea δ o un número cualquiera. Los juegos de hipótesis que interesa probar son:

a) Ho: δ = δo en oposición Ha: δ ≠ δo’
b) Ho: δ ≤ δo en oposición Ha: δ > δo’
c) Ho: δ ≥ δo en oposición Ha: δ < δo’

También puede utilizarse el siguiente juego de hipótesis:
a) Ho: µx -µy ≤ δ en oposición a Ha: µx -µy > δ
b) Ho: µx -µy ≥ δ en oposición a Ha: µx -µy < δ
c) Ho: µx -µy = δ en oposición a Ha: µx -µy ≠ δ

Generalmente δ = 0, valor que simplemente trata de decir que son iguales y que las diferencias en las medias muestrales se deben al muestreo.

El procedimiento para realizar la prueba de hipótesis en la comparación de dos medias poblacionales a través de dos medias muestrales:
1.- Planteamiento de la hipótesis
2.- Determinar el estadístico de prueba.

De acuerdo a su tamaño muestral y si se concede la varianza de la población se derivan dos métodos:
a) Cuando la varianza es conocida;
b) Cuando la varianza es desconocida y además n y m son > 30
c) Cuando la varianza es desconocida y además n y m son ≤ 30

Donde es el estimador ponderado de la varianza.
3.- Fijar el nivel de significación de la prueba (α)
4.- Establecer la regla de desición
5.- Realizar los cálculos.
6.- Tomar la desición.

Impacto de internet en la vida diaria..

Sin lugar a dudas, internet es una de las últimas tecnologías que más rápidamente se esta desarrollando para su introducción en los hogares. Las previsiones apuntan a su integración como un electrodoméstico más, con unas capacidades y servicios que evolucionaran rápidamente. Por ese motivo, cada vez más adquieren importancia en las respuestas de los usuarios frente a la implantación de estas nuevas tecnologías. En este sentido, conviene detenerse un momento a valorar algunos efectos que está produciendo la irrupción de internet en las conductas de los usuarios.

En efecto, la rápida expansión de la red y su uso cada vez más mayoritario, implica también la necesidad de dedicar un espacio de tiempo diario a utilizar internet, que puede conllevar en algunos casos un reajuste del tiempo dedicado a otras actividades cotidianas. Los resultados obtenidos por la última encuesta realizada por la Asociación para la investigación de los Medios de Comunicación (AIMC, 2001) apuntan ya en esa dirección. Según este informe, un 25% de las 43.942 personas encuestadas reconoce que ha disminuido el tiempo dedicado a dormir, un 13.8% ha reducido el tiempo dedicado al estudio, un 10.1% el tiempo dedicado a salir con los amigos y un 6.1% dice que el uso de internet ha disminuido el tiempo laboral. El carácter marcadamente lúdico del uso de internet se pone de manifiesto todavía más al señalar este informe que el 65% de los encuestados reconoce que las conexiones a la red han hecho disminuir el tiempo dedicado a ver la televisión y un 58.3% dice que la red ha llenado un tiempo vació dedicado al ocio. Otro dato significativo proporcionado por este informe, es que sólo un 9.5% de los usuarios encuestados utilizan la red con finalidades principalmente académicas. Del resto, un 39.1% lo utiliza con fines profesionales o laborales y un 50.2% lo hace con fines personales.
El reciente estudio de Yang (2001) aporta datos en la misma dirección. Este autor concluye que entre los múltiples usos que se pueden hacer del ordenador, solo un 8.5% de los sujetos estudiados lo utilizan con fines educativos o relacionados con actividades escolares. La mayoría de los usuarios, indica este autor, utilizan el ordenador como una fuente de entretenimiento y ocio, sobre todo a través de los juegos. Este uso lúdico del ordenador sería, según Yang (2001) más acentuado en hombres que en mujeres y se haría extensivo a Internet.
El alto nivel de accesibilidad y la inmensa oferta de servicios disponibles en la red ha hecho que se empiece a hablar de un riesgo potencial de sobreuso, que en algunas personas se ha descrito como “compulsivo” e incluso “adictivo” (O’Reilly, 1996).

Griffiths (1995) definió operacionalmente las adicciones tecnológicas como adicciones psicológicas sin substancia que implican una interacción hombre-máquina. La mayor parte de las evidencias aportadas sobre la existencia de adicción a los ordenadores se encuentran en formas anecdóticas publicados en los años 70 y 80 (Shotton, 1991). Shotton (1991) intentó definir un perfil típico para usuario dependiente de los ordenadores. Para este autor, los usuarios dependientes emplearían más horas por semana utilizando el ordenador, les sería más difícil controlar su uso, tendrían una educación superior y serían, generalmente, menos sociables que sus compañeros. Además, añade Shotton, las personas dependientes de los ordenadores preferirían más estar solos que en compañía, relacionarse con los demás a través de objetos tecnológicos, y tendrían preferencia por aficiones y actividades no sociales, la mayoría de las cuales se referirían a áreas de la ciencia y la tecnología. También se caracterizarían por una constante necesidad de estimulación intelectual y de refuerzo positivo; en particular, de todo aquello relacionado con sus actividades tecnológicas.

http://redalyc.uaemex.mx/redalyc/pdf/167/16718206.pdf

Unidad 2. Modelos probabilísticos importantes.

La probabilidad mide la frecuencia con la que se obtiene un resultado o resultados, al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones estables. La probabilidad simple se calcula con la siguiente formula:

La distribución de probabilidad es una tabla que asigna a cada evento definido sobre la variable aleatoria una probabilidad. La distribución de probabilidad describe el rango de valores de la variable así como la probabilidad de que el valor de la variable esté dentro de un subconjunto de dicho rango.Cuando no hay segmentos definidos entre los valores estamos hablando de una variable continua, resultado de una medición. En cambio, una variable discreta genera espacios muy definidos entre un valor y otro (directamente), resultado de un conteo.

Distribución de probabilidad binomial.

Se realizan inferencias a partir de que un experimento tiene solo 2 opciones de resultado. Los resultados son mutuamente excluyentes, el resultado puede repetirse. Se repite el experimento las veces que se requiera. La probabilidad de un resultado es independiente de lo que haya salido en otro experimento. Formula:

P= Probabilidad asociada a un resultado posible
Q= No probabilidad. 1-p
n= Número de ensayos
x= Número de éxitos observados

Distribución de probabilidad Poison
Se utiliza cuando n aumenta o es muy elevada y la probabilidad disminuye a prácticamente nada.

e= Constante con valor 2.71828.

Distribución normal
Punto base de la estadística inferencial.

- Cada uno de los fragmentos se les llama “cola” derecha o izquierda.
- La media siempre va a dividir la curva.
- La curva nunca tocará el eje x ya que las posibilidades son infinitas.

En la construcción de la curva normal se necesita la media y la desviación estándar. El resultado o número de valores puede ser infinito en la distribución normal.
Cuando la media o desviación estándar cambia la curva se desplazará:
Media:
- En caso de aumentar se moverá a la derecha.
- En caso de disminuir se moverá a la izquierda.
Desviación estándar:
- Entre más pequeña más concreta será la curva.
- Entre más amplia más dispersa será la curva.

Regla
Aproximadamente 68.3% de los valores se van a encontrar a máximo una desviación estándar de la media.
Aproximadamente 95.5% se encuentran a máximo 2 valores de la desviación estándar.
Aproximadamente 97.7% se encuentran a máximo 3 desviaciones estándar.

Valores tipificados

Z= valor tipificado
X= Cualquier valor, variable continua

sábado, 20 de junio de 2009

Cuestionario

Consulte la bibliografía sugerida para el curso, lea e intente dar respuesta a los siguientes cuestionamientos según la interpretación que usted de a los textos consultados.

1.- ¿En qué casos se sugiere aplicar la prueba de hipótesis de la diferencia de dos medias muestrales?
Cuando es necesario concluir si las medias de dos poblaciones son iguales. Se aplica con frecuencia en la comparación de dos métodos, para comprobar si hay una diferencia significativa entre las poblaciones.

2.-¿Qué diferencia existe entre esta variante de la prueba de hipótesis y la vista en el apartado anterior del curso?

- El valor de delta
- Uso de diferentes medidas de dispersión
- Las medias de dos muestras.

3.- ¿Qué quiere decir el parámetro δ?
La diferencia entre las medias.

4.- ¿Qué debemos entender cuando se afirma que un juego de hipótesis incluye:
H0 : µx - µy ≤ δ en oposición a Ha : µx - µy > δ?

La hipótesis nula afirma que la diferencia entre la media de las poblaciones es menor o igual a delta y la hipótesis alternativa afirma que la diferencia entre la media de las poblaciones es mayor a delta.

5.- ¿Cuántos y cuáles son los elementos a considerar para determinar el estadístico de prueba a utilizar en esta modalidad?
- El tamaño de la muestra
- El conocimiento de la varianza

Algunas consideraciones sobre Internet

La distribución geográfica de usuarios de Internet sigue la misma trayectoria que la distribución poblacional en el mundo. La tendencia es que las personas cada vez más se concentren en las metrópolis, es decir, no existe en la actualidad una tendencia a la mejor distribución de la población por espacio terrestre, al contrario los individuos tienden a habitar zonas donde los recursos y servicios están más cercanos, se estima que en un futuro no muy lejano más del 80% de la población mundial se encuentre instalada dentro de las grandes ciudades y sus alrededores en todo el mundo.

El Internet por su parte no es un mecanismo que promueva la distribución geográfica, cada vez más los internautas dependen de los servicios que implica la interconectividad de la red, la infraestructura para tener acceso al ciberespacio se encuentra en las ciudades, en los grandes centros de desarrollo, en las universidades y centros de investigación. Para los países desarrollados el acceso a Internet cada vez está mejor distribuido, pero en los países menos desarrollados la conectividad se encuentra muy marcada por los polos de desarrollo.

En un estudio comparativo publicado en el 2006 por la Organización para la Cooperación y el Desarrollo Económico (OCDE) la penetración de Internet por cada 100 habitantes se encontraba en un promedio de 15.5 usuarios. El país con mayor penetración fue Dinamarca con 29.3, los primeros lugares corresponden a países desarrollados, México a parece en el lugar 29º con un índice de penetración de 2.8
La Comisión Federal de Telecomunicaciones (COFETEL) en su reporte correspondiente al año 2003 sobre la penetración de Internet por cada 100 habitantes reporta datos similares; Islandia en primer lugar con un índice de penetración del 67.5, el país Latinoamericano mejor ubicado es Chile en el lugar 19 con una penetración del 26.3, México aparece en el lugar 26 con una penetración de 7.5 por cada 100 habitantes .
Aunque los datos de cada organismo no concuerdan en sus estadísticas, sí es claro que los índices de penetración y de países encuentran similitudes palpables. Las razones que hacen variar las comparaciones se encuentran en que dividen la conectividad por rangos, los cuales se establecen por los medios de acceso como son: DSL, cable, fibra óptica, LAN y otros; en contraste con quien divide únicamente por acceso por banda ancha, por línea telefónica y otros tipos de acceso entre los cuales se considera la conectividad móvil. Los datos antes señalados hacen pensar que la distancia, la brecha entre países se ensanchará cada vez más, ya que no existe ningún indicio de que suceda lo contrario. Los países menos desarrollados mantendrán su conectividad en las grandes urbes principalmente y de ahí se diversificarán a las medianas y pequeñas ciudades, por el contrario en los países desarrollados la conectividad tiende a unificarse en el resto del territorio ya que las ciudades ya cuentan con la suficiente infraestructura para ofrecer un buen servicio solamente se irán agregando aquellos lugares que por el momento no cuentan con dicha oportunidad.
Para contemplar desde la perspectiva globalizante la importancia del tema Internet basta con revisar los datos generales proporcionados por la OCDE. En 1999 había 106.3 millones de suscritos a Internet en todo el planeta, para el 2004 la cifra aumentó a 270.7 millones de suscritos, incluyendo la banda ancha.
Existe una tendencia generalizada respecto a la velocidad con la cual se cuenta para bajar y subir datos en Internet. La banda ancha, la fibra óptica y algunas otras variedades de conectividad están acelerando los tiempos de respuesta, tan necesarios y demandados por los usuarios y la inmediatez con la que se requiere la transferencia de datos. La cantidad de información que fluye está en relación a la posibilidad de contar con equipos cada vez más rápidos y con mayor capacidad de respuesta y de esa manera aumentar la calidad de lo que se encuentra estacionado en el ciberespacio. La idea de estar disponible en Internet no sólo se refiere en la actualidad con la conectividad sino también con la velocidad disponible en el medio tecnológico, tanto en el uso de líneas como de aparatos.
México es uno de los países con menor conectividad en América Latina y las cifras estimadas que reporta la Asociación Mexicana de Internet para el 2007 es de 8.7 millones de computadoras con conexión a Internet y se estima que existen 22.7 millones de internautas. De tal manera que países en vías de desarrollo tienden a aumentar de manera considerable su infraestructura de interconexión, por la escasez anterior de equipo instalado, pero todavía existe una distancia considerable en relación a los datos de otros países y del mundo en general.

- http://www.eumed.net/tesis/2008/jabs/El%20Internet.htm

domingo, 19 de abril de 2009

Uso de la computadora y de Internet

El uso de la computadora y de Internet ha incrementado considerablemente en los últimos años, en México para marzo de 2008 había 31.9 millones de usuarios de computadora y 22.3 millones de usuarios de Internet. El 70% de los usuarios de Internet eran personas con edades entre 12 y 34 años (INEGI), rango de edad que las Naciones Unidas considera como la etapa juvenil en el ser humano.
La encuesta permitió estimar un total de 31.9 millones de personas usuarias de computadora y 22.3 millones de Internet, esta última cifra representó un aumento del 7.2% respecto del año anterior. La población joven del país predominó en cuanto al uso de las TIC´s, entre los usuarios de computadora: los de 12 a 34 años representaron el 64.4% del total, mientras que entre los de Internet, el mismo grupo llegó a 70.0%.

El internet tienen diversos usos según la encuesta realizada por el INEGI son las siguientes:
- Actividades escolares
- Recibir o enviar correos electrónicos

- Obtener información en general

- Transacciones, compras

Basándonos en esta encuesta el sector juvenil es el más vulnerable al uso del ordenador y de Internet por que es mayormente utilizado en actividades escolares y laborales. En el municipio de Tepic la presencia de espacios públicos ha crecido notablemente en los últimos años permitiendo de esta forma una accesibilidad mayor a la que se presentaba en periodos de tiempo anteriores.

Internet permite el contacto fácil y rápido a nivel local, regional y global de una forma sencilla y económica, en promedio la hora de renta del ordenador cuesta diez pesos en la mayoría del municipio, esta cantidad permite al usuario realizar tareas, buscar información, hacer amigos, entablar relaciones personales entre otras cosas. Los espacios públicos permiten realizar estas actividades y puede funcionar también como punto de reunión entre amigos.

INEGI (2008). Disponibilidad y uso de las tecnologías de la información en los hogares. En http://www.inegi.gob.mx/inegi/contenidos/espanol/prensa/comunicados/endutih08.asp.

martes, 17 de marzo de 2009

Primer Unidad.

Curso de Estadistica Inferencial.

La estadística es la ciencia encargada de recolectar información, ordenarla, clasificarla, presentarla y analizarla, en base a este análisis se obtienen conclusiones acerca de una población. Se divide en dos:

- Estadística descriptiva. Dedicada a la recolección, análisis, acomodo y observación de datos a partir de fenómenos estudiados.
- Estadística inferencial. A partir de los resultados de la estadística descriptiva se realizan predicciones en base a métodos.

Los datos estadísticos son la materia prima de la estadística y se obtienen por medio de experimentos los cuales son situaciones que arrojan datos estadísticos.
Una variable es un valor asignado que puede ser medido, adoptando diferentes valores en cada caso de estudio. Se dividen en variables cuantitativas, las cuales tienen como principio las cualidades numéricas y las variables cualitativas que parten de cualidades o características y se miden de acuerdo a la clasificación de dichos atributos.

Las medidas de tendencia central son valores representativos de un conjunto de datos, tienden a situarse hacia el centro de dicho conjunto. Representa los datos de origen. Dentro de estas medidas están.

- La Media () Es el resultado de sumar todos los datos de una muestra y dividirlo entre el total del número de datos.

- La Mediana. Antes de calcular la mediana es de carácter obligatorio ordenar los datos, de no realizar este acomodo el cálculo será incorrecto, ya acomodados, la mediana será el valor que se encuentre a la mitad del grupo de datos.

- Moda. La moda de un conjunto de datos sueltos es el valor que se repite con mayor frecuencia.

Es importante analizar el tipo de problema al que nos enfrentamos, para así poder aplicar la formula necesaria. Existen valores estadísticos y de parámetro. Los estadísticos se refieren a los datos extraídos de una muestra y los parámetros son todos los datos de una población.
A la agrupación de datos se le conoce como distribución de frecuencias, es decir, a la cantidad de datos que tenemos lo situamos dentro de una clase para darle un acomodo, los datos que entran dentro de la clase se le conoce como frecuencia de clase . Las clases cuentan con un Límite Inferior de Clase (LIC) que es el número más pequeño del rango de datos y con un Límite Superior de Clase (LSC) número más grande del mismo rango. El punto intermedio entre el LIC y el LSC se le conoce como marca de clase .

Las medidas de dispersión muestran la variabilidad de una distribución, representando por un número la distancia a la que se encuentran separados cada uno de los valores de un conjunto de datos respecto a la media. Dentro de las medidas de dispersión encontramos la desviación estándar y la varianza.

- Desviación estándar para datos sueltos de una muestra.