5.2 Mentiras estadisticas
Garbage in, garbage out (GIGO)
- La calidad de nuestros datos es igual de fundamental que la precision de nuestros computos.
- Cuando los datos son errados, aunque tengamos un cómputo prístino nuestro resultado serán erróneos.
- En pocas palabras: con datos errados las conclusiones serán erradas.
Imagenes engañosas
- Las visualizaciones son muy importantes para entender un conjunto de datos.
- Sin embargo, cuando se juega con la escala se puede llegar a conclusiones incorrectas.
- Nunca se debe confiar en una gráfica sin escalas o etiquetas.
Cum Hoc Ergo Propter Hoc
- Dos variables están positivamente correlacionadas cuando se mueven en la misma dirección y negativamente correlacionadas cuando se mueven en direcciones opuestas.
- Esta correlación no implica causalidad.
- Puede existir variables escondidas que generen la correlación.
- Después de esto, eso; entonces a consecuencia de esto, eso. (Cum Hoc Ergo Propter Hoc).
- La forma de librarse de este error es imaginandose que otras causas afectan a la situacion en estudio.
Prejuicio en el muestreo
- Para que un muestreo pueda servir como base para la inferencia estadística tiene que ser aleatorio y representativo.
- El prejuicio en el muestreo elimina la representatividad de las muestras.
- A veces conseguir muestras es difícil, por lo que se utiliza a la población de más fácil acceso (caso estudios universitarios).
- No se toman muestras representativas.
Falacia del francotirador de Texas
- Esta falacia se da cuando no se toma la aleatoriedad en consideración.
- También sucede cuando uno se enfoca en las similitudes e ignora las diferencias.
- Cuando fallamos al tener una hipótesis antes de recolectar datos estamos en alto riesgo de caer en esta falacia (muy común en Data Science).
- Hacer hipotesis antes que recolectar datos
Porcentajes confusos
- Cuando no sabemos la cuenta total del cual se obtiene un porcentaje tenemos el riesgo de concluir falsos resultados.
- Siempre es importante ver el contexto, y los porcentajes, en vacio, no significan mucho.
- Flata de informacion respecto al contexto o la fuente de datos.
Falacia de regresion
- Muchos eventos fluctúan naturalmente, por ejemplo, la temperatura promedio de una ciudad, el rendimiento de un atleta, los rendimientos de un portafolio de inversión, etc.
- Cuando algo fluctúa y se aplican medidas correctivas se puede creer que existe un vínculo de causalidad en lugar de una regresión a la media.
Backlinks: Inteligencia Artificial:5. Introduccion al pensamiento probabilistico