2.1 Enfoques de Modelización

Statistical Learning se refiere a un conjunto de herramientas para modelar y comprender conjuntos de datos complejos.

Statistical Learning es un término presentado en Gareth James (2014). Hace referencia a un área de reciente desarrollo en estadística, que se combina con desarrollos paralelos de ciencias de la computación (específicamente, Machine Learning). Se refiere a un ámplio conjunto de herramientas para entender datos. Estas herramientas pueden ser: supervisadas o no supervisadas. De manera muy genérica, en los problemas supervisados se busca estimar o prever un output basado en uno o más inputs. En los problemas no supervisados, se cuenta con los inputs pero con un output, por lo que se busca entender la estructura de los datos.

Otra forma de clasificar los métodos para modelizar se basa en su objetivo y forma de construcción. Cuando se prioriza la interpretación del modelo, buscando que expliquen las relaciones entre output e inputs, se habla de modelos estadísticos. Cuando se prioriza la precisión de la previsión se habla de algoritmos de machine learning.

Tipos de modelos analíticos: Modelos Estadísticos y Machine Learning³. Los primeros hacen uso de la probabilidad (inferencia), son explicativos y predictivos. Los segundos suelen ser ‘cajas negras’, se centran en la previsión y el trabajo con grandes volúmenes de datos⁴.

Model

El objetivo de los modelos o algoritmos de Machine Learning es enseñar a las computadoras a hacer lo que es natural para humanos y animales: aprender de la experiencia. Estos algoritmos utilizan métodos computacionales para “aprender” información directamente de los datos, sin depender de una ecuación predeterminada como modelo. Los algoritmos mejoran su rendimientode forma adaptativa conforme aumenta la cantidad de muestras (datos) disponibles para el aprendizaje.

Machine Learning

El Machine Learning no requiere hipótesis previas sobre las relaciones subyacentes entre las variables (o inputs). Sólo se deben ingresar todos los datos que se diponga, y el algoritmo procesa los datos y descubre patrones, con los cuales puede hacer predicciones sobre el nuevo conjunto de datos. El aprendizaje automático trata un algoritmo como una black box (caja negra), siempre que funcione. En otras palabras, su principal objetivo es la previsión.

Modelos Estadísticos

Por el contrario, los estadísticos deben comprender cómo se recopilaron los datos, las propiedades estadísticas de los estimadores, la distribución subyacente de la población que están estudiando y los tipos de propiedades que esperaría si hiciera el experimento muchas veces. Necesita saber exactamente lo que está haciendo y proponer parámetros que le proporcionen el poder predictivo.

References

Gareth James, Trevor Hastie, Daniela Witten. 2014. An Introduction to Statistical Learning, with Applications in R. Springer. http://www-bcf.usc.edu/~gareth/ISL/index.html.