Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
Webinar: Machine Learning (ML) aplicado a la deserción estudiantil
Universidad Autónoma de OccidenteFacultad de Ciencias Básicas
Departamento de Matemáticas y Estadística
Johann A. Ospina
Contenido
1. Entendiendo el ML2. Aplicaciones del ML3. Programas para trabajar ML4. Tipos de algoritmos de ML5. Caso de estudio
• Las organizaciones buscan extraerconocimiento de las enormescantidades de datos que sealmacenan y procesan diariamente.
• El apasionante deseo de predecir elfuturo impulsa el trabajo de lasempresas analistas y científicos dedatos en campos que van desde elmercadeo hasta la atención médica[Nwanganga & Chapple, 2020].
Entendiendo el ML
Entendiendo el ML
?¿Cómo una
máquina puede identificar si un
estudiante piensa cancelar?
MáquinaDatos
Aplicaciones del ML
Seguridad
Detección de transacciones
bancarias ilícitasDetección de rostros Evitar correo no
deseado
Salud
Predicción de enfermedades
Efectividad de un medicamento
Análisis de secuencias genéticasMercadeo
Identificación de nichos de mercado
Predicción del tiempo de permanencia de un
cliente
Identificación de preferencias de
clientes
Redes sociales
Análisis de sentimientos Mercadeo digital
Reconocimiento de imágenes
Comportamiento del clima
Detección de cultivos ilícitos
Diagnóstico de una enfermedad
Programas para trabajar ML
Python
Numpy
Seaborn
Scikit learn
pandas
Natural Language
Toolkit (NLTK)
TensorFlow
R
caret
MICE
dplyr tydiverse
gggplot2 plotly
randomForest
rpart
Matlab
Deep Learning Toolbox
Simulink
Statistics and
Machine Learning Toolbox
Java
MOA
MALLET
Mahout
JSAT
Java-ML
ELKI
Etapas del Machine Learning
Paso 1
Gestión de datos
Paso 3
Algoritmo de entrenamiento
Paso 2
Procesamiento de datos
Paso 4
Algoritmo de prueba
Paso 5
Evaluación de resultados
Tipos de algoritmos de Machine Learning
Machine Learning
Supervisados No supervisados
Regresión:• Lineal• Polinomial
Árboles de decisión
Bosques aleatorios
Clasificación:• KNN• Regresión
logísitica• SVM
Agrupamiento:• SVD• ACP• K-Medias
Variables cuantitativas
Variables cualitativas
Datos de estudio
Datos de rendimiento de 649 estudiantes de bachillerato. Las variablesincluyen calificaciones de los estudiantes, característicassociodemográficas y variables relacionadas con el desempeñoeducativo [Cortez & Silva, 2008].
Observaciones• Antes de aplicar los métodos de ML es importante conocer los datos (tipos devariables, identificación de datos faltantes, datos atípicos, etc).
• Estudiar muy bien la teoría de estadística que hay detrás de las metodologias de MLque se vayan a implementar.
• En el caso de la regresión logística se debe tener cuidado cuando predomina uno de losvalores de la variable respuesta, puesto que los enlaces simétricos son inadecuados,por lo tanto, es importante considerar enlaces asimétricos (Chen et al, 1999).
Referencias
Ramasubramanian, K.; Singh, A. Machine learning using R. New Delhi, India: Apress, 2017.
James, G., Witten, D., Hastie, T., & Tibshirani. An introduction to statistical learning R. NewYork: springer. 2013.
Nwanganga, F. & Chapple, M. Practical machine learning in R. Wiley, 2020.
Cortez, P & Silva, A. Using Data Mining to Predict Secondary School Student Performance. InA. Brito and J. Teixeira Eds., Proceedings of 5th Future Business Technology Conference(FUBUTEC 2008) pp. 5-12, Porto, Portugal, April, 2008, EUROSIS, ISBN 978-9077381-39-7.
ReferenciasFellman, D. Predicting dropout rate in e-learning (2019). Enlacehttps://www.rpubs.com/dfellman/elearningdropout
Vilas-Boas, L. Crafting a Machine Learning Model to Predict Student Retention Using R(2020). Enlace: https://towardsdatascience.com/crafting-a-machine-learning-model-to-predict-student-retention-using-r-5eb009dcb1ec
CHEN, Ming-Hui; DEY, Dipak K.; SHAO, Qi-Man. A new skewed link model for dichotomous quantal response data. Journal of the American Statistical Association, 1999, vol. 94, no 448, p. 1172-1186.
Próximos webinars del departamento de Matemáticas y Estadística• 12 de febrero (4 a 5 pm). Método de clasificación supervisada y su aplicación en datosde salud.Andrés F. Ochoa
• 12 de marzo (4 a 5 pm). Creación de dasboard para la generación de reportes dinámicosutilizando la librería shinydashboard de R.Johann A. Ospina
• 26 de febrero (4 a 5 pm). Estimación del riesgo de incumplimiento de las empresas deun Banco, con técnicas Machine Learning.Diego A. Castro