Khoa học dữ liệu Bài 4 - Học máy

Khoa học dữ liệuBài 4 - Học máy

Tổng quan về học máyMachine Learning Overview

2

1

ỨNG DỤNG

▰ Trợ lý ảo (Virtual Personal Assistants)▻ Xử lý ngôn ngữ tự nhiên (Natural Language Processing)▻ Hướng dẫn di chuyển (Predictions while Commuting)

▰ Chăm sóc sức khỏe (Health Care)▻ Đánh giá rủi ro bệnh (Risk assessment)

3

ỨNG DỤNG

▰ Mạng xã hội▻ Giới thiệu bạn bè (People You May Know)▻ Nhận dạng mặt người (Face Recognition)

▰ An ninh (Personal Security, Data Security)▻ Lọc thư rác, thư độc (Email Spam and Malware Filtering)▻ Giám sát (Videos Surveillance, Sensors Surveillance)

4

ỨNG DỤNG

▰ Tìm kiếm (Search Engine Result Refining)▰ Marketing

▻ Giới thiệu sản phẩm (Product Recommendations)▰ Tài chính

▻ Phát hiện hành vi xấu (Online Fraud Detection)▻ Giao dịch tần suất cao (High Frequency Financial Trading)

5

HỌC MÁY LÀ GÌ

▰ Khả năng hệ thống tự động học và cải thiện hiệu năng làm việc▻ Dựa vào dữ liệu▻ Không cần lập trình tường minh

▰ Mục tiêu▻ Tìm kiếm quy luật trong dữ liệu▻ Đưa ra quyết định ngày càng tốt hơn▻ Ít hoặc hoàn toàn không cần con người can thiệp

6

DỮ LIỆU

▰ Véc-tơ: Mỗi dữ liệu là một dòng của bảng▻ Ví dụ: thông tin khách hàng

▰ Danh sách: Mỗi dữ liệu là một danh sách ▻ Có thể không cùng độ dài▻ Ví dụ: các xét nghiệm trên bệnh nhân

▰ Ma trận: Mỗi dữ liệu là một bảng số▻ Ví dụ: quan hệ giữa khách hàng và sản phẩm

7

DỮ LIỆU

▰ Ảnh▰ Video▰ Cây

▻ Biểu diễn quan hệ cấp bậc▰ Đồ thị

▻ Quan hệ giữa các cặp đối tượng▻ Có hướng hoặc vô hướng

8

DỮ LIỆU

▰ Dữ liệu có cấu trúc

▻ Ví dụ: nhân viên có tên, tuổi, ảnh chứng minh, sếp ...

▰ Dữ liệu phi cấu trúc

▻ Ví dụ: văn bản, dữ liệu thô

9

DỮ LIỆU HUẤN LUYỆN - DỮ LIỆU KIỂM TRA

▰ Huấn luyện mô hình▻ Sử dụng dữ liệu huấn luyện (training data)

▰ Đánh giá mô hình▻ Sử dụng dữ liệu kiểm tra (validation data, test data)▻ Đảm bảo tính khách quan▻ Ước lượng trước hiệu năng hệ thống khi vận hành thật

10

Các bài toán Học máy cơ bảnMachine Learning Problems

11

2

HỌC CÓ GIÁM SÁT (SUPERVISED LEARNING)

▰ Phân loại, phân lớp (Classification)▰ Hồi quy (Regression)

12

HỌC CÓ GIÁM SÁT (SUPERVISED LEARNING)

▰ Phát hiện thư rác, thư độc▰ Nhận dạng chữ, chữ số viết tay▰ Tách các vùng trong ảnh▰ Nhận dạng tiếng nói▰ Giao dịch chứng khoán

13

HỌC KHÔNG GIÁM SÁT (UNSUPERVISER LEARNING)

▰ Ước lượng mật độ (Density Estimation)▰ Phân cụm (Clustering)

14

HỌC KHÔNG GIÁM SÁT (UNSUPERVISER LEARNING)

▰ Giảm số chiều (Dimensionality Reduction)▰ Phát hiện bất thường (Outlier / Novelty Detection)

15

HỌC BÁN GIÁM SÁT (SEMI-SUPERVISED LEARNING)

▰ Học chủ động (Active Learning)▰ Học chuyển tiếp (Transfer Learning)

16

HỌC TĂNG CƯỜNG (REINFORCEMENT LEARNING)

17

Môi trường

Hành

độ

ng

Tác nhân (robot)

ThưởngTrạng thái

Ảnh đầu vào Hành động ?Ước lư

ợng điểm thư

ởng

chạy

nhảy

Dự đoán với mô hình Hồi quy tuyến tínhLinear Regression

18

3

BÀI TOÁN DỰ ĐOÁN

19

▰ Dữ liệu: Các cặp dữ liệu - nhãn (x1, y1), (x2, y2), ..., (xn, yn)

Ví dụ: hàng đã mua - tuổi, hành vi sử dụng - khả năng rời mạng

▰ Huấn luyện: Tìm một mô hình (hàm số) y = f(x)▻ Mô tả mối quan hệ giữa các xi, yi tốt nhất có thể

▰ Dự đoán: Với một dữ liệu x mới (chưa từng nhìn thấy), ▻ Sử dụng f(x) đưa ra dự đoán về x

BÀI TOÁN HỒI QUY TUYẾN TÍNHLINEAR REGRESSION

20

▰ Dự đoán với

▻ Dữ liệu là số hoặc véc-tơ

▻ Nhãn là số thực

▰ Mô hình y = f(x) là hàm tuyến tính của x

Hạnh phúc và Số giờ ngủ

Chiều cao và Cân nặng


21

Mô hình y = f(x) là hàm tuyến tính của x▰ 1-chiều: y = b + ax▰ D-chiều: y = b + w1x1 + w2x2 + … + wdxd

x: biến độc lậpy: biến phụ thuộcw: các hệ số tuyến tính của mô hìnhb: điểm cắt




22

Mô hình y = f(x) là hàm tuyến tính của x▰ 1-chiều: y = b + wx▰ D-chiều: y = b + w1x1 + w2x2 + … + wdxd

Ý nghĩawi: tính quan trọng của thuộc tính xi

1 đơn vị của xi tương đương wi đơn vị của y



BÀI TOÁN HỒI QUY TUYẾN TÍNHDỮ LIỆU (DẠNG BẢNG)

23

import pandas

BÀI TOÁN HỒI QUY TUYẾN TÍNHHUẤN LUYỆN

24

▰ Huấn luyện: Tìm một mô hình (hàm số) y = f(x)

▻ Mô tả mối quan hệ giữa các xi, yi tốt nhất có thể

▰ Với mô hình hồi quy: Tổng (yi - f(xi))2 là nhỏ nhất

▰ ri = yi - f(xi): phần dư (residual) của mẫu dữ liệu thứ i

▰ Trong Python: sử dụng các hàm .fit() trong gói scikit-learn

phần dư

BÀI TOÁN HỒI QUY TUYẾN TÍNHDỰ ĐOÁN

25

▰ Dự đoán: Sử dụng mô hình y = f(x)

▻ Tính giá trị y của một dữ liệu x mới

▰ Trong Python: sử dụng các hàm .predict() trong gói scikit-learn

phần dư

MÔ HÌNH TUYẾN TÍNH VỚI SCIKIT-LEARN

26

Đọc dữ liệu, chuyển sang numpy với .values.reshape(-1,1)

Tạo mô hình, huấn luyện

với .fit()

Dự đoán dữ liệu mới với .predict

regr = sklearn.linear_model.LinearRegression()

regr.fit(X, y)

import sklearn

data = pandas.read_csv(...)X = data[[ ... ]].values.reshape(-1,1)y = data[ ... ].values.reshape(-1,1)

ypred = regr.predict(X)

BÀI TOÁN HỒI QUY TUYẾN TÍNHĐÁNH GIÁ MÔ HÌNH

27

▰ Đánh giá mô hình sử dụng tập dữ liệu kiểm tra

▻ Tách biệt với tập huấn luyện

▰ Tính tổng giá trị bình phương của lỗi (phần dư)

▰ Tính hệ số r2

▰ Trong Python: sử dụng các hàm trong sklearn.metrics

phần dư

BÀI TOÁN HỒI QUY TUYẾN TÍNHĐÁNH GIÁ MÔ HÌNH

28

phần dư

metrics.explained_variance_score(y_true, y_pred)metrics.mean_absolute_error(y_true, y_pred)metrics.mean_squared_error(y_true, y_pred[, …])metrics.mean_squared_log_error(y_true, y_pred)metrics.median_absolute_error(y_true, y_pred)metrics.r2_score(y_true, y_pred[, …])

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.explained_variance_score.html#sklearn.metrics.explained_variance_score

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html#sklearn.metrics.mean_absolute_error

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html#sklearn.metrics.mean_squared_error

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_log_error.html#sklearn.metrics.mean_squared_log_error

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.median_absolute_error.html#sklearn.metrics.median_absolute_error

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html#sklearn.metrics.r2_score

Documents

Khoa học dữ liệu Bài 4 - Học máy