Khóa Học Data Science & Machine Learning Advance 2026

Module 1: Tổng quan cơ sở dữ liệu và ngôn ngữ truy vấn

- Giới thiệu về các RDBMS, công cụ làm việc, ngôn ngữ làm việc, đơn vị hay sử dụng.
- So sánh cơ sở dữ liệu quan hệ với phi quan hệ
- Hệ quản trị cơ sở dữ liệu (RDBMS)
- Cơ sở dữ liệu (DB)
- Ngôn ngữ SQL
- Chương trình giúp người dùng giao tiếp với cơ sở dữ liệu (MySQL Workbench)

Buổi 2: Thực hành Thiết lập hệ quản trị cơ sở dữ liệu MySQL Server

- Thiết lập hệ quản trị CSDL MySQL trên máy tính cá nhân
- Thiết lập môi trường truy vấn Workbench
- Tạo cơ sở dữ liệu qua Copy and Paste
- Tạo cơ sở dữ liệu qua Import, Export
- Gõ các câu truy vấn SQL theo mẫu
- Đọc nội dung của một số câu truy vấn SQL

Buổi 3: Truy vấn dữ liệu cơ bản

- Khái niệm truy vấn dữ liệu
- Cấu trúc, ví dụ cụ thể cho từng câu lệnh
    - Select
    - Where và các điều kiện logic: AND, OR
    - Các hàm cơ bản trong MySQL
    - Các hàm tổng hợp dữ liệu trong MySQL: SUM(), COUNT()
    - GROUP BY, ORDER BY, HAVING, LIMIT

Buổi 4: Thực hành Truy vấn dữ liệu theo yêu cầu cơ bản

- Nhóm cấu trúc truy vấn
    - SELECT, SELECT DISTINCT, AS, ORDER BY, WHERE, LIMIT, GROUP BY, HAVING
- Nhóm toán tử logic
    - AND, OR, IN, BETWEEN, NULL
- Nhóm hàm toán học
    - SUM, COUNT

Buổi 5: Tìm hiểu cấu trúc của cơ sở dữ liệu

- Truy vấn các bảng hệ thống
- Các bảng, view của một CSDL
- Các cột của một bảng và tính chất các cột
- Đọc Diagram
- Quan hệ dữ liệu: 1-1; 1-n; n-n
- Khóa: Primary Key; Foreign Key
- Kiểu dữ liệu

Buổi 6: Truy vấn dữ liệu nâng cao

- Join: Khái niệm, phân biệt LEFT JOIN, INNER JOIN, RIGHT JOIN
- Union: Khái niệm, ví dụ
- View: Các kiểu view

Buổi 7: Thực hành Truy vấn dữ liệu theo yêu cầu nâng cao

- Tạo lược đồ quan hệ của cơ sở dữ liệu
- Đọc và phân tích được cơ sở dữ liệu từ lược đồ quan hệ
- Truy vấn các bảng của cơ sở dữ liệu

Buổi 8: Cập nhật dữ liệu

- Insert: Chèn 1 dòng hoặc nhiều dòng từ 1 bảng
- Delete: Xóa dòng, ý nghĩa mệnh đề WHERE
- Update: Cập nhật dữ liệu, ý nghĩa mệnh đề WHERE

Buổi 9: Các khái niệm cơ sở dữ liệu theo ngôn ngữ nghiệp vụ

- Xây dựng các cấu trúc
    - Table, View, các ràng buộc: Key (PK, UK)
    - Tối ưu qua Index
    - Procedure

Buổi 10: Xây dựng cơ sở dữ liệu và truy vấn cấu trúc hệ thống

- Truy vấn dữ liệu
- Join (LEFT JOIN, RIGHT JOIN, INNER JOIN), Union, View
- Tạo cấu trúc và thủ tục
- Table, View, Procedure

Buổi 11: Project I

- Dự án
    - Truy vấn từ cơ bản đến nâng cao để tìm hiểu cơ sở dữ liệu
    - Xây dựng cơ sở dữ liệu OLAP
    - Xây dựng dashboard trên OLTP (Excel hoặc Power BI)
    - Xây dựng dashboard trên OLAP

Buổi 12: Tổng kết Module 1

- Ôn tập
- Chia sẻ các nội dung chuyên sâu
- Hỏi đáp thắc mắc

Module 2: Tổng quan về kiến thức của Data Science

Buổi 13: Tổng quan về khoa học dữ liệu Data Science

- Tổng quan về lĩnh vực Khoa học Dữ liệu và tầm quan trọng của nó
- Các bài toán phổ biến và quan trọng trong lĩnh vực Khoa học Dữ liệu
- Python trong Data Science
- Tổng quan kiến thức cơ bản về Machine Learning cần thiết trong khóa học
- Giới thiệu và hướng dẫn cài đặt môi trường thực hành như Jupyter Notebook, Colab, v.v.

Module 3: Tổng hợp kiến thức Python cơ bản sử dụng trong Data Science

Buổi 14: Làm quen với Python cơ bản

- Cấu trúc chương trình Python
- Biến và các kiểu dữ liệu
- Input & print trong Python
- Áp dụng các kiểu dữ liệu nào trong thực tế?

Buổi 15: Cấu trúc điều khiển

- Các phép toán
- Biểu thức điều kiện
- Vòng lặp For, While
- Tự động hóa các tác vụ lặp đi lặp lại

Buổi 16: Hàm và Module

- Cách thức hoạt động của hàm
- Gọi hàm trong Python
- Biến cục bộ và biến toàn cục
- Hàm lambda

Buổi 17: Kiểu dữ liệu Lists và Tuples Kiểu dữ liệu Dictionaries và Sets

- Các thao tác trên List
    - Khởi tạo List
    - Truy cập phần tử trong List (truy cập bằng index, truy cập đầu cuối danh sách)
    - Thao tác trên List (thêm, xóa, thay đổi giá trị phần tử)
    - Cắt (slicing) List
    - Các phương thức List (sort(), reverse(), count(), index(), extend())
- Các thao tác trên Tuple
    - Cú pháp tạo Tuple bằng dấu ngoặc tròn ()
    - Truy cập phần tử trong Tuple
    - Thao tác với Tuple
    - Ứng dụng của Tuple
    - Tuple packing và unpacking
- Khởi tạo và thao tác trên Dictionaries và Sets
    - Ứng dụng của Dictionaries và Sets

Buổi 18: Hướng đối tượng trong Python

- Lớp và đối tượng
- Phương thức
- Package và import
- Thực hành: lớp và đối tượng

Buổi 19: Python for data analyst (Thư viện Pandas)

- Xử lý dữ liệu thiếu (Missing Data)
- Đối tượng Groupby
- Làm việc với DataFrame
- Chèn, xóa, sửa dòng và cột trong DataFrame
- Sắp xếp dữ liệu trong DataFrame

Buổi 20: Python for data visualization- Matplotlib & Seaborn

- Import thư viện
- Các biểu đồ cơ bản
- Lợi ích của Seaborn
- Biểu đồ trong Seaborn

Buổi 21: Nền tảng Đại số tuyến tính trong Khoa học Dữ liệu

- Đại diện dữ liệu
    - Scalar, Vector, Matrix, Tensor: Cách máy tính "nhìn" dataset và hình ảnh
    - Hàng (Sample) và Cột (Feature) trong không gian dữ liệu
- Độ đo & Khoảng cách
    - Dot Product & Cosine Similarity: Đo độ tương đồng giữa các vector (ứng dụng trong NLP, Recommendation)
    - Norms (L1, L2): Các cách đo khoảng cách và độ lớn của vector
- Ma trận & Biến đổi tuyến tính
    - Phép nhân ma trận (Matrix Multiplication): Bản chất là phép biến đổi, quay và co giãn không gian (nền tảng của Neural Networks)
    - Ma trận nghịch đảo & Định thức (Determinant)
- Phân rã ma trận (Dimensionality Reduction)
    - Eigenvalues & Eigenvectors: Tìm ra "trục chính" chứa thông tin quan trọng nhất của dữ liệu
    - PCA (Principal Component Analysis): Nguyên lý giảm chiều dữ liệu

Buổi 22: Project II

Sử dụng database trên kaggel dùng Python để xử lý dữ liệu ban đầu, phân tích và trực quan hóa dữ liệu

Module 4: Lý thuyết xác suất và thống kê ứng dụng cho phân tích dữ liệu thăm dò (Exploratory Data Analysis - EDA)

Buổi 23: Giới thiệu thống kê ứng dụng trong Khoa học Dữ liệu

- Khám phá vai trò của thống kê trong khoa học dữ liệu
- Phân biệt giữa thống kê mô tả và thống kê suy luận
- Sử dụng thống kê mô tả (Python) để
    - Tóm tắt nhanh dữ liệu
    - Đo lường trung tâm dữ liệu
    - Đo lường độ phân tán dữ liệu
    - Đo lường vị trí tương đối của dữ liệu

Buổi 24: Giới thiệu xác suất ứng dụng trong Khoa học Dữ liệu

- Học các quy tắc cơ bản để tính xác suất cho sự kiện đơn lẻ
- Khám phá cách sử dụng định lý Bayes để mô tả các sự kiện phức tạp
- Học cách sử dụng các phân phối xác suất (nhị thức, Poisson, chuẩn) để hiểu rõ cấu trúc dữ liệu

Buổi 25: Kỹ thuật lấy mẫu (Sampling) trong Khoa học Dữ liệu

- Học về các phương pháp thu thập và phân tích dữ liệu mẫu
- Tìm hiểu cách tránh sai lệch do chọn mẫu
- Học cách sử dụng phân phối mẫu để đưa ra ước lượng chính xác
- Sử dụng mẫu nhỏ để suy luận về tập dữ liệu lớn

Buổi 26: Khoảng tin cậy (Confidence Interval) và kiểm định giả thuyết (hypothesis testing)

- Khám phá cách sử dụng khoảng tin cậy để mô tả sự không chắc chắn trong ước lượng
- Học cách xây dựng và diễn giải khoảng tin cậy
- Tìm hiểu cách tránh các hiểu lầm phổ biến liên quan đến khoảng tin cậy
- Kiểm định giả thuyết giúp xác định tính ý nghĩa thống kê của kết quả so với ngẫu nhiên
- Học các bước cơ bản của một kiểm định giả thuyết
- Hiểu cách kiểm định giả thuyết giúp đưa ra kết luận có ý nghĩa về dữ liệu

Buổi 27: Áp dụng vô EDA và Trực Quan hóa dữ liệu và tạo báo cáo tự động

- Sử dụng Python để trực quan hóa dữ liệu
- Áp dụng kiến thức thống kê để đánh giá thêm về dữ liệu và mô hình trực quan hóa

Buổi 28: Project III

Ứng dụng xác suất thống kê vào qui trình phân tích dữ liệu thăm dò (EDA) và trực quan hóa cho các bộ dữ liệu thật từ doanh nghiệp.

Module 5: Cơ sở lý thuyết về các bài toán và mô hình phổ biến trong khoa học dữ liệu

Buổi 29: Bài toán hồi quy

- Tổng quan về bài toán Hồi quy và các ứng dụng thực tế của nó
- Giới thiệu các thuật toán Hồi quy phổ biến như Linear Regression, Logistic Regression,...
- Cách tiếp cận và xây dựng một mô hình Hồi quy trong các tình huống thực tế
- Các phương pháp để đánh giá hiệu suất và độ chính xác của một hệ thống Hồi quy
- Setup môi trường Google Colab
- Thực hành chạy một số đoạn Python code, Markdown cơ bản
- Load và xử lý dữ liệu cơ bản với pandas

Buổi 30: Bài toán phân lớp dữ liệu

- Tổng quan về bài toán Phân loại và các ứng dụng thực tế của nó
- Giới thiệu các thuật toán Phân loại phổ biến như Linear classifiers, Decision Tree, SVM,...
- Cách tiếp cận và xây dựng một mô hình phân loại trong các tình huống thực tế
- Các phương pháp để đánh giá hiệu suất và độ chính xác của một hệ thống phân loại
- Xây dựng các mô hình hồi quy bằng thư viện sklearn
- Đánh giá, so sánh độ chính xác của các mô hình hồi quy
- Tự thực hành
- Học viên tự áp dụng các kiến thức đã được hướng dẫn trên các bộ dữ liệu khác
- Học viên tự điều tra và thử nghiệm nhiều mô hình khác nhau và đưa ra đánh giá

Buổi 31: Thực hành về bài toán hồi quy và phân lớp

- Học viên thực hành áp dụng kiến thức đã học vào việc giải quyết một bộ dữ liệu mẫu trên nền tảng Kaggle
- Cung cấp cơ hội cho học viên đặt câu hỏi và nhận được sự giải đáp từ giảng viên hoặc các thành viên khác trong khóa học
- Tổng quan về bài tập lớn (Project) của khóa học, đưa ra mục tiêu, yêu cầu và quá trình thực hiện của dự án
- Xử lý dữ liệu, trích rút đặc trưng văn bản
- Xử lý bài toán phân loại sắc thái bình luận
- Tự thực hành
- Học viên tự áp dụng các kiến thức đã được hướng dẫn trên các bộ dữ liệu khác
- Học viên tự điều tra và thử nghiệm nhiều mô hình khác nhau và đưa ra đánh giá

Buổi 32: Bài toán phân cụm dữ liệu

- Giới thiệu bài toán phân cụm và giải thuật K-Means, một phương pháp phân cụm phổ biến trong Khoa học Dữ liệu
- Giới thiệu về khái niệm độ tương đồng trong phân cụm, là một phép đo để đánh giá sự tương đồng giữa các điểm dữ liệu
- Giới thiệu một số phương pháp mã hóa văn bản như Bag-of-Words, TF-IDF và Word Embedding để biểu diễn văn bản thành dữ liệu số hóa
- Hướng dẫn thực hành giải quyết bài toán truy xuất và phân cụm tài liệu, sử dụng các kỹ thuật và công cụ như K-Means và phương pháp mã hóa văn bản để xử lý và phân tích các tài liệu dựa trên nội dung của chúng
- Phân tích cách tiếp cận một bài toán hồi quy, phân loại khi gặp một bộ dữ liệu mới
- Tổng hợp các kiến thức học viên tự tìm hiểu ở 2 buổi trước
- Phân tích ưu nhược điểm của các phương pháp xử lý dữ liệu và các mô hình khác nhau

Buổi 33: Bài toán hệ gợi ý

- Giới thiệu về hệ thống gợi ý và vai trò của nó trong cung cấp thông tin và đề xuất cho người dùng
- Tổng quan về một số thuật toán phổ biến trong hệ thống gợi ý như Lọc cộng tác, Gợi ý dựa trên nội dung,...
- Cách tiếp cận và quy trình xây dựng một hệ thống gợi ý trong môi trường thực tế, từ việc thu thập dữ liệu đến xây dựng mô hình và triển khai
- Giới thiệu các phương pháp để đánh giá hiệu suất và độ chính xác của một hệ thống gợi ý
- Hướng dẫn thực hành xây dựng và đánh giá hệ thống gợi ý trên một bộ dữ liệu thực tế, áp dụng các thuật toán và phương pháp đã học vào thực tế
- Tìm hiểu phương pháp đánh giá độ tương đồng văn bản
- Xây dựng mô hình phân cụm K-Means phân cụm văn bản
- Đánh giá kết quả mô hình
- Tự thực hành
- Học viên tự áp dụng các kiến thức đã được hướng dẫn trên các bộ dữ liệu khác
- Học viên tự điều tra và thử nghiệm nhiều mô hình khác nhau và đưa ra đánh giá

Buổi 34: Khai phá luật kết hợp

- Giới thiệu về khái niệm và mục tiêu của khai phá luật kết hợp trong Khoa học Dữ liệu
- Các phương pháp và định dạng để biểu diễn luật kết hợp, bao gồm dạng tập hợp, dạng chuỗi và dạng cây
- Phương pháp khai thác và tìm kiếm các mẫu phổ biến từ dữ liệu như tìm tập hợp phổ biến, chuỗi phổ biến hoặc cây phổ biến
- Khám phá các luật kết hợp từ các mẫu phổ biến
- Phân tích tương quan giữa các mẫu hoặc thuộc tính dữ liệu để tìm hiểu sự tương quan và tương tác giữa chúng, đồng thời đưa ra các phân tích và nhận định về mối quan hệ
- Xử lý dữ liệu cho bài toán hệ gợi ý
- Xây dựng mô hình lọc cộng tác cho bài toán gợi ý phim
- Đánh giá kết quả gợi ý của mô hình
- Tự thực hành
- Học viên thử nghiệm phương pháp gợi ý dựa trên nội dung

Buổi 35: Thực hành về bài toán phân cụm, hệ gợi ý và khai phá luật kết hợp

- Học viên sẽ được thực hành áp dụng kiến thức về bài toán phân cụm, hệ gợi ý và khai phá luật kết hợp bằng cách giải quyết một bộ dữ liệu mẫu trên nền tảng Kaggle
- Cung cấp cơ hội cho học viên đặt câu hỏi và nhận được sự giải đáp từ giảng viên hoặc các thành viên khác trong khóa học
- Học viên sẽ được giới thiệu tổng quan về bài tập lớn (Project) của khóa học, bao gồm mục tiêu, yêu cầu và quy trình thực hiện của dự án
- Xử lý dữ liệu cho bài toán khai phá luật kết hợp
- Xây dựng mô hình luật kết hợp cho bài toán giỏ hàng
- Đánh giá kết quả của mô hình
- Tự thực hành
- Học viên thử nghiệm phương pháp khai phá luật kết hợp

Buổi 36: Học sâu và ứng dụng (pt1)

- Tổng quan về Học Sâu và các lĩnh vực ứng dụng trong Khoa học Dữ liệu
- Giới thiệu về xử lý và phân tích hình ảnh thông qua công nghệ thị giác máy tính và các ứng dụng trong thực tế
- Giới thiệu về xử lý ngôn ngữ tự nhiên và các phương pháp, công cụ để xử lý, phân tích và hiểu văn bản tự nhiên
- Phân tích cách tiếp cận một bài toán hồi quy, phân loại khi gặp một bộ dữ liệu mới
- Tổng hợp các kiến thức học viên tự tìm hiểu ở 3 buổi trước
- Phân tích ưu nhược điểm của các phương pháp xử lý dữ liệu và các mô hình khác nhau

Buổi 37: Học sâu và ứng dụng (pt2)

- Mối liên hệ giữa trọng số và các nodes trong hidden layers
- Hàm mất mát và điều chỉnh trọng số
- Thuật toán Gradient Descent
- Thuật toán Stochastic Gradient Descent
- Thuật toán Mini-batch Gradient Descent
- Thực hiện các thay đổi thông số khác nhau trên mô hình hồi quy hoặc phân lớp dùng ANN đã xây dựng từ buổi trước để hiểu rõ hơn về Gradient Descent và Loss

Buổi 38: Deep Learning và Các kỹ thuật Nâng cao trong hệ gợi ý

- Mạng nơ-ron trong gợi ý (Neural Collaborative Filtering): Cách sử dụng Deep Learning để học các tương tác phi tuyến tính giữa người dùng và sản phẩm thay vì chỉ dùng tích vô hướng
- Hệ thống gợi ý lai (Hybrid Systems): Kỹ thuật kết hợp giữa Content-based và Collaborative Filtering để khắc phục nhược điểm của từng loại (ví dụ: mô hình Wide & Deep của Google)
- Word/Item Embeddings: Ứng dụng Word2Vec hoặc Item2Vec để biểu diễn sản phẩm dưới dạng vector, giúp tìm kiếm sự tương đồng chính xác hơn
- Gợi ý theo phiên (Session-based Recommendation): Sử dụng RNN hoặc LSTM để dự đoán hành vi người dùng dựa trên chuỗi hành động ngắn hạn (ví dụ: vừa xem giày, vừa xem tất → gợi ý dây giày) thay vì lịch sử dài hạn
- Xây dựng Item2Vec (Embeddings)
- Xây dựng mô hình Neural Collaborative Filtering (NCF) - Trọng tâm
- Demo hệ thống gợi ý theo phiên (Session-based RecSys) với RNN/LSTM

Buổi 39: Project IV

- Học viên sẽ được thực hành áp dụng kiến thức về mô hình học sâu bằng cách giải quyết một bộ dữ liệu mẫu trên nền tảng Kaggle
- Xây dựng mô hình học sâu và các thành phần cơ bản
- Học cách huấn luyện một mô hình học sâu
- Tổng kết Module 4 về lý thuyết
- Hỏi đáp về Mini-Project

Module 6: Phân tích chuỗi thời gian (Time Series Data) và dự đoán

Buổi 40: Tổng quan về dữ liệu chuổi thời gian

- Định nghĩa Time Series: Phân biệt với dữ liệu Cross-sectional
- Các đặc trưng cốt lõi: Trend (Xu hướng), Seasonality (Mùa vụ), Cyclical (Chu kỳ), Noise (Nhiễu)
- Khái niệm Stationarity (Tính dừng): Tại sao chuỗi thời gian cần phải "dừng" để dự báo? Kiểm định Dickey-Fuller (ADF test)
- Thư viện Pandas: pd.to_datetime, set index là ngày tháng
- Resampling (gom nhóm dữ liệu): Chuyển dữ liệu theo giờ thành ngày/tháng (.resample())
- Xử lý dữ liệu thiếu (Missing values): Forward fill, Backward fill, Interpolation
- Vẽ biểu đồ cơ bản để nhìn ra Trend/Seasonality

Buổi 41: Phân tích & Làm mịn - Holt Winters (EDA & Smoothing Techniques)

- Time Series Decomposition: Mô hình Cộng (Additive) vs Mô hình Nhân (Multiplicative)
- Tự tương quan (ACF) và Tự tương quan riêng phần (PACF): Công cụ để tìm quy luật trễ (lags)
- Các kỹ thuật làm mịn: Simple Moving Average (SMA), Exponential Smoothing (ETS), Holt-Winters
- Sử dụng seasonal_decompose để tách Trend, Seasonality, Residual
- Vẽ và đọc biểu đồ ACF/PACF (bước đệm quan trọng cho ARIMA)
- Thực hành làm mượt dữ liệu chứng khoán hoặc doanh số bán hàng để thấy xu hướng rõ hơn

Buổi 42: Mô hình Thống kê Cổ điển (Classical Models: ARIMA/SARIMA)

- Giới thiệu AR (AutoRegressive), MA (Moving Average) và I (Integrated - sai phân)
- ARIMA (p, d, q): Ý nghĩa từng tham số và cách chọn dựa trên ACF/PACF
- SARIMA: Mở rộng cho dữ liệu có tính mùa vụ (ví dụ: doanh số tăng vào cuối tuần)
- Sử dụng thư viện statsmodels
- Quy trình chuẩn: Kiểm tra tính dừng → Sai phân → Tìm p, q → Fit mô hình
- Auto-ARIMA (thư viện pmdarima): Tự động tìm tham số tối ưu (cách làm thực tế)
- Phân tích phần dư (Residual analysis): Kiểm tra độ tin cậy của mô hình

Buổi 43: Các phương pháp hiện đại (Prophet & Machine Learning)

- Hạn chế của ARIMA (khó bắt quy luật phi tuyến tính, khó thêm ngày lễ tết)
- Giới thiệu Facebook Prophet: Dễ dùng, xử lý tốt outliers và dữ liệu thiếu
- Tư duy Supervised Learning cho Time Series: Phương pháp Sliding Window (Cửa sổ trượt) - Bước chuẩn bị quan trọng để hiểu Input của LSTM ở buổi sau
- Cài đặt và chạy Prophet: Thêm holidays (ngày lễ) vào mô hình dự báo
- Feature Engineering: Tạo các cột lag_1, lag_7, rolling_mean
- Thử nghiệm chạy Random Forest hoặc XGBoost để thấy sự khác biệt với ARIMA

Buổi 44: Deep Learning (RNN/LSTM)

- Lý thuyết: Từ Thống kê đến Deep Learning
- Metrics đánh giá: MAE, RMSE, MAPE (Khi nào dùng cái nào?)
- Backtesting: Tại sao train_test_split ngẫu nhiên là sai lầm trong Time Series? Giới thiệu TimeSeriesSplit
- Giới thiệu Deep Learning cho chuỗi thời gian
- RNN (Recurrent Neural Networks): Tại sao cần "bộ nhớ" (Memory) thay vì chỉ học độc lập như Regression?
- Vấn đề của RNN: "Trí nhớ ngắn hạn" (Vanishing Gradient)
- LSTM (Long Short-Term Memory) & GRU: Giải thích nôm na về cơ chế "Cổng" (Gate) giúp mô hình nhớ được quy luật dài hạn và quên đi nhiễu
- Demo LSTM
- Chạy một mô hình LSTM đơn giản bằng thư viện Keras/TensorFlow trên cùng bộ dữ liệu của Buổi 3/4
- Cho học viên thấy sự khác biệt về cách chuẩn bị dữ liệu (Data Scaling về [0,1] là bắt buộc với LSTM, trong khi ARIMA thì không cần)

Module 7: Hướng dẫn thực hiện mini-project về khoa học dữ liệu

Buổi 45: Phân tích bài toán và dữ liệu

- Hướng dẫn về cách tiếp cận và phân tích một bài toán trong Khoa học Dữ liệu, bao gồm việc định nghĩa mục tiêu, thu thập dữ liệu, đặt câu hỏi và tạo ra giả thuyết để đưa ra các phương pháp phân tích
- Hướng dẫn về việc xác định và thu thập dữ liệu phù hợp cho bài toán, bao gồm các nguồn dữ liệu, phương pháp thu thập và quy trình xử lý dữ liệu
- Hướng dẫn về quy trình khai phá dữ liệu (EDA) để hiểu cấu trúc và tính chất của dữ liệu. Bên cạnh đó, cung cấp hướng dẫn về các phương pháp biểu diễn trực quan dữ liệu như biểu đồ, đồ thị hoặc bản đồ để hỗ trợ quá trình khai phá và hiểu rõ hơn về dữ liệu
- Sử dụng thư viện pandas, matplotlib để khai phá dữ liệu và biểu diễn trực quan dữ liệu đầu vào, đầu ra
- Thực hành các hàm biểu diễn dữ liệu có trong thư viện
- Tự thực hành
- Học viên thử nghiệm với các bộ dữ liệu khác nhau

Buổi 46: Tiền xử lý dữ liệu

- Hướng dẫn về các phương pháp tiếp cận dữ liệu, bao gồm tiền xử lý, lọc dữ liệu và trích xuất đặc trưng. Điều này bao gồm các kỹ thuật như xử lý dữ liệu thiếu, giải quyết nhiễu, trích xuất thông tin quan trọng và giảm chiều dữ liệu
- Hướng dẫn về cách khai thác thông tin từ các trường dữ liệu có sẵn và tạo ra các trường dữ liệu mới dựa trên kiến thức và hiểu biết về bài toán. Điều này có thể bao gồm việc kết hợp, biến đổi hoặc áp dụng các quy tắc và hàm tính toán để tạo ra thông tin mới từ dữ liệu hiện có
- Hướng dẫn về việc mã hóa và chuẩn hóa dữ liệu để đảm bảo tính nhất quán và khả năng so sánh giữa các đặc trưng. Bao gồm các phương pháp như mã hóa one-hot, mã hóa số hóa, chuẩn hóa z-score và chuẩn hóa min-max để biến đổi và điều chỉnh các giá trị dữ liệu thành dạng phù hợp và thống nhất
- Sử dụng thư viện pandas, numpy thực hiện các phương pháp mã hóa dữ liệu như Label Encoder, One-Hot Encoder,...
- Thực hành các phương pháp chuẩn hóa dữ liệu
- Tự thực hành
- Học viên thử nghiệm với các bộ dữ liệu khác nhau

Buổi 47: Xây dựng mô hình

- Hướng dẫn về quá trình phân tích bài toán và lựa chọn mô hình phù hợp dựa trên yêu cầu và đặc điểm của dữ liệu. Bao gồm việc tìm hiểu và so sánh các mô hình khác nhau, đánh giá khả năng của chúng trong việc giải quyết bài toán cụ thể
- Hướng dẫn về quá trình xây dựng mô hình, bao gồm việc định nghĩa kiến trúc mô hình, khởi tạo các tham số và quyết định các thông số quan trọng như learning rate, số lượng layer, kích thước batch, v.v.
- Hướng dẫn về quá trình huấn luyện mô hình base, bao gồm việc chuẩn bị dữ liệu huấn luyện, chia thành batch, tạo bộ kiểm tra, lựa chọn hàm mất mát và phương pháp tối ưu hóa, đánh giá và tinh chỉnh mô hình dựa trên kết quả huấn luyện
- Xây dựng các mô hình phù hợp cho bài toán
- Huấn luyện mô hình bằng thư viện sklearn

Buổi 48: Xây dựng mô hình

- Giới thiệu tổng quan về các tham số của mô hình và các tham số được sử dụng trong quá trình huấn luyện, bao gồm các thông số kiến trúc như số lượng layer, số lượng units trong mỗi layer, hệ số dropout, v.v. Các tham số huấn luyện bao gồm learning rate, số lượng epoch, kích thước batch, v.v.
- Hướng dẫn về cách tối ưu các tham số của mô hình trong quá trình huấn luyện. Điều này có thể bao gồm việc sử dụng phương pháp tìm kiếm lưới (Grid Search) để thử nghiệm các giá trị khác nhau cho các tham số, sử dụng kỹ thuật tinh chỉnh tự động (Automated Tuning) như tối ưu Bayes (Bayesian Optimization), hoặc sử dụng phương pháp tinh chỉnh thông qua việc giảm thiểu hàm mất mát (Loss Function Minimization)
- Thay đổi tham số, thử nghiệm tối ưu các tham số
- Huấn luyện mô hình với các bộ tham số khác nhau
- Sử dụng GridSearch để tìm ra bộ tham số tốt nhất

Buổi 49: Đánh giá mô hình

- Phân tích lỗi mô hình: Sử dụng hàm lỗi và quan sát thực tế để hiểu các hạn chế và điểm yếu của mô hình
- Đánh giá mô hình và lựa chọn mô hình tốt nhất: Sử dụng các phương pháp như cross-validation, độ đo hiệu suất và so sánh mô hình để lựa chọn mô hình tốt nhất cho áp dụng thực tế
- Phân tích kết quả huấn luyện các mô hình đã huấn luyện ở các buổi trước, đưa ra phán đoán nhằm cải thiện chất lượng

Buổi 50: Triển khai mô hình

- Triển khai mô hình bằng cách xây dựng các API hoặc dịch vụ để cung cấp chức năng dự đoán cho người dùng hoặc hệ thống khác
- Xây dựng một quy trình tự động hoàn chỉnh để xử lý dữ liệu, huấn luyện mô hình và triển khai mô hình trong môi trường thực tế. Quy trình này bao gồm các bước từ chuẩn bị dữ liệu, tiền xử lý, huấn luyện mô hình, đánh giá, triển khai và cập nhật mô hình
- Sử dụng thư viện FastAPI để xây dựng API, triển khai mô hình
- Sử dụng MLflow để xây dựng pipeline cho toàn bộ quá trình
- Sử dụng Streamlit để xây dựng web POC cho mô hình
- Tự thực hành
- Học viên thử nghiệm với các loại mô hình khác nhau

Buổi 51: Project V

- Tổng kết và củng cố kiến thức đã học trong module thực hành, bao gồm các phương pháp, công cụ và kỹ năng đã được áp dụng để giải quyết các bài toán thực tế
- Các hướng giải quyết khác có thể áp dụng để đạt được kết quả tốt hơn, khám phá và nghiên cứu thêm về các phương pháp mới và tiến bộ trong lĩnh vực khoa học dữ liệu
- Một số vấn đề cần chú ý khi áp dụng vào hệ thống dữ liệu lớn trong thực tiễn doanh nghiệp bao gồm quy mô, tính khả thi, hiệu suất, bảo mật và tính ổn định của hệ thống và các yếu tố khác như quản lý dữ liệu, quản lý tài nguyên và tương tác với các thành phần khác trong hệ thống
- Học viên đặt câu hỏi, chia sẻ kinh nghiệm và thảo luận về project

Buổi 52: Tổng kết khóa học

- Tổng hợp và phân tích kiến thức đã học: Tổng kết và đánh giá lại các khái niệm, kỹ năng và công nghệ đã học trong suốt khóa học
- Đánh giá tiến độ và kết quả học tập: Xem xét và đánh giá tiến bộ cá nhân và kết quả học tập của mỗi học viên để đảm bảo họ đã đáp ứng được các mục tiêu và yêu cầu của khóa học
- Thảo luận về ứng dụng thực tế: Trao đổi về cách áp dụng kiến thức đã học vào thực tế và giải quyết các vấn đề trong lĩnh vực tương ứng
- Phân tích và đánh giá project: Đánh giá và phân tích kết quả của các dự án đã thực hiện bởi các nhóm học viên, bao gồm sự đóng góp, hiệu suất và tính khả thi của các giải pháp
- Tổng kết và phản hồi: Tổng kết khóa học bằng cách cung cấp phản hồi về nội dung, phương pháp giảng dạy và trải nghiệm học tập nhằm cải thiện chất lượng của khóa học trong tương lai

Module 8: Mlops

Buổi 53: Tinh chỉnh siêu tham số - Theo dõi Thử nghiệm & Quản lý Mô hình

- Lý thuyết
    - Khái niệm hyperparameter và sự khác biệt giữa hyperparameter và model parameter; ảnh hưởng của chúng đến độ chính xác và khả năng tổng quát của mô hình
    - Các phương pháp tinh chỉnh siêu tham số: Grid Search, Random Search, Bayesian Optimization; khi nào nên dùng mỗi phương pháp
    - Quản lý version của mô hình và thí nghiệm: tại sao việc theo dõi lịch sử huấn luyện là bắt buộc trong môi trường thực tế
- Kết quả
    - Các thử nghiệm huấn luyện được ghi lại có hệ thống, dễ so sánh và truy xuất
    - Xác định và đăng ký được mô hình tốt nhất dựa trên metric đã chọn
    - Học viên hiểu và áp dụng được quy trình quản lý vòng đời mô hình (Model Lifecycle)
Thực hành:
- Áp dụng các kỹ thuật tinh chỉnh hyperparameter cho một mô hình ML cụ thể (ví dụ: Random Forest hoặc XGBoost)
- Sử dụng MLflow để log hyperparameters, metrics, artifacts (model, confusion matrix, file kết quả)
- Đăng ký (register) nhiều phiên bản mô hình và so sánh hiệu suất giữa các lần thử nghiệm

Buổi 54: Tự động hoá quá trình đào tạo mô hình với Airflow

- Lý thuyết
    - Vì sao không nên huấn luyện mô hình thủ công và vai trò của workflow orchestration trong ML
    - Cách chuyển Jupyter Notebook sang Python Script theo chuẩn production
    - Giới thiệu Airflow, DAG, Task, Operator và các best practices khi thiết kế pipeline
- Kết quả
    - Một pipeline tự động huấn luyện mô hình theo lịch (ví dụ: chạy hàng ngày)
    - Quy trình huấn luyện ổn định, có thể mở rộng và dễ bảo trì
    - Học viên hiểu cách tích hợp ML vào hệ thống vận hành thực tế

Thực hành:
- Refactor notebook huấn luyện mô hình thành Python script có thể tái sử dụng
- Xây dựng một Airflow DAG gồm các bước: load data → train model → evaluate → lưu model
- Chạy và theo dõi pipeline huấn luyện mô hình trực tiếp trên Airflow UI

Buổi 55: Phục vụ mô hình dưới dạng API và API testing

- Lý thuyết
    - Khái niệm Model Serving và vai trò của API trong hệ thống ML/AI
    - Cách tổ chức Python project cho inference (load model, preprocess, predict)
    - Giới thiệu FastAPI, request/response schema và các nguyên tắc thiết kế API cho ML
- Kết quả
    - Một API web cục bộ có thể phục vụ dự đoán từ mô hình đã huấn luyện
    - Mô hình sẵn sàng để tích hợp vào các hệ thống khác (web, mobile, backend)
    - Học viên hiểu quy trình triển khai inference chuẩn production

- Chuyển notebook inference thành Python module rõ ràng, tách biệt logic
- Xây dựng FastAPI server để load mô hình và nhận input dự đoán
- Gửi request từ client (curl/Postman/Python) và nhận kết quả dự đoán
- Cách viết test đảm bảo API hoạt động đúng như mong muốn

Buổi 56: Đóng gói với Docker và Docker-compose

- Lý thuyết
    - Docker là gì và vì sao Docker là tiêu chuẩn trong triển khai ML
    - Cấu trúc của Docker image, Dockerfile và container lifecycle
    - Khái niệm portability: “build một lần – chạy ở mọi nơi”
- Kết quả
    - Một Docker container độc lập, có thể chạy ML service mà không phụ thuộc môi trường
    - Service ML dễ dàng chia sẻ, triển khai và mở rộng
    - Học viên nắm được kỹ năng đóng gói ML application theo chuẩn công nghiệp

Thực hành:
- Viết Dockerfile cho FastAPI service đã xây dựng ở buổi trước
- Build Docker image và chạy container trên môi trường local
- Kiểm tra API hoạt động bình thường khi chạy trong container

Buổi 57: Code versioning và CI/CD

- Lý thuyết
    - Sự khác biệt giữa code versioning trong ML và trong software truyền thống
    - Khái niệm reproducibility và mối quan hệ giữa code, data và model
    - Git workflow phổ biến cho dự án Machine Learning
    - Vai trò của CI/CD trong việc đảm bảo chất lượng hệ thống ML
- Kết quả
    - Repository ML có cấu trúc rõ ràng và sẵn sàng cho production
    - CI pipeline tự động kiểm tra chất lượng code và inference service

Thực hành:
- Tự động chạy test trên Github
- Tự động build docker image bằng Github
- Tự động public image đã built lên Dockerhub sau khi được review và merge

Buổi 58: Triển khai Lên Cloud Lần đầu

- Lý thuyết
    - Cloud deployment là gì và sự khác biệt giữa local, on-premise và cloud
    - Tổng quan các cloud services phổ biến (VM, container service, managed services)
    - Các khái niệm cơ bản: public endpoint, security group, environment variable
- Kết quả
    - Mô hình ML được triển khai thành công trên cloud
    - API có thể truy cập từ bất kỳ đâu qua internet
    - Học viên hoàn thành vòng đời triển khai ML từ local - cloud

Thực hành:
- Chọn một nền tảng cloud và triển khai Docker image của ML service
- Cấu hình port, environment variables và expose API ra internet
- Kiểm tra và gọi API thông qua URL công khai

Buổi 59: Giới thiệu về Giám sát Mô hình

- Lý thuyết
    - Tại sao cần giám sát mô hình sau khi triển khai (data drift, model degradation)
    - Các loại metrics trong production: latency, error rate, prediction distribution
    - Logging và monitoring khác gì so với evaluation trong quá trình huấn luyện
- Kết quả
    - API được nâng cấp để ghi lại dự đoán và hành vi người dùng
    - Dashboard hiển thị các chỉ số hiệu suất theo thời gian
    - Học viên hiểu cách vận hành và giám sát mô hình ML trong môi trường production

Thực hành:
- Tích hợp loguru để ghi log request, response và kết quả dự đoán
- Thu thập metrics và hiển thị bằng Grafana, EvidentlyAI
- Phân tích log và metrics để phát hiện dấu hiệu suy giảm chất lượng mô hình

Buổi 60: Giới thiệu các công cụ MLOps trong môi trường doanh nghiệp

- Lý thuyết
    - Tổng quan vòng đời MLOps và vai trò của từng nhóm công cụ
    - Quản lý phiên bản dữ liệu và mô hình với DVC
    - Giới thiệu Kubeflow và các thành phần chính trong ML platform trên Kubernetes
    - Khái niệm AutoML và managed ML services trên cloud
- Kết quả
    - Học viên hiểu vai trò và phạm vi áp dụng của các công cụ MLOps phổ biến
    - Học viên hình thành tư duy lựa chọn nền tảng MLOps phù hợp với quy mô và yêu cầu hệ thống

Thực hành:
- Minh hoạ workflow quản lý dữ liệu và mô hình với DVC
- Phân tích kiến trúc một pipeline ML sử dụng Kubeflow
- So sánh use case giữa tự xây dựng pipeline và sử dụng AutoML
- Thảo luận lựa chọn công cụ MLOps theo từng bối cảnh doanh nghiệp

Khóa Học Data Science & Machine Learning Advance 2026

Lợi ích khóa học

Mục tiêu học tập

Đối tượng học tập

Chuẩn đầu ra

Lộ trình học tập

Giảng viên

Dự án học viên

Feedback học viên