Hình 1: Sự giao thoa giữa Giải tích, Đại số tuyến tính và Mô hình hóa dữ liệu.
Hướng dẫn xây dựng mô hình hồi quy (Regression) từ nguyên lý Toán học cơ bản
Mục lục nội dung
Trong kỷ nguyên AI hiện nay, việc sử dụng các thư viện như Scikit-learn hay TensorFlow để xây dựng mô hình hồi quy là vô cùng dễ dàng. Tuy nhiên, đối với một kỹ sư dữ liệu hoặc sinh viên chuyên ngành Công nghệ thông tin, việc hiểu rõ "What happens under the hood?" (Điều gì xảy ra bên dưới lớp vỏ?) là yếu tố phân biệt giữa một người thợ code và một chuyên gia thực thụ.
Hồi quy (Regression) không chỉ đơn thuần là vẽ một đường thẳng đi qua các điểm dữ liệu. Đó là một quá trình tối ưu hóa toán học dựa trên các nguyên lý về xác suất và giải tích đa biến nhằm tìm ra mối quan hệ định lượng giữa các biến số.
1. Nền tảng Toán học: Từ Hàm số đến Sai số
Mô hình hồi quy tuyến tính đơn giản nhất có dạng:
Trong đó, w (weight) là trọng số và b (bias) là sai số hệ thống. Mục tiêu của chúng ta là tìm bộ tham số (w, b) sao cho hàm dự báo tiệm cận gần nhất với giá trị thực tế.
Hình 2: Đồ thị hàm mất mát dạng Parabol - mục tiêu là tìm điểm cực tiểu của hàm số này.
Tại sao lại dùng bình phương? Việc bình phương giúp loại bỏ giá trị âm và đặc biệt là tạo ra một hàm lồi (convex function), giúp việc đạo hàm để tìm cực trị trở nên khả thi và duy nhất.
2. Tối ưu hóa bằng Gradient Descent
Làm thế nào để máy tính tự tìm được w và b tối ưu? Câu trả lời nằm ở Gradient Descent (Sự giảm cấp của độ dốc). Hãy tưởng tượng bạn đang ở trên đỉnh một thung lũng và muốn đi xuống đáy nhanh nhất, bạn sẽ nhìn quanh để xem hướng nào dốc nhất và bước một bước về phía đó.
Về mặt toán học, chúng ta tính đạo hàm riêng của hàm mất mát L theo từng tham số:
- ∂L/∂w: Cho biết mức độ thay đổi của lỗi khi thay đổi w.
- ∂L/∂b: Cho biết mức độ thay đổi của lỗi khi thay đổi b.
Learning Rate (Tốc độ học) là một siêu tham số cực kỳ quan trọng. Nếu chọn quá lớn, mô hình sẽ nhảy qua điểm cực tiểu. Nếu quá nhỏ, mô hình sẽ mất rất nhiều thời gian để hội tụ.
3. Triển khai mô hình "From Scratch"
Dưới đây là cấu trúc logic của một lớp Linear Regression được xây dựng từ đầu bằng Python, tuân thủ theo đúng các nguyên lý toán học nêu trên.
Hình 3: Quá trình hội tụ của đường hồi quy qua từng epoch huấn luyện.
4. Đánh giá và Hiệu chỉnh mô hình
Sau khi huấn luyện, chúng ta không thể chỉ tin vào mắt thường. Cần có các chỉ số định lượng để đánh giá hiệu suất:
- R-squared (Hệ số xác định): Cho biết bao nhiêu phần trăm sự biến thiên của biến phụ thuộc được giải thích bởi biến độc lập. (0.0 đến 1.0)
- MAE (Mean Absolute Error): Trung bình sai số tuyệt đối, dễ hiểu vì cùng đơn vị với biến y.
- RMSE (Root Mean Squared Error): Phạt nặng các sai số lớn, phù hợp cho các bài toán cần độ chính xác cao.
Trong môi trường giảng dạy đại học, tôi luôn nhấn mạnh rằng: "Một mô hình tốt không phải là mô hình khớp 100% với dữ liệu cũ (Overfitting), mà là mô hình hoạt động ổn định trên dữ liệu mới."
Kết luận
Việc hiểu sâu về toán học đằng sau các mô hình Machine Learning giúp bạn có khả năng gỡ lỗi (debug) tốt hơn, tùy chỉnh thuật toán linh hoạt và quan trọng nhất là hiểu được giới hạn của mô hình. Hồi quy là bước đệm quan trọng để tiến tới Deep Learning và các kiến trúc mạng Neural phức tạp hơn.
