Khái niệm về Data Mining – Tổng quan 2026

Khái niệm về Data Mining – Tổng quan 2026

Các khái niệm và kỹ thuật cốt lõi trong lĩnh vực khai thác dữ liệu dựa trên nội dung từ giáo trình “Data Mining: Concepts and Techniques” (Tái bản lần thứ ba) của các tác giả Jiawei Han, Micheline Kamber và Jian Pei. Trong kỷ nguyên dữ liệu bùng nổ hiện nay, khai thác dữ liệu đóng vai trò là bước tiến hóa tất yếu của công nghệ thông tin, giúp chuyển đổi các “nghĩa địa dữ liệu” khổng lồ thành “những thỏi vàng” tri thức hữu ích. Quy trình này, còn được gọi là Khám phá tri thức từ dữ liệu (KDD), là một lĩnh vực đa ngành kết hợp giữa thống kê, học máy, hệ thống cơ sở dữ liệu và trực quan hóa. Tài liệu sẽ đi sâu vào các loại dữ liệu, các nhiệm vụ khai thác chính, phương pháp thấu hiểu dữ liệu và những thách thức lớn mà ngành này đang đối mặt.

1. Sự cần thiết và Sự tiến hóa của Khai thác dữ liệu

1.1. Từ Kỷ nguyên Dữ liệu đến Kỷ nguyên Thông tin

Chúng ta đang sống trong một thế giới nơi dữ liệu được thu thập hàng ngày với quy mô terabyte và petabyte từ mọi lĩnh vực: giao dịch kinh doanh, nghiên cứu khoa học, viễn thông, y tế và mạng xã hội. Tuy nhiên, sự dồi dào về dữ liệu lại dẫn đến tình trạng “giàu dữ liệu nhưng nghèo thông tin”. Khai thác dữ liệu ra đời như một nhu cầu cấp thiết để tự động tìm kiếm những tri thức tiềm ẩn, giúp hỗ trợ đưa ra các quyết định quan trọng thay vì chỉ dựa vào trực giác.

1.2. Sự tiến hóa của Công nghệ Thông tin

Khai thác dữ liệu được coi là kết quả của sự tiến hóa tự nhiên trong công nghệ cơ sở dữ liệu:
  • Thập kỷ 1960 và trước đó: Thu thập dữ liệu và xử lý tệp tin sơ khai.
  • Thập kỷ 1970 – đầu 1980: Hệ quản trị cơ sở dữ liệu (DBMS), mô hình quan hệ, ngôn ngữ SQL, xử lý giao dịch trực tuyến (OLTP).
  • Giữa thập kỷ 1980 – nay: Các hệ cơ sở dữ liệu nâng cao (hướng đối tượng, thời gian, không gian, dòng dữ liệu).
  • Cuối thập kỷ 1980 – nay: Kho dữ liệu (Data Warehouse), OLAP và khai thác dữ liệu.

2. Quy trình Khám phá Tri thức từ Dữ liệu (KDD)

Khai thác dữ liệu là một bước thiết yếu trong quy trình KDD, bao gồm các giai đoạn lặp lại sau:
  • Làm sạch dữ liệu (Data Cleaning): Loại bỏ nhiễu và dữ liệu không nhất quán.
  • Tích hợp dữ liệu (Data Integration): Kết hợp nhiều nguồn dữ liệu khác nhau.
  • Lựa chọn dữ liệu (Data Selection): Truy xuất các dữ liệu liên quan đến nhiệm vụ phân tích.
  • Chuyển đổi dữ liệu (Data Transformation): Tổng hợp và chuẩn hóa dữ liệu về dạng phù hợp để khai thác.
  • Khai thác dữ liệu (Data Mining): Áp dụng các phương pháp thông minh để trích xuất các mẫu dữ liệu.
  • Đánh giá mẫu (Pattern Evaluation): Xác định các mẫu thực sự thú vị dựa trên các thước đo độ tin cậy.
  • Trình diễn tri thức (Knowledge Presentation): Sử dụng các kỹ thuật trực quan hóa để trình bày tri thức cho người dùng.

Làm thế nào để xác định một mẫu dữ liệu thú vị?

Một mẫu (pattern) dữ liệu được coi là thú vị và thực sự đại diện cho tri thức nếu nó thỏa mãn các tiêu chí cơ bản sau đây:

  • Dễ hiểu đối với con người.
  • Hợp lệ (valid) trên dữ liệu mới hoặc dữ liệu kiểm tra với một mức độ chắc chắn nhất định.
  • Có tiềm năng hữu ích (ví dụ: thông tin có thể hành động được).
  • Mới lạ (novel).

Bên cạnh đó, một mẫu cũng có thể được xem là thú vị nếu nó giúp xác nhận một giả thuyết hoặc một linh cảm mà người dùng đang muốn kiểm chứng.

Hệ thống khai phá dữ liệu có thể sinh ra hàng ngàn, thậm chí hàng triệu mẫu, do đó để xác định chính xác những mẫu thú vị, người ta phải dựa vào hai loại thước đo chính: thước đo khách quan và thước đo chủ quan.

  1. Thước đo khách quan (Objective measures): Loại thước đo này đánh giá dựa trên cấu trúc của các mẫu và các số liệu thống kê cơ sở của chúng.
      • Đối với các luật kết hợp: Hai thước đo khách quan phổ biến nhất là độ hỗ trợ (support) (tỷ lệ phần trăm các giao dịch trong cơ sở dữ liệu thỏa mãn mẫu đó) và độ tin cậy (confidence) (mức độ chắc chắn của sự liên kết được phát hiện). Các thước đo này thường đi kèm với các ngưỡng tối thiểu do người dùng kiểm soát; các mẫu nằm dưới ngưỡng thường bị coi là không thú vị vì chúng có khả năng chỉ là nhiễu, ngoại lệ hoặc các trường hợp thiểu số ít có giá trị.
      • Đối với các luật phân loại (như IF-THEN): Các thước đo khách quan bao gồm độ chính xác (accuracy) (tỷ lệ phần trăm dữ liệu được phân loại đúng bởi luật) và độ phủ (coverage) (tỷ lệ phần trăm dữ liệu mà luật áp dụng được).
      • Ngoài ra, tiêu chí “dễ hiểu” có thể được đo lường khách quan bằng cách đánh giá độ phức tạp hoặc chiều dài (tính bằng bit) của mẫu.
  1. Thước đo chủ quan (Subjective measures): Các thước đo khách quan thường chưa đủ hiệu quả nếu thiếu đi các thước đo chủ quan, bởi nhiều mẫu vượt qua ngưỡng khách quan nhưng thực chất chỉ phản ánh những kiến thức thông thường. Thước đo chủ quan được xây dựng dựa trên niềm tin, sở thích và nhu cầu cụ thể của từng người dùng. Một mẫu được đánh giá là thú vị về mặt chủ quan nếu nó:
      • Bất ngờ (unexpected): Mẫu phát hiện ra đi ngược lại hoặc mâu thuẫn với các niềm tin hiện tại của người dùng.
      • Có thể hành động (actionable): Mẫu cung cấp những thông tin mang tính chiến lược để người dùng có thể dựa vào đó đưa ra hành động (ví dụ: mô hình động đất liên tiếp giúp cứu người).

Các thước đo thú vị này có thể được sử dụng sau bước khai phá dữ liệu để lọc và xếp hạng các mẫu. Tuy nhiên, để hệ thống đạt hiệu suất cao, chúng thường được áp dụng trực tiếp trong quá trình khai phá dữ liệu nhằm hướng dẫn thuật toán, thu hẹp không gian tìm kiếm và loại bỏ sớm các mẫu không thỏa mãn ràng buộc.

Ví dụ về một mẫu dữ liệu bất ngờ và có thể hành động.

  • Một ví dụ tiêu biểu về mẫu dữ liệu bất ngờ và có thể hành động (actionable) là khám phá: “một trận động đất lớn thường xảy ra sau một cụm các trận động đất nhỏ”. Mẫu này được đánh giá là thú vị vì nó không chỉ cung cấp thông tin có thể đi ngược lại với những niềm tin hiện tại (bất ngờ) mà còn mang ý nghĩa chiến lược cao, cho phép con người dựa vào thông tin đó để đưa ra các biện pháp phòng ngừa nhằm cứu mạng người (có thể hành động).
  • Một ví dụ khác rất phổ biến trong kinh doanh bán lẻ (phân tích giỏ hàng) là việc phát hiện ra máy in thường được mua cùng lúc với máy tính. Đối với nhà quản lý, đây là một mẫu thông tin mang tính chiến lược và có thể hành động ngay lập tức,. Dựa trên mẫu dữ liệu này, cửa hàng có thể thiết kế các chiến dịch tiếp thị như giảm giá mạnh hoặc tặng kèm máy in khi khách hàng mua những mẫu máy tính được chỉ định. Hành động này nhằm mục đích lôi kéo khách hàng và thúc đẩy doanh số bán máy tính, vốn là mặt hàng đắt tiền và mang lại nhiều lợi nhuận hơn so với máy in.

3. Các loại dữ liệu và Nhiệm vụ Khai thác

3.1. Các loại dữ liệu phổ biến

  • Dữ liệu cơ sở dữ liệu (Database Data): Tập hợp các bảng có liên quan, được quản lý bởi DBMS.
  • Kho dữ liệu (Data Warehouse): Kho lưu trữ thông tin từ nhiều nguồn, được tổ chức theo các chủ đề chính (khách hàng, mặt hàng) để hỗ trợ ra quyết định. Dữ liệu thường được mô hình hóa dưới dạng khối đa chiều (Data Cube).
  • Dữ liệu giao dịch (Transactional Data): Mỗi bản ghi ghi lại một giao dịch (ví dụ: hóa đơn mua sắm của khách hàng).
  • Dữ liệu phức tạp: Dòng dữ liệu (data streams), dữ liệu không gian, văn bản, đa phương tiện và mạng lưới (Web).

3.2. Các nhiệm vụ khai thác chính

Các nhiệm vụ khai thác dữ liệu được chia thành hai loại: Mô tả (Descriptive) và Dự báo (Predictive).
Nhiệm vụ
Mô tả chi tiết
Mô tả khái niệm
Tóm tắt các đặc trưng của một lớp dữ liệu (Characterization) hoặc so sánh với các lớp khác (Discrimination).
Khai thác mẫu phổ biến
Tìm kiếm các tập mục, chuỗi con hoặc cấu trúc xuất hiện thường xuyên trong dữ liệu (ví dụ: phân tích giỏ hàng).
Phân loại & Hồi quy
Tìm kiếm mô hình mô tả và phân biệt các lớp dữ liệu để dự báo nhãn lớp (Phân loại) hoặc giá trị số (Hồi quy).
Phân tích cụm
Nhóm các đối tượng dữ liệu sao cho các đối tượng trong cùng một cụm có độ tương đồng cao và khác biệt với các cụm khác.
Phân tích ngoại lệ
Phát hiện các đối tượng không tuân theo hành vi chung của dữ liệu (ứng dụng trong phát hiện gian lận thẻ tín dụng).

4. Thấu hiểu dữ liệu thông qua Thống kê và Trực quan hóa

Trước khi khai thác, việc hiểu rõ các thuộc tính dữ liệu là tối quan trọng để làm sạch và tiền xử lý dữ liệu hiệu quả.
4.1. Các loại thuộc tính
  • Định danh (Nominal): Các ký hiệu hoặc tên gọi (màu tóc, nghề nghiệp).
  • Nhị phân (Binary): Chỉ có hai trạng thái 0 hoặc 1 (đối xứng hoặc bất đối xứng).
  • Thứ bậc (Ordinal): Các giá trị có thứ tự ý nghĩa nhưng không biết rõ khoảng cách (kích cỡ đồ uống: nhỏ, vừa, lớn).
  • Số (Numeric): Gồm thang đo khoảng (Interval-scaled) không có điểm không tuyệt đối (nhiệt độ Celsius) và thang đo tỷ lệ (Ratio-scaled) có điểm không tuyệt đối (cân nặng, chiều cao).
4.2. Các mô tả thống kê cơ bản
  • Đo lường xu hướng tập trung: Trung bình (Mean), Trung vị (Median – giá trị ở giữa), Yếu vị (Mode – giá trị xuất hiện nhiều nhất) và Điểm giữa quãng (Midrange).
  • Đo lường sự phân tán: Khoảng (Range), Tứ phân vị (Quartiles), Khoảng cách tứ phân vị (IQR), Phương sai (Variance) và Độ lệch chuẩn (Standard Deviation).
  • Tóm tắt 5 số: Bao gồm Giá trị nhỏ nhất, Q1, Trung vị, Q3 và Giá trị lớn nhất; thường được hiển thị qua biểu đồ hộp (Boxplot).
4.3. Kỹ thuật trực quan hóa dữ liệu
  • Hướng điểm ảnh (Pixel-oriented): Sử dụng các điểm ảnh với màu sắc khác nhau để biểu thị giá trị của từng chiều dữ liệu.
  • Chiếu hình học (Geometric Projection): Biểu đồ phân tán (Scatter plots), Ma trận biểu đồ phân tán và Tọa độ song song (Parallel coordinates) để quan sát dữ liệu đa chiều.
  • Hướng biểu tượng (Icon-based): Mặt Chernoff (biểu thị dữ liệu qua các bộ phận khuôn mặt) và Hình người que (Stick figures).
  • Phân cấp (Hierarchical): Bản đồ cây (Tree-maps) để hiển thị dữ liệu phân cấp dưới dạng các hình chữ nhật lồng nhau.
  • Dữ liệu phức tạp: Đám mây thẻ (Tag clouds) cho văn bản và Đồ thị ảnh hưởng cho các mối quan hệ mạng lưới.

5. Các thách thức chính trong Khai thác dữ liệu

Khai thác dữ liệu là một lĩnh vực năng động với nhiều vấn đề nghiên cứu mở:
  • Phương pháp khai thác: Cần các thuật toán có khả năng xử lý dữ liệu không chắc chắn, nhiễu và không đầy đủ; khai thác tri thức trong không gian đa chiều.
  • Tương tác người dùng: Xây dựng các ngôn ngữ truy vấn khai thác dữ liệu linh hoạt, khai thác tương tác và trực quan hóa kết quả để người dùng dễ hiểu.
  • Hiệu suất và Khả năng mở rộng: Các thuật toán phải có khả năng xử lý khối lượng dữ liệu khổng lồ trong thời gian chấp nhận được, ứng dụng các kỹ thuật tính toán song song, phân tán và điện toán đám mây.
  • Sự đa dạng của các loại dữ liệu: Khai thác dữ liệu trên các mạng thông tin toàn cầu, dữ liệu động và các kho dữ liệu không đồng nhất.
  • Khai thác dữ liệu và Xã hội: Bảo vệ quyền riêng tư cá nhân (Privacy-preserving data mining), ngăn chặn việc lạm dụng dữ liệu và phát triển “khai thác dữ liệu vô hình” (tích hợp sẵn trong các hệ thống để người dùng phổ thông cũng có thể sử dụng).