Tổng quan về Data Mining

Một số khái niệm có liên quan trong khoa học dữ liệu và khai phá dữ liệu:
– Thống kế
– Máy học – học bằng máy Machine Learning
– Khai phá dữ liệu (data mining)
– Khoa học dữ liệu ( data sc
————–
Dữ liệu thu được từ: quan sát. thu thập và đo lường được
Thông tin: được chắt lọc từ dữ liệu tổng hợp được. thông tin thu được sau 1 quy trình XỬ LÝ
Tri thức là những gì tổng hợp được từ các thông tin. Tri thức thu được từ: Học tập, Phát hiện và nhận thức
————–
Con người thu thập dữ liệu = lấy mẫu ngẫu nhiêu/ hoặc thu thập mọi dữ liệu có được
Từ tri thức người ta chia ra nghiên cứu các lĩnh vực khác nhau như:
1. Thống kê ( Sử dụng các công thức toán học vào để phân tích khái quát dữ liệu) Thống kê có 2 phần: thống kê mô tả & thống kê suy diễn) Thường sử dụng cho phân tích dữ liệu có 1 biến.
Với phân tích dữ liệu nhiều biến sử dụng phương pháp:
                                    – phân tích thăm dò
                                    – phân tích khẳng định
2. Máy học – Machine Learning
Cách thức máy tính có thể học được. —> máy có thể học được thì cần phải phân tích 1 tập dữ liệu. Máy học có 1 số đặc điểm là: hiểu ngôn ngữ tự nhiên/ có tính suy diễn/ phân tích được
3. Khai phá dữ liệu
quá trình tự động phát hiện các tri thức tiềm ẩn trong tập dữ liệu lớn và đa dạng.
4. Khoa học dữ liệu
Khái niệm Big Data: là tập hợp các dữ liệu rất lớn hoặc rất phức tạp
Khoa học dữ liệu được hiểu là các thức phân tích dữ liệu lớn, tổng hợp từ Thống kê + Máy học + Khai phá dữ liệu
——

1 số so sánh giữa Thống kê và Máy học

Thống kê
Máy học:
– Nhấn mạnh về thống kê suy diễn hình thức( ước lượng, kiểm định, giả thuyết)
– dựa trên các mô hình cho bài toán nhỏ, dạng dữ liệu số
– ít có sự thay đổi
– có xu hướng mở rộng sang học máy
– nhấn mạnh các bài toán dự đoán, bắt đầu từ dữ liệu hình thức
– Mới được xây dựng và dùng các thuật toán trực cảm ( heuristics algorithms)
– gắn nhiều với thống kê. Xây dựng các mô hình cho các thuật thoán

1 số so sánh giữa Thống kê và Khai phá dữ liệu (Data Mining)

Nội dung
Thống kê
Khai phá dữ liệu
Kiểu bài toán và dữ liệu
Có cấu trúc
Không/ bán cấu trúc
Mục đích của việc phân tích và thu thập dữ liệu
Xác định mục tiêu ban đầu rồi đi thu thập
Dữ liệu thu thập thường không liên quan đến mục tiêu
Kích thước dữ liệu
Nhỏ / thưởng thuần nhất
Lớn & ko thuần nhất
Phương thức/ Cánh tiếp cận
Dự trên lý thuyết suy diễn
(deductive)
Phối hợp lý thuyết quy nạp và trực cảm
(inductive)
Kiểu phân tích
Khẳng định
Thăm dò, khai phá
Số biển
Nhỏ
Lớn
Giả định phân bổ
Dự trên giả định phân bổ
Không giả định phân bổ xác suất


Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *