Một số khái niệm có liên quan trong khoa học dữ liệu và khai phá dữ liệu:
– Thống kế
– Máy học – học bằng máy Machine Learning
– Khai phá dữ liệu (data mining)
– Khoa học dữ liệu ( data sc
————–
Dữ liệu thu được từ: quan sát. thu thập và đo lường được
Thông tin: được chắt lọc từ dữ liệu tổng hợp được. thông tin thu được sau 1 quy trình XỬ LÝ
Tri thức là những gì tổng hợp được từ các thông tin. Tri thức thu được từ: Học tập, Phát hiện và nhận thức
————–
Con người thu thập dữ liệu = lấy mẫu ngẫu nhiêu/ hoặc thu thập mọi dữ liệu có được
Từ tri thức người ta chia ra nghiên cứu các lĩnh vực khác nhau như:
1. Thống kê ( Sử dụng các công thức toán học vào để phân tích khái quát dữ liệu) Thống kê có 2 phần: thống kê mô tả & thống kê suy diễn) Thường sử dụng cho phân tích dữ liệu có 1 biến.
Với phân tích dữ liệu nhiều biến sử dụng phương pháp:
– phân tích thăm dò
– phân tích khẳng định
2. Máy học – Machine Learning
Cách thức máy tính có thể học được. —> máy có thể học được thì cần phải phân tích 1 tập dữ liệu. Máy học có 1 số đặc điểm là: hiểu ngôn ngữ tự nhiên/ có tính suy diễn/ phân tích được
3. Khai phá dữ liệu
quá trình tự động phát hiện các tri thức tiềm ẩn trong tập dữ liệu lớn và đa dạng.
4. Khoa học dữ liệu
Khái niệm Big Data: là tập hợp các dữ liệu rất lớn hoặc rất phức tạp
Khoa học dữ liệu được hiểu là các thức phân tích dữ liệu lớn, tổng hợp từ Thống kê + Máy học + Khai phá dữ liệu
——
1 số so sánh giữa Thống kê và Máy học
Thống kê
|
Máy học:
|
– Nhấn mạnh về thống kê suy diễn hình thức( ước lượng, kiểm định, giả thuyết)
– dựa trên các mô hình cho bài toán nhỏ, dạng dữ liệu số
– ít có sự thay đổi
– có xu hướng mở rộng sang học máy
|
– nhấn mạnh các bài toán dự đoán, bắt đầu từ dữ liệu hình thức
– Mới được xây dựng và dùng các thuật toán trực cảm ( heuristics algorithms)
– gắn nhiều với thống kê. Xây dựng các mô hình cho các thuật thoán
|
1 số so sánh giữa Thống kê và Khai phá dữ liệu (Data Mining)
Nội dung
|
Thống kê
|
Khai phá dữ liệu
|
Kiểu bài toán và dữ liệu
|
Có cấu trúc
|
Không/ bán cấu trúc
|
Mục đích của việc phân tích và thu thập dữ liệu
|
Xác định mục tiêu ban đầu rồi đi thu thập
|
Dữ liệu thu thập thường không liên quan đến mục tiêu
|
Kích thước dữ liệu
|
Nhỏ / thưởng thuần nhất
|
Lớn & ko thuần nhất
|
Phương thức/ Cánh tiếp cận
|
Dự trên lý thuyết suy diễn
(deductive)
|
Phối hợp lý thuyết quy nạp và trực cảm
(inductive)
|
Kiểu phân tích
|
Khẳng định
|
Thăm dò, khai phá
|
Số biển
|
Nhỏ
|
Lớn
|
Giả định phân bổ
|
Dự trên giả định phân bổ
|
Không giả định phân bổ xác suất
|