Lưu trữ danh mục: Big Data

Lý thuyết Cơ sở dữ liệu

Môn học tập trung vào tìm hiểu các kiến thức cơ bản về CSDL, thiết kế CSDL quan hệ và xây dựng truy vấn, tiến tới xây dựng một hệ CSDL quan hệ hoàn chỉnh. Một phần không nhỏ thời lượng của môn học được dành cho lý thuyết cơ sở của CSDL là đại số quan hệ và lý thuyết chuẩn hóa. Môn học còn giới thiệu một số thuật toán được dùng trong các hệ CSDL quan hệ để chuẩn hóa và kiểm tra tính đúng đắn của các dạng chuẩn.

Giáo trình môn học:

Slide bài học:

Tài liệu Bài tập thực hành Buổi 1. :

Học phần gồm :

Chương 1: CÁC KHÁI NIỆM CƠ BẢN

Chương 2: MÔ HÌNH THỰC THỂ LIÊN KẾT

Chương 3: MÔ HÌNH CƠ SỞ DỮ LIỆU QUAN HỆ

Chương 4: ĐẠI SỐ QUAN HỆ

Chương 5: RÀNG BUỘC TOÀN VẸN

Chương 6: PHỤ THUỘC HÀM

Chương 7: CHUẨN HÓA CƠ SỞ DỮ LIỆU

  1. Nội dung chi tiết học phần

Chương 1: CÁC KHÁI NIỆM CƠ BẢN

1.1. Định nghĩa CSDL

1.2. Đối tượng sử dụng CSDL

1.3. Hệ quản trị CSDL

1.4. Mô hình CSDL

Chương 2: MÔ HÌNH THỰC THỂ LIÊN KẾT

2.1. Quá trình thiết kế CSDL

2.2. Mô hình thực thể – liên kết

2.2.1. Thực thể

2.2.2. Thuộc tính

2.2.3. Mối liên kết

2.2.4. Mô hình ER

2.3. Thiết kế CSDL

2.4. Mô hình thực thể liên kết mở rộng

2.4.1. Lớp cha, lớp con và sự thừa kế

2.4.2. Phân cấp “is a”

2.4.3. Chuyên biệt hóa

2.4.4. Tổng quát hóa

2.4.5. Sơ đồ mô hình EER

Chương 3: MÔ HÌNH CƠ SỞ DỮ LIỆU QUAN HỆ

3.1. Giới thiệu mô hình quan hệ

3.2. Các khái niệm của mô hình quan hệ

3.2.1. Quan hệ

3.2.2. Lược đồ quan hệ – lược đồ CSDL

3.2.3. Miền giá trị

3.2.4. Liên kết

3.3. Các đặc trưng của quan hệ

3.4. Ràng buộc lược đồ quan hệ

3.4.1. Ràng buộc khóa

3.4.2. Ràng buộc tham chiếu

3.4.3. Ràng buộc miền giá trị

3.5. Chuyển đổi mô hình ER sang mô hình CSDL quan hệ

3.5.1. Các quy tắc chuyển đổi

3.5.2. Bài tập áp dụng

Chương 4: ĐẠI SỐ QUAN HỆ

4.1. Các phép toán đại số trên tập hợp

4.1.1. Phép hợp

4.1.2. Phép giao

4.1.3. Phép trừ

4.1.4. Tích Decac

4.1.5. Phép chia

4.1.6. Các tính chất của đại số quan hệ

4.2. Các phép toán đại số quan hệ

4.2.1. Phép chiếu

4.2.2. Phép chọn

4.2.3. Phép kết nối

4.3. Các phép toán gom nhóm trên quan hệ

Chương 5: RÀNG BUỘC TOÀN VẸN

5.1. Khái niệm cơ bản

5.2. Các đặc trưng của RBTV

5.2.1. Bối cảnh

5.2.2. Bảng tầm ảnh hưởng

5.2.3. Biểu diễn – Nội dung

5.3. Phân loại RBTV

5.3.1. Miền giá trị

5.3.2. Liên bộ

5.3.3. Liên thuộc tính

5.3.4. Giá trị thuộc tính theo thời gian

5.3.5. Tham chiếu

Chương 6: PHỤ THUỘC HÀM

6.1. Giới thiệu

6.2. Hệ tiên đề Amstrong

6.3. Bao đóng

6.3.1. Các khái niệm cơ bản

6.3.2. Thuật toán tìm bao đóng của tập thuộc tính

6.3.3. Bài toán thành viên

6.4. Tập phụ thuộc hàm tương đương

6.5. Phụ thuộc hàm dư thừa

6.6. Thuộc tính dư thừa

6.7. Khóa của quan hệ

6.7.1. Định nghĩa

6.7.2. Thuật toán tìm khóa

6.7.3. Thuật toán tìm khóa cải tiến

6.8. Tập PTH tối thiểu

Chương 7: CHUẨN HÓA CƠ SỞ DỮ LIỆU

7.1. Một số khái niệm cơ bản

7.2. Phép tách – kết nối không mất thông tin

7.3. Chuẩn hóa lược đồ quan hệ

7.3.1. Dạng chuẩn 1NF

7.3.2. Dạng chuẩn 2NF

7.3.3. Dạng chuẩn 3NF

7.3.4. Dạng chuẩn BCNF

7.4. Chuẩn hóa quan hệ

7.4.1. Phân rã thành các BCNF

7.4.2. Phân rã thành các 3NF

Phân tích ngữ nghĩa ẩn trong dữ liệu văn bản

Ngữ nghĩa ẩn là như thế nào
Các cách thức biểu diễn và thu thập ngữ nghĩa
–  Thu thập tạo thủ công
– Thu thập dựa trên học máy
các phương thức áp dụng thu thập: các công thức toán học và công cụ so sách tài liệu & từ
Mô hình chủ đề ( công cụ phân tích văn bản) ( tự động – quy nạp)
Mô hình LDA
Bài toán học
Bài toán suy diễn
Các ứng dụng mô hình chủ đề hiện nay
– bài toán máy tìm kiếm với n tham số (n >10^6 )
– bài toán quảng cáo online
Các phương pháp học mô hình máy hiệu quả
– Lấy mẫu Gibbs ( hay nhất) CGS
– BP
– VB
– CVB0

Sử dụng RapidMiner để phân tích dự đoán lượng khách hàng rời dịch vụ

1. Giới thiệu về Rapitminer
2. Cài đặt và sử dụng
3.Thực hành bài tập ứng dụng phân tích khách hàng rời mạng
a. Tập hợp dữ liệu đã được xử lý chuẩn
Bước 1: Nạp dữ liệu
Bước 2: Lựa chọn nhãn (gõ key tìm kiếm trong tab Operator:  set roles)
điền các thông tin vào các trường trong tab Parameter
– attribute name:
– target role: lable

Bước 3: Tạo tập nhãn (  gõ key tìm kiếm trong tab Operator:numerical to binominal)
điền các thông tin vào các trường trong tab Parameter
 – attribute filter type:
 – attribute:
– include special attributes ( dấu x)
– min – max

Bước 4: Kiểm thử mô hình( gõ key tìm kiếm trong tab Operator:x-validation)
Cân bằng dữ liệu : (gõ key tìm kiếm trong tab Operator: sample)
điền các thông tin vào các trường trong tab Parameter
– sample: relative
– balance data ( dấu x) — > Chọn bổ sung các thông số tại Edit list
– sample ratio per class
Lựa chọn phương pháp phân lớpgõ key tìm kiếm trong tab Operator Decision Tree)
điền các thông tin vào các trường trong tab Parameter
– criterion: gain_ratio
– maximal depth:
Ứng dụng mô hìnhgõ key tìm kiếm trong tab Operator Apply Model)
Đánh giá hiệu quả mô hình
Tích chọn mục Validation ( gõ key tìm kiếm trong tab Operator Performance)

Thực hiện thao tác kéo thả giữa các khối trong mô hình. Bấm PLAY để xem và đánh giá kết quả

Bài toán phân lớp và hồi quy trong Big Data

Bài toán phân lớp Classification có 2 dạng:
– Phân cụm ( Cluster): Học không giám sát
– Phần tử ngoại lai
Áp dụng trong dựa vào tập mẫu hoặc tập thông tin bổ trợ.
Sử dụng phân tích đánh giá ý kiến, phân loại thông tin, nhận định âm thanh hình ảnh

– Phân lớp nhờ hàm quyết định ( VD nhận dạng vân tay)
– Phân lớp khoảng cách cực tiểu
– Máy vector tựa
Tình huống
– Khi các lớp tách được tuyến tính
– Khi các lớp không tách được tuyến tính

Phương pháp hàm nhân, dùng hàm nhân để tìm hàm phân biệt
Các hàm nhân thông dụng
– Đa thức bậc p
– Hàm cơ sở bán kính

Phân lớp Bayes
Sử dụng để phân loại sản phẩm

Cây quyết định
Rừng hồi ngẫu nhiên

Thuật toán ID3, C45, CART, gradient


2. Bài toán quy hồi Regression
– Xác định giá trị dựa trên tập đã quan sát

-Mạng nơron
-mạng MLP
-Học sâu ( deep learning)

Các vấn đề trong khai phá dữ liệu

1. Kiểu dữ liệu, Mô hình và cấu trúc dữ liệu
– Dữ liệu số
– dữ liệu biểu thức
Cấu trúc
– có cấu trúc
– không cấu trúc
– bán cấu trúc
Dữ liệu dạng – có nhãn/ không nhãn
2. Quy trình – phương thức khai phá dữ liệu
– Phân loại 2 bước
–  chia dữ liệu: Huấn luyện/ Kiểm nhiệm/ Đánh giá chất lượng
– Kỹ thuật cây quyết định
– Kỹ thuật neural networks
– Kỹ thuật rules quyết định
– Kỹ thuật bayesian
– Kỹ thuật phân cụm clustering
– Kỹ thuật khai thác xã hội
– Các kỹ thuật khác

tìm hiểu thêm trên kdnuggets.com

3. Mô hình đánh giá và tổng hợp

II. XU THẾ PHÁT TRIỂN CỦA MÁY HỌC

Tổng quan về Data Mining

Một số khái niệm có liên quan trong khoa học dữ liệu và khai phá dữ liệu:
– Thống kế
– Máy học – học bằng máy Machine Learning
– Khai phá dữ liệu (data mining)
– Khoa học dữ liệu ( data sc
————–
Dữ liệu thu được từ: quan sát. thu thập và đo lường được
Thông tin: được chắt lọc từ dữ liệu tổng hợp được. thông tin thu được sau 1 quy trình XỬ LÝ
Tri thức là những gì tổng hợp được từ các thông tin. Tri thức thu được từ: Học tập, Phát hiện và nhận thức
————–
Con người thu thập dữ liệu = lấy mẫu ngẫu nhiêu/ hoặc thu thập mọi dữ liệu có được
Từ tri thức người ta chia ra nghiên cứu các lĩnh vực khác nhau như:
1. Thống kê ( Sử dụng các công thức toán học vào để phân tích khái quát dữ liệu) Thống kê có 2 phần: thống kê mô tả & thống kê suy diễn) Thường sử dụng cho phân tích dữ liệu có 1 biến.
Với phân tích dữ liệu nhiều biến sử dụng phương pháp:
                                    – phân tích thăm dò
                                    – phân tích khẳng định
2. Máy học – Machine Learning
Cách thức máy tính có thể học được. —> máy có thể học được thì cần phải phân tích 1 tập dữ liệu. Máy học có 1 số đặc điểm là: hiểu ngôn ngữ tự nhiên/ có tính suy diễn/ phân tích được
3. Khai phá dữ liệu
quá trình tự động phát hiện các tri thức tiềm ẩn trong tập dữ liệu lớn và đa dạng.
4. Khoa học dữ liệu
Khái niệm Big Data: là tập hợp các dữ liệu rất lớn hoặc rất phức tạp
Khoa học dữ liệu được hiểu là các thức phân tích dữ liệu lớn, tổng hợp từ Thống kê + Máy học + Khai phá dữ liệu
——

1 số so sánh giữa Thống kê và Máy học

Thống kê
Máy học:
– Nhấn mạnh về thống kê suy diễn hình thức( ước lượng, kiểm định, giả thuyết)
– dựa trên các mô hình cho bài toán nhỏ, dạng dữ liệu số
– ít có sự thay đổi
– có xu hướng mở rộng sang học máy
– nhấn mạnh các bài toán dự đoán, bắt đầu từ dữ liệu hình thức
– Mới được xây dựng và dùng các thuật toán trực cảm ( heuristics algorithms)
– gắn nhiều với thống kê. Xây dựng các mô hình cho các thuật thoán

1 số so sánh giữa Thống kê và Khai phá dữ liệu (Data Mining)

Nội dung
Thống kê
Khai phá dữ liệu
Kiểu bài toán và dữ liệu
Có cấu trúc
Không/ bán cấu trúc
Mục đích của việc phân tích và thu thập dữ liệu
Xác định mục tiêu ban đầu rồi đi thu thập
Dữ liệu thu thập thường không liên quan đến mục tiêu
Kích thước dữ liệu
Nhỏ / thưởng thuần nhất
Lớn & ko thuần nhất
Phương thức/ Cánh tiếp cận
Dự trên lý thuyết suy diễn
(deductive)
Phối hợp lý thuyết quy nạp và trực cảm
(inductive)
Kiểu phân tích
Khẳng định
Thăm dò, khai phá
Số biển
Nhỏ
Lớn
Giả định phân bổ
Dự trên giả định phân bổ
Không giả định phân bổ xác suất