PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU VỚI PYTHON
Trong khóa học này, người học sẽ được giới thiệu về lĩnh vực thống kê, bao gồm dữ liệu đến từ đâu, thiết kế nghiên cứu, quản lý dữ liệu cũng như khám phá và trực quan hóa dữ liệu. Người học sẽ xác định các loại dữ liệu khác nhau và tìm hiểu cách trực quan hóa, phân tích và diễn giải các tóm tắt cho cả dữ liệu đơn biến và đa biến. Người học cũng sẽ được giới thiệu về sự khác biệt giữa lấy mẫu xác suất và lấy mẫu phi xác suất từ các quần thể lớn hơn, ý tưởng về cách ước tính mẫu khác nhau và cách có thể suy luận về các quần thể lớn hơn dựa trên lấy mẫu xác suất. Vào cuối mỗi phần, người học sẽ áp dụng các khái niệm thống kê mà họ đã học bằng Python trong môi trường khóa học. Trong các buổi học trong phòng thí nghiệm này, người học sẽ khám phá các cách sử dụng Python khác nhau như một công cụ, bao gồm các thư viện Numpy, Pandas, Statsmodels, Matplotlib và Seaborn. Các video hướng dẫn được cung cấp để hướng dẫn người học cách tạo trực quan hóa và quản lý dữ liệu, tất cả đều có trong Python. Khóa học này sử dụng môi trường Jupyter Notebook.
Mục tiêu học tập
- Phát triển triển vọng cho khóa học, tóm tắt các khái niệm và mục tiêu trong tương lai.
- Khám phá các cách sử dụng số liệu thống kê khác nhau và kiểm tra dữ liệu bắt nguồn từ đâu.
- Xác định chính xác các loại dữ liệu khác nhau và hiểu cách sử dụng khác nhau của từng loại.
- Hiểu các hàm cơ bản của Python để nhập, làm sạch và quản lý dữ liệu.
- Hiểu các màn hình đồ họa khác nhau được sử dụng cho từng loại dữ liệu và biến định lượng đơn.
- Giải thích biểu đồ và sơ đồ hộp để mô tả dữ liệu định lượng.
- Có được những diễn giải chính được sử dụng để mô tả dữ liệu định lượng.
- Tạo biểu đồ, sơ đồ hộp và tóm tắt bằng số thông qua Python.
- Tạo biểu đồ và thống kê tóm tắt dữ liệu đa biến, cả phân loại và định lượng.
- Tóm tắt thông tin quan trọng thu được thông qua trực quan hóa dữ liệu đa biến.
- Truyền đạt các ý tưởng thống kê rõ ràng và chính xác tới nhiều đối tượng.
- Tích hợp lý luận thống kê vào các quyết định và tình huống trong cuộc sống hàng ngày của bạn.
- Phân biệt lấy mẫu xác suất và lấy mẫu phi xác suất.
- Mô tả khái niệm về phân phối lấy mẫu và cách người ta có thể suy luận về tham số tổng thể dựa trên các đặc điểm ước tính của phân phối đó.
- Xác định các kỹ thuật phân tích thích hợp cho các mẫu xác suất và phi xác suất.
- Giải thích tại sao các mẫu được thiết kế kém có thể dẫn đến những mô tả về các đặc điểm tổng thể bị sai lệch về bản chất.
Nội dung
Nội dung | Chi tiết | Thực hành |
Giới thiệu dữ liệu | Hiểu và các nguyên tắc về trực quan hóa dữ liệu
Khái niệm thống kê Khái niệm dữ liệu và phân loại Nguồn gốc dữ liệu Các loại biến Thiết kế dữ liệu Quản lý và thao tác dữ liệu |
Giới thiệu về notebook Jupyter
Các kiểu dữ liệu trong Python Thư viện và quản lý dữ liệu |
Dữ liệu đơn biến | Phân loại dữ liệu dạng: bảng, biểu đồ thanh, biểu đồ tròn.
Dữ liệu định lượng dạng biểu đồ Điểm chuẩn – Quy tắc thực nghiệm Dữ liệu định lượng dạng Boxplots Đọc hiểu dữ liệu qua biểu đồ
Tóm tắt dữ liệu bằng chữ |
Tóm tắt dữ liệu bằng hình ảnh:
Biểu đồ tương tác và Boxplot Thư viện Python và giới thiệu về đồ thị – Bảng – Biểu đồ – Sơ đồ hộp Thực hành: Phân tích dữ liệu đơn biến về NHANES Tóm tắt dữ liệu bằng chữ |
Dữ liệu đa biến | Nhóm và phân loại dữ liệu đa biến
Mối liên hệ dữ liệu định lượng đa biến Nghịch lý Simpson Cách thức để trực quan hóa dữ liệu Lựa chọn dữ liệu đa biến Phân phối đa biến Kiểm tra đơn vị
|
Biểu đồ phân tán tương tác
Thiết kế nghiên cứu dữ liệu Pizza
Nghiên cứu phân tích đa biến với NHANES Sổ tay đánh giá phân tích đa biến |
Số lượng và mẫu | Lấy mẫu dựa trên dữ liệu xác định
Lấy mẫu xác suất Lấy mẫu phi xác suất Lưu ý với lấy mẫu phi xác suất Phân biệt giữa mẫu có xác suất và phi xác suất Phương sai lấy mẫu và phân phối mẫu Suy luận dựa theo mẫu Mẫu phức tạp |
Lấy mẫu từ quần thể thiên vị
Tính ngẫu nhiên và tính tái tạo Quy tắc phân phối theo kinh nghiệm Minh họa phân phối mẫu với NHANES
|