Trực quan hóa

Sau khi đọc phần đầu tiên của cuốn sách, bạn đã hiểu (ít nhất là ở mức bề mặt) các công cụ quan trọng nhất để thực hiện khoa học dữ liệu. Bây giờ là lúc bắt đầu đi sâu vào chi tiết. Trong phần này của cuốn sách, bạn sẽ tìm hiểu sâu hơn về visualization dữ liệu.

Mô hình khoa học dữ liệu của chúng tôi, với phần visualization được đánh dấu bằng màu xanh.
Hình 1: Trực quan hóa dữ liệu thường là bước đầu tiên trong khám phá dữ liệu.

Mỗi chương đề cập đến một hoặc vài khía cạnh của việc tạo visualization dữ liệu.

Ba chương này giúp bạn bắt đầu trong thế giới visualization, nhưng còn rất nhiều điều để học. Nơi tốt nhất tuyệt đối để tìm hiểu thêm là cuốn sách ggplot2: ggplot2: Elegant graphics for data analysis. Nó đi sâu hơn nhiều vào lý thuyết nền tảng, và có nhiều ví dụ hơn về cách kết hợp các thành phần riêng lẻ để giải quyết các vấn đề thực tế. Một tài nguyên tuyệt vời khác là thư viện mở rộng ggplot2 https://exts.ggplot2.tidyverse.org/gallery/. Trang web này liệt kê nhiều package ggplot2 với các geom và scale mới. Đây là nơi tuyệt vời để bắt đầu nếu bạn đang cố gắng làm điều gì đó có vẻ khó với ggplot2.