Toàn cảnh
Mục tiêu của chúng tôi trong phần này của cuốn sách là cung cấp cho bạn cái nhìn tổng quan nhanh về các công cụ chính của khoa học dữ liệu: nhập, sắp xếp, biến đổi, và visualization dữ liệu, như trong Hình 1. Chúng tôi muốn cho bạn thấy “toàn cảnh” khoa học dữ liệu bằng cách cung cấp đủ kiến thức về tất cả các phần chính để bạn có thể xử lý các tập dữ liệu thực tế, dù đơn giản. Các phần sau của cuốn sách sẽ đi sâu hơn vào từng theme này, mở rộng phạm vi các thách thức khoa học dữ liệu mà bạn có thể giải quyết.
Bốn chương tập trung vào các công cụ khoa học dữ liệu:
Trực quan hóa là nơi tuyệt vời để bắt đầu lập trình R, vì thành quả rất rõ ràng: bạn có thể tạo các biểu đồ đẹp mắt và giàu thông tin giúp bạn hiểu dữ liệu. Trong 1 Trực quan hóa dữ liệu bạn sẽ đi sâu vào visualization, học cấu trúc cơ bản của biểu đồ ggplot2, và các kỹ thuật mạnh mẽ để biến dữ liệu thành biểu đồ.
Chỉ visualization thôi thường là chưa đủ, vì vậy trong 3 Biến đổi dữ liệu, bạn sẽ học các động từ chính cho phép bạn chọn các biến quan trọng, lọc các quan sát chính, tạo biến mới, và tính toán tóm tắt.
Trong 5 Chỉnh trang dữ liệu, bạn sẽ học về tidy data (tidy data), một cách nhất quán để lưu trữ dữ liệu giúp biến đổi, visualization, và mô hình hóa dễ dàng hơn. Bạn sẽ học các nguyên tắc cơ bản, và cách đưa dữ liệu vào dạng gọn gàng.
Trước khi có thể biến đổi và visualization dữ liệu, bạn cần đưa dữ liệu vào R trước. Trong 7 Nhập dữ liệu bạn sẽ học những kiến thức cơ bản về cách đưa file
.csvvào R.
Xen kẽ giữa các chương này là bốn chương khác tập trung vào workflow R của bạn. Trong 2 Quy trình làm việc: cơ bản, 4 Quy trình làm việc: phong cách mã, và 6 Quy trình làm việc: tập lệnh và dự án bạn sẽ học các phương pháp workflow tốt để viết và tổ chức mã R. Chúng sẽ giúp bạn thành công lâu dài, vì chúng cung cấp cho bạn các công cụ để duy trì tổ chức khi bạn thực hiện các dự án thực tế. Cuối cùng, 8 Quy trình làm việc: tìm kiếm trợ giúp sẽ dạy bạn cách tìm kiếm trợ giúp và tiếp tục học hỏi.