Lời nói đầu cho phiên bản thứ hai

Chào mừng bạn đến với phiên bản thứ hai của “R cho Khoa học Dữ liệu”! Đây là một bản cải tiến lớn so với phiên bản đầu tiên, bỏ đi những phần chúng tôi thấy không còn cần thiết, bổ sung những nội dung mà chúng tôi ước đã đưa vào phiên bản đầu, và cập nhật tổng thể văn bản cùng mã nguồn để phản ánh những thay đổi trong các phương pháp tốt nhất. Chúng tôi cũng rất vui mừng chào đón một đồng tác giả mới: Mine Çetinkaya-Rundel, một nhà giáo dục khoa học dữ liệu nổi tiếng và là một trong những đồng nghiệp của chúng tôi tại Posit (công ty trước đây có tên là RStudio).

Dưới đây là tóm tắt ngắn gọn về những thay đổi lớn nhất:

Phần đầu tiên của cuốn sách được đổi tên thành “Toàn cảnh”. Mục tiêu của phần này là cung cấp cho bạn cái nhìn toàn cảnh về khoa học dữ liệu trước khi chúng ta đi vào chi tiết.
Phần thứ hai của cuốn sách là “Trực quan hóa”. Phần này trình bày các công cụ visualization dữ liệu (data visualization) và các phương pháp tốt nhất một cách kỹ lưỡng hơn so với phiên bản đầu. Nơi tốt nhất để tìm hiểu tất cả chi tiết vẫn là cuốn sách ggplot2, nhưng giờ đây R4DS trình bày chi tiết hơn về các kỹ thuật quan trọng nhất.
Phần thứ ba của cuốn sách giờ được gọi là “Biến đổi” và có thêm các chương mới về số, vector logic, và missing value (missing values). Những nội dung này trước đây là một phần của chương biến đổi dữ liệu, nhưng cần nhiều không gian hơn để trình bày tất cả chi tiết.
Phần thứ tư của cuốn sách được gọi là “Nhập dữ liệu”. Đây là một bộ chương mới vượt ra ngoài việc đọc file văn bản phẳng, bao gồm làm việc với spreadsheet, lấy dữ liệu từ database, làm việc với dữ liệu lớn, chuyển đổi dữ liệu phân cấp thành dạng bảng, và thu thập dữ liệu từ các trang web.
Phần “Lập trình” vẫn được giữ lại, nhưng đã được viết lại hoàn toàn để tập trung vào những phần quan trọng nhất của việc viết function và iterate. Phần viết function giờ bao gồm chi tiết về cách bọc các function tidyverse (xử lý các thách thức của tidy evaluation), vì điều này đã trở nên dễ dàng và quan trọng hơn nhiều trong vài năm qua. Chúng tôi đã thêm một chương mới về các function base R quan trọng mà bạn có thể gặp trong mã R thực tế.
Phần mô hình hóa đã được loại bỏ. Chúng tôi chưa bao giờ có đủ không gian để trình bày mô hình hóa một cách đầy đủ, và hiện nay đã có những tài nguyên tốt hơn nhiều. Chúng tôi khuyến nghị sử dụng các package tidymodels và đọc Tidy Modeling with R của Max Kuhn và Julia Silge.
Phần “Truyền đạt” vẫn được giữ lại, nhưng đã được cập nhật toàn diện để sử dụng Quarto thay vì R Markdown. Phiên bản này của cuốn sách được viết bằng Quarto, và rõ ràng đó là công cụ của tương lai.