Nhập dữ liệu

Trong phần này của cuốn sách, bạn sẽ học cách nhập nhiều loại dữ liệu hơn vào R, cũng như cách đưa chúng vào dạng hữu ích cho phân tích. Đôi khi đây chỉ là việc gọi một function từ package nhập dữ liệu phù hợp. Nhưng trong các trường hợp phức tạp hơn, có thể cần cả sắp xếp và biến đổi để có được bảng tidy data mà bạn muốn làm việc.

Mô hình khoa học dữ liệu của chúng tôi với phần nhập dữ liệu được đánh dấu bằng màu xanh.
Hình 1: Nhập dữ liệu là bước đầu tiên của workflow khoa học dữ liệu; không có dữ liệu thì bạn không thể thực hiện khoa học dữ liệu!

Trong phần này của cuốn sách bạn sẽ học cách truy cập dữ liệu được lưu trữ theo các cách sau:

Có hai package tidyverse quan trọng mà chúng tôi không thảo luận ở đây: haven và xml2. Nếu bạn đang làm việc với dữ liệu từ file SPSS, Stata, và SAS, hãy xem package haven, https://haven.tidyverse.org. Nếu bạn đang làm việc với dữ liệu XML, hãy xem package xml2, https://xml2.r-lib.org. Nếu không, bạn sẽ cần nghiên cứu thêm để tìm ra package nào bạn cần sử dụng; google là người bạn tốt nhất của bạn ở đây 😃.