Nhập dữ liệu

Trong phần này của cuốn sách, bạn sẽ học cách nhập nhiều loại dữ liệu hơn vào R, cũng như cách đưa chúng vào dạng hữu ích cho phân tích. Đôi khi đây chỉ là việc gọi một function từ package nhập dữ liệu phù hợp. Nhưng trong các trường hợp phức tạp hơn, có thể cần cả sắp xếp và biến đổi để có được bảng tidy data mà bạn muốn làm việc.

Trong phần này của cuốn sách bạn sẽ học cách truy cập dữ liệu được lưu trữ theo các cách sau:

Trong 20 Bảng tính, bạn sẽ học cách nhập dữ liệu từ spreadsheet Excel và Google Sheets.
Trong 21 Cơ sở dữ liệu, bạn sẽ học về cách lấy dữ liệu từ database vào R (và bạn cũng sẽ học một chút về cách đưa dữ liệu từ R vào database).
Trong 22 Arrow, bạn sẽ học về Arrow, một công cụ mạnh mẽ để làm việc với dữ liệu ngoài bộ nhớ, đặc biệt khi nó được lưu trữ ở định dạng parquet.
Trong 23 Dữ liệu phân cấp, bạn sẽ học cách làm việc với dữ liệu phân cấp, bao gồm các list lồng nhau sâu được tạo ra bởi dữ liệu lưu trữ ở định dạng JSON.
Trong 24 Thu thập dữ liệu web, bạn sẽ học về “scraping” web, nghệ thuật và khoa học của việc trích xuất dữ liệu từ các trang web.

Có hai package tidyverse quan trọng mà chúng tôi không thảo luận ở đây: haven và xml2. Nếu bạn đang làm việc với dữ liệu từ file SPSS, Stata, và SAS, hãy xem package haven, https://haven.tidyverse.org. Nếu bạn đang làm việc với dữ liệu XML, hãy xem package xml2, https://xml2.r-lib.org. Nếu không, bạn sẽ cần nghiên cứu thêm để tìm ra package nào bạn cần sử dụng; google là người bạn tốt nhất của bạn ở đây 😃.