For Vietnamese Data Scientist By Vietnamese Data Scientis
Đọc dữ liệu vào Notebook là một trong những bước quan trọng đầu tiên bạn cần làm khi thao tác với dữ liệu. Dữ liệu có thể được nhập vào Notebook theo nhiều cách khác nhau như API Request, Download trực tiếp vào Notebook (Tensorflow Dataset), đọc từ file nội bộ, v.v... Đọc dữ liệu từ file văn bản như CSV (Comma-Separated Values) là thao tác mà Data Scientist thường xuyên thực hiện vì đây là định dạng vô cùng phổ biến. Trong bài viết này, mình sẽ hướng dẫn cho các bạn nhập dữ liệu từ file CSV vào Pandas DataFrame.
Trong quá trình viết code xử lý dữ liệu, bạn có thể sẽ phải cần một khối lượng dữ liệu khổng lồ để kiểm tra xem chương trình có hoạt động theo ý muốn hay không trước khi Release vào môi trường Production. Hoặc trong một trường hợp khác, bạn cần một lượng dữ liệu mẫu gần giống với môi trường Production nhưng lại không thể truy cập dữ liệu Production trong môi trường Development. Faker là công cụ tạo dữ liệu dummy (dữ liệu ảo) trên Python cho phép tạo ra lượng lớn dữ liệu một cách ngẫu nhiên để dùng cho các mục đích khác nhau. Team mình thường hay dùng Faker để tạo hàng trăm MegaByte dữ liệu dùng cho Data Pipeline Testing. Hôm nay mình sẽ chia sẻ với các bạn cách sử dụng thư việc này.