Python

Khi mới bắt đầu làm quen với việc xây dựng Machine Learning Model với Python, chúng ta thường sử dụng dữ liệu mẫu từ các trang như UCI, Kaggle và TensorFlow Dataset. Đa phần dữ liệu mẫu có chất lượng rất tốt về mọi mặt từ sự cân bằng (Balance) cho đến tính toàn vẹn (Completeness) và sự nhất quán (Consistency). Tuy nhiên trong thực tế, dữ liệu không hoàn toàn đạt được chất lượng cao như vậy, đôi khi một giá trị trong cột không chính xác vì lỗi đánh máy, hoặc có khi không cân bằng giữa các label với nhau hay thậm chí phổ biến hơn là thiếu sót dữ liệu (Missing data). Trong bài viết này, mình sẽ hướng dẫn các bạn quy trình căn bản và các kỹ thuật để xử lý các ô dữ liệu trống trong bảng bằng Python.

Đọc dữ liệu vào Notebook là một trong những bước quan trọng đầu tiên bạn cần làm khi thao tác với dữ liệu. Dữ liệu có thể được nhập vào Notebook theo nhiều cách khác nhau như API Request, Download trực tiếp vào Notebook (Tensorflow Dataset), đọc từ file nội bộ, v.v... Đọc dữ liệu từ file văn bản như CSV (Comma-Separated Values) là thao tác mà Data Scientist thường xuyên thực hiện vì đây là định dạng vô cùng phổ biến. Trong bài viết này, mình sẽ hướng dẫn cho các bạn nhập dữ liệu từ file CSV vào Pandas DataFrame.

Trong quá trình viết code xử lý dữ liệu, bạn có thể sẽ phải cần một khối lượng dữ liệu khổng lồ để kiểm tra xem chương trình có hoạt động theo ý muốn hay không trước khi Release vào môi trường Production. Hoặc trong một trường hợp khác, bạn cần một lượng dữ liệu mẫu gần giống với môi trường Production nhưng lại không thể truy cập dữ liệu Production trong môi trường Development. Faker là công cụ tạo dữ liệu dummy (dữ liệu ảo) trên Python cho phép tạo ra lượng lớn dữ liệu một cách ngẫu nhiên để dùng cho các mục đích khác nhau. Team mình thường hay dùng Faker để tạo hàng trăm MegaByte dữ liệu dùng cho Data Pipeline Testing. Hôm nay mình sẽ chia sẻ với các bạn cách sử dụng thư việc này.

Tin Tức Liên Quan