DataProofer – Công cụ hỗ trợ nhà báo xác định lỗi trong bộ dữ liệu
(Sóng trẻ) - Công cụ này giúp tiết kiệm thời gian của các nhà báo bằng cách tự động tìm kiếm và đánh dấu các lỗi tiềm ẩn hoặc thiếu thông tin trong bộ dữ liệu của họ.
Công cụ được nói đến ở đây là gì?
Data Proofer (http://dataproofer.org/) là một công cụ tự động hoá quá trình kiểm tra tập dữ liệu để tìm lỗi (lỗi tiềm ẩn, lỗi thiếu thông tin).
Giao diện để tải công cụ DataProofer trên Internet
Công cụ này hữu dụng cho người làm báo như thế nào? Đối với các nhà báo làm việc với dữ liệu, cho dù phân tích hoặc hình dung các thông tin đã có hoặc tạo ra các tập dữ liệu ban đầu thông qua việc báo cáo riêng của họ, việc xác minh dữ liệu có đáng tin cậy và có thể sử dụng là một phần quan trọng của quy trình làm việc.
Kiểm tra một tập dữ liệu theo cách thủ công để phát hiện ra các lỗi tiềm ẩn và để làm sạch thông tin có thể tốn nhiều thời gian tùy theo kích thước của bộ dữ liệu, và nó cũng có thể đưa ra những sai sót bổ sung cho con người.
DataProofer là một công cụ mã nguồn mở được phát triển bởi Vocativ với sự hỗ trợ của quỹ The Knight Foundation Prototype Fund để tăng tốc quá trình này, bằng cách chạy một loạt các bài kiểm tra tự động để xác định các điểm không chính xác.
Cách sử dụng Data Proofer
Đầu tiên, hãy tải xuống tệp .zip tương ứng với hệ điều hành của bạn (macOS, Windows hoặc Linux). Nếu bạn đang sử dụng máy Mac (Macbook), hãy kéo ứng dụng DataProofer vào thư mục “Ứng dụng” (Applications) để cài đặt.
Mở DataProofer và tải lên tập dữ liệu bạn muốn kiểm tra. Bạn có thể tải lên tập dữ liệu từ máy tính của mình ở bất kỳ định dạng được hỗ trợ nào - XLSX, XLS, CSV, TSV, PSV - hoặc sao chép và dán URL hoặc ID của Bảng tính ogle.
Giao diện của DataProofer sau khi tải về máy tính
Sau khi tải dữ liệu, bạn có thể chọn từ danh sách bên dưới trường đã tải lên để kiểm tra bạn muốn chạy trên tập dữ liệu của mình. Có nhiều lựa chọn, được chia thành bốn loại: thông tin và chẩn đoán; kiểm tra dữ liệu cốt lõi; kiểm tra dữ liệu thống kê; và các phép thử dữ liệu địa lý, chẳng hạn như tọa độ vĩ độ và kinh độ không hợp lệ.
Đánh dấu vào mỗi ô nếu bạn muốn chạy tất cả các bài kiểm tra được bao gồm trong mỗi danh mục, chẳng hạn như xác định tỷ lệ phần trăm các hàng là số, tính tỷ lệ phần trăm các hàng trống, kiểm tra các hàng giống hệt nhau, hoặc kiểm tra với các ô chứa các ký tự đặc biệt có thể gây ra lỗi với công cụ hiển thị dữ liệu. Nếu bạn chỉ muốn chạy các bài kiểm tra nhất định, bỏ chọn các hộp mà bạn không cần sử dụng, và nhấp vào nút “chạy thử nghiệm” ở trên cùng.
Công cụ này sẽ trả về phần trăm độ chính xác cũng như số lần kiểm tra tập dữ liệu của bạn đã hoàn thành , cho thấy một phân tích về các kết quả tích cực và đánh dấu những người nhận diện những sai sót tiềm ẩn hoặc không chính xác. Trong ví dụ này, tập dữ liệu đã đạt được 57% và đã vượt qua 8 trong số 14 bài kiểm tra được chạy trên đó.
Kết quả kiểm tra dữ liệu, tất cả những ô trống trong bảng dữ liệu hiện màu hồng. Nhìn vào đó, người kiểm tra dữ có thể biết những vị trí nào chưa điền đủ dữ liệu.
Di chuột qua các bài kiểm tra có vấn đề để có thêm thông tin và đề xuất về những gì có thể được thực hiện để khắc phục lỗi, ví dụ thay thế một số tượng kí tự thừa bằng khoảng trống hoặc tham khảo lại nguồn của bạn một lần nữa nếu thông tin hiển thị hai lần theo cùng một cách và điều này không như những gì bạn dự định.
Công cụ này được khởi chạy vào năm 2016 và chưa có bất kỳ cập nhật nào từ khi đó. Vì vậy, hãy cân nhắc sử dụng nó cùng với các phương pháp khác để làm sạch dữ liệu. Mã này cũng có sẵn trên GitHub cho những người có thể quan tâm đến việc tìm kiếm cách để phát triển công cụ này thêm nữa.
Nam Hà dịch
Theo website www.journalism.co.uk
Cùng chuyên mục
Bình luận