Data Cleaning là gì? Quy trình Data Cleaning gồm những bước nào?

Dữ liệu cung cấp rất nhiều sức mạnh cho thế giới hiện đại của chúng ta. Nhưng hầu hết chúng ta không phải là nhà khoa học dữ liệu hoặc kỹ sư phần mềm, chúng ta không hiểu được chiều sâu và độ phức tạp của các quy trình như làm sạch dữ liệu để biến hàng núi điểm dữ liệu thành thông tin chi tiết hữu ích về kinh doanh.

Data Cleaning mang đến vô số lợi ích cho doanh nghiệp

1. Data Cleaning là gì?

Làm sạch dữ liệu hay Data Cleaning là quá trình lấy dữ liệu như bạn hiện có và dọn dẹp nó bằng cách sửa lỗi, xác định các điểm dữ liệu không chính xác, các mục nhập trùng lặp,…

Data Cleaning được xem là một công việc quan trọng không thể thiếu. Quá trình này giúp dữ liệu được chuẩn hóa, tăng tính chính xác, mang đến những câu trả lời đáng tin cậy và giúp các công cụ phân tích dữ liệu truy cập và làm việc thuận lợi.

2. Data Cleaning bao gồm những giai đoạn nào?

Data Cleaning là một quá trình gồm nhiều bước từ thu thập cho đến xử lý, giải quyết,…

2.1. Tổng hợp dữ liệu và kiểm toán

Dữ liệu thường được lưu trữ ở nhiều nơi trước khi quá trình làm sạch bắt đầu. Có thể đó là thông tin liên hệ của khách hàng tiềm năng nằm rải rác trên CRM, một vài bảng tính và thậm chí có thể là một vài sổ tay vật lý, chỉ dành cho người mới bắt đầu. Tổng hợp dữ liệu thu thập tất cả và gộp nó thành một “nguồn sự thật” duy nhất.

Một trong những cải tiến đơn giản nhất có thể thực hiện đối với quy trình làm sạch dữ liệu định kỳ là tự động hóa bước tổng hợp này. Lỗi của con người là mối lo ngại với bất kỳ phần nào được thực hiện thủ công và tự động hóa có thể tạo điều kiện cập nhật theo thời gian thực nếu được thực hiện đúng.

Sau khi được thu thập, dữ liệu được kiểm tra về chất lượng và “tính toàn vẹn” ở một số khía cạnh như:

  • Độ chính xác: có nghĩa là dữ liệu có “đúng” trong một ngữ cảnh nhất định hay không. Một trong những hệ thống chính xác được sử dụng rộng rãi nhất là AVS, kiểm tra thông tin thẻ tín dụng đối với địa chỉ thanh toán trong quá trình mua hàng trực tuyến.
  • Tính đầy đủ: cho dù mọi đầu vào được yêu cầu đều có giá trị hay không. Trong trường hợp khách hàng tiềm năng, sẽ không hữu ích lắm nếu mục nhập có tên nhưng không có họ, điều này có thể khiến mục nhập gần như vô dụng.
  • Tính nhất quán: một số mục có thể được tìm thấy ở nhiều nơi (ví dụ: thông tin liên hệ được lấy từ nhiều nguồn) và xung đột ở đây có thể gây ra sự cố.
  • Hiệu lực: dữ liệu thường phải đáp ứng một số ràng buộc nhất định để nó có ý nghĩa khi so sánh với các giá trị khác. Hầu hết các vấn đề về tính hợp lệ đều được tìm thấy trong dữ liệu do hệ thống cũ thu thập.
  • Tính đồng nhất: máy tính thường không thực hiện tốt công việc so sánh các số và giá trị với nhau trừ khi tất cả chúng được định dạng theo cùng một cách.

Kiểm kê những vấn đề mà dữ liệu có ở dạng thô cung cấp điểm khởi đầu cho quy trình làm sạch thực tế. Làm thế nào để bạn làm sạch nó nếu bạn không biết thế nào là “bẩn”?

2.2. Quy trình làm sạch dữ liệu

Tất cả các vấn đề được phát hiện trong bước trước cần được kiểm tra. Phần này rất phức tạp và không phải mọi mục nhập dữ liệu đều có thể được cứu vãn. Một số vấn đề có thể được khắc phục, một số vấn đề có thể được sửa chữa một phần và một số vấn đề không thể khắc phục được.

Cho dù được thực hiện thủ công hay thông qua các công cụ tự động hóa, sẽ có một chút phân loại xảy ra khi tiến trình làm sạch dữ liệu thông qua toàn bộ danh sách. Một số dữ liệu sẽ cần phải làm sạch ít hoặc không cần làm sạch và một số dữ liệu hoàn toàn không thể sửa được.

Các vấn đề chất lượng khác nhau yêu cầu các phương pháp hiệu chỉnh khác nhau, chẳng hạn như:

  • Phân tích cú pháp: một số giá trị dễ xử lý hơn các giá trị khác. Ví dụ, các giá trị số dễ hiểu hơn, kiểm tra chất lượng và thường dễ sửa hơn. Một số yêu cầu phân tích chỉ để hiểu đầu vào giống như với bất kỳ đầu vào dữ liệu “phi cấu trúc” nào.
  • Loại bỏ trùng lặp: nhiều mục nhập có thể tạo ra vấn đề, vì vậy cần phải nỗ lực rất nhiều để điều hòa sự không nhất quán giữa chúng. Lý tưởng nhất là thông tin chính xác được xác định và các bản sao bị lỗi sẽ bị loại khỏi cơ sở dữ liệu.
  • Phân tích thống kê: ngay cả trong bối cảnh kinh doanh, việc kiểm soát các điểm bất thường và ngoại lệ cực đoan là một thông lệ quan trọng. Mặc dù một số trường hợp sử dụng cần thiết hơn những trường hợp khác nhưng việc áp dụng các mô hình thống kê cho dữ liệu có thể giúp ngăn một số mục nhập làm sai lệch các con số. Và mặc dù các ngoại lệ không phải lúc nào cũng bị xóa nhưng việc xác định chính xác chúng sẽ giúp kiểm soát và cho phép các nhóm giải quyết chúng một cách riêng biệt.
  • Rà soát dữ liệu nhạy cảm: thông tin nhận dạng cá nhân (PII) có thể là một vấn đề đối với một số ngành và trường hợp sử dụng và có thể cần phải xử lý đúng cách thông tin đó để tuân thủ pháp luật. Trong một số trường hợp, dữ liệu có thể bị xóa hoặc ẩn hoàn toàn. Ở những nơi khác, nó phải hiển thị với một số người, nhưng các biện pháp kiểm soát quyền phải được thực hiện để bảo vệ quyền riêng tư.
  • Chuyển đổi dữ liệu: ngay cả khi dữ liệu khá sạch để bắt đầu, thường cần phải định dạng lại một số lượng nhất định để cho phép các công cụ phân tích sử dụng dữ liệu đó một cách hiệu quả. Đó là lúc chuyển đổi dữ liệu xuất hiện. Thường là một phần của chức năng ETL, đây là nơi dữ liệu được chuẩn hóa và căn chỉnh với định dạng đích.

Dựa trên các lỗi dữ liệu và các phương pháp làm sạch phù hợp, quy trình công việc được chỉ định. Quy trình làm việc là một kế hoạch chiến đấu để giải quyết đúng các vấn đề và làm sạch toàn bộ tập dữ liệu.

2.3. Tự động hóa trong Data Cleaning

Tự động hóa thường đóng một phần trong quy trình làm sạch dữ liệu, mặc dù mức độ tự động hóa sẽ phụ thuộc vào một số yếu tố. Các quy trình công việc tiên tiến nhất hoàn thành gần như tất cả công việc thông qua tự động hóa. Trên thực tế, gần như không thể mở rộng quy trình công việc nếu không tăng mức độ tự động hóa được triển khai.

Tuy nhiên, không có gì lạ khi các phần của quy trình làm việc tiếp tục dựa vào các quy trình thủ công sau khi một giải pháp tự động hóa vừa hiệu quả vừa khả thi về mặt tài chính. Ngoài ra, khó đạt được tự động hóa hoàn toàn và thường là không nên làm. Một số cấp độ giám sát của con người cung cấp một dự phòng an toàn quan trọng để bắt lỗi mà máy không thể nhận ra.

Ngoài ra, tự động hóa có thể không có khả năng sửa chữa một số mục nhập mà con người vẫn có thể sửa chữa. Trong trường hợp cụ thể, các mục nhập không đầy đủ gần như không thể sửa bằng tự động hóa, nhưng trong một số trường hợp, chúng có thể được một người điền vào một cách tương đối dễ dàng.

Đặt những cân nhắc đó sang một bên, việc quyết định cách thức, thời điểm và địa điểm triển khai tự động hóa có thể khó khăn. Một mặt, các quy trình thủ công tốn thời gian, tẻ nhạt và dễ xảy ra lỗi do con người. Mặt khác, quy trình làm việc tự động có thể tốn kém về mặt tính toán, khó thực hiện và triển khai và ai đó phải xây dựng quy trình tự động hóa ngay từ đầu.

Cuối cùng, câu trả lời “đúng” sẽ phụ thuộc vào các chi tiết cụ thể của trường hợp sử dụng. Mặc dù nhiều tổ chức tìm thấy thành công bằng cách thuê ngoài.

3. Hậu xử lý, phòng ngừa và chính sách

Sau khi quy trình làm việc hoàn tất, có thể có một số chi tiết cuối cùng cần giải quyết, các mục nhập cần được xử lý thủ công, xem xét tính toàn vẹn của kết quả,… Khi đã xử lý xong, dữ liệu sẽ sẵn sàng để đưa vào công cụ kinh doanh mà bạn lựa chọn.

Tận dụng mọi nỗ lực mà một quy trình công việc đơn lẻ yêu cầu, thật dễ hiểu tại sao rất nhiều tổ chức tránh làm sạch dữ liệu. Tuy nhiên, với các hệ thống, quy trình và chính sách phù hợp, chi phí làm sạch dữ liệu có thể giảm đáng kể.

Khi đã sẵn sàng và được triển khai đúng cách, văn hóa chất lượng dữ liệu có thể giảm đáng kể chi phí hoạt động cho quy trình làm việc và tăng cường hiệu quả của dữ liệu. Cải thiện chất lượng của dữ liệu được thu thập là một phần kỹ thuật và quản lý một phần.

Quá trình làm sạch dữ liệu có thể được cải thiện thông qua các phương pháp như:

  • Xóa hoặc cập nhật các hệ thống cũ
  • Chọn công cụ công nghệ phù hợp nhất với trường hợp sử dụng
  • Xây dựng hệ thống hỗ trợ tích hợp và tương tác giữa các ứng dụng
  • Thiết kế và triển khai tự động hóa cho các tác vụ tốn nhiều thời gian và dễ bị lỗi nhất

Tương tự, chính sách có thể được sử dụng để thúc đẩy chất lượng dữ liệu trong toàn tổ chức bằng các chiến thuật như:

  • Thúc đẩy cam kết về chất lượng dữ liệu và dẫn đầu bằng ví dụ
  • Cung cấp hỗ trợ và nguồn lực cần thiết để tạo điều kiện cải tiến
  • Nâng cao nhận thức về tầm quan trọng của chất lượng dữ liệu
  • Khuyến khích hợp tác giữa các phòng ban
  • Đo lường nỗ lực chất lượng dữ liệu và ăn mừng thành công
4. Bắt đầu quá trình Data Cleaning

Có khá nhiều điều mà bạn cân nhắc trước khi quyết định xem bạn có cần xóa dữ liệu của mình hay không.

  • Bạn có dữ liệu gì?
  • Nó được thu thập ở đâu?
  • Nó đang được lưu trữ ở đâu?
  • Bạn đang tổng hợp nó ở đâu?
  • Những gì làm sạch cần phải được thực hiện?

Có những công cụ có thể trợ giúp việc này, nhưng hầu hết chúng sẽ dành cho các trường hợp sử dụng khác nhau, thường được phân chia theo ngành hoặc tích hợp cần thiết.

Cũng cần lưu ý rằng nhiều công cụ của bên thứ ba có sẵn sẽ tập trung vào một phần cụ thể của quy trình như tổng hợp dữ liệu, làm sạch hoặc xóa dữ liệu, phân tích dữ liệu,… giải pháp trong một hoặc có thể yêu cầu nhiều công cụ riêng biệt được tích hợp với nhau.

Lưu ý rằng các công cụ tốt nhất không chỉ giúp máy tính hiểu dữ liệu dễ dàng. Nó cũng giúp con người phân tích dữ liệu dễ dàng hơn. Dữ liệu tốt, sạch sẽ là một nguồn tài nguyên quý giá, tốn kém để có được và xử lý. Đó là lý do tại sao rất nhiều thương hiệu không thu được lợi ích từ dữ liệu của họ. Nhưng với các hệ thống tinh chỉnh phù hợp được áp dụng, ngay cả những đội có nguồn lực hạn chế cũng có thể gặt hái thành quả.

Hy vọng bài viết đã cung cấp những thông tin hữu ích cho bạn đọc. Đừng quên đón xem các bài viết mới nhất sẽ được cập nhật tại BAC’s Blog.

Nguồn tham khảo:

https://technologyadvice.com/

Nhu cầu đào tạo doanh nghiệp

BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.
 
 

CÁC KHOÁ HỌC BUSINESS ANALYST BACs.VN DÀNH CHO BẠN

Khoá học Online:

Khoá học Offline:

Tại Tp.HCM:

Tại Hà Nội:

Tham khảo lịch khai giảng TẤT CẢ các khóa học mới nhất

Ban biên tập nội dung – BAC

 

Previous Post
Next Post