Khi bạn theo dõi dữ liệu trong Excel spreadsheets, bạn tạo chúng với giao diện thân thiện cho người dùng. Để giúp các spreadsheets của bạn dễ đọc, bạn có thể thêm vào nhiều thứ như tiêu đề, tiêu đề xếp chồng lên nhau (stacked header), ghi chú, có thể là các hàng và cột trống để thêm khoảng trắng và bạn cũng có thể có nhiều tab dữ liệu.
Khi bạn muốn phân tích dữ liệu này trong Tableau, những thuộc tính này khiến Tableau rất khó diễn giải dữ liệu của bạn, đó là nơi Data Interpreter có thể giúp bạn.
Mẹo: Mặc dù add-in Excel của Tableau thì không được hỗ trợ, Data Interpreter có thể giúp bạn tái định hình dữ liệu của bạn cho phân tích trong Tableau.
1. Data Interpreter làm gì?
Data Interpreter có thể cho bạn một khởi đầu thuận lợi để làm sạch dữ liệu. Nó có thể phát hiện những thứ như tiêu đề, ghi chú, chân trang, ô trống … và bỏ qua chúng để xác định các trường và giá trị thực tế trong tập dữ liệu của bạn.
Nó có thể phát hiện các bảng bổ sung và các bảng phụ để bạn có thể làm việc với một tập hợp con dữ liệu một cách độc lập với các dữ liệu khác.
Sau khi Data Interpreter thực hiện xong, bạn có thể kiểm tra hoạt động của nó để đảm bảo rằng nó đã thu thập dữ liệu mà bạn muốn và xác định chính xác. Sau đó, bạn có thể thực hiện bất kỳ điều chỉnh cần thiết nào.
Sau khi bạn chọn dữ liệu mà bạn muốn làm việc, bạn cũng có thể thực hiện các bước làm sạch giống như xoay dữ liệu, tách trường hoặc thêm bộ lọc để dữ liệu có hình dạng bạn muốn trước khi bắt đầu phân tích.
2. Mở Data Interpreter và xem kết quả
- Bước 1: Từ thanh Connect, kết nối với một spreadsheets Excel hoặc trình kết nối khác hỗ trợ Data Interpreter như Text(.csv), PDF hoặc Google sheets.
- Bước 2: Kéo một bảng vào canvas (nếu cần), sau đó trên trang Data Source, trên ngăn bên trái, chọn hộp kiểm Use Data Interpreter để xem nếu Data Interpreter có thể giúp làm sạch dữ liệu
Lưu ý: Khi làm sạch dữ liệu với Data Interpreter, Data Interpreter sẽ làm sạch tất cả dữ liệu được liên kết với một kết nối trong nguồn dữ liệu. Data Interpreter sẽ không thay đổi dữ liệu cơ bản
- Bước 3: Trong ngăn Data, nhấp vào Review the results để xem lại kết quả của Data Interpreter.
Một bản sao nguồn dữ liệu của bạn sẽ mở trong Excel trên tab Key for the Data Interpreter.
- Bước 4: Nhấp vào mỗi tab để xem cách Data Interpreter đã diễn giải nguồn dữ liệu.
Nếu Data Interpreter tìm thấy các bảng bổ sung, chúng sẽ được xác định trong tab <sheet name> _ subtabes bằng cách phát thảo phạm vi ô của chúng.
Một tab riêng biệt cũng được bao gồm trong mỗi bảng phụ, được mã hóa bằng màu sắc để xác định tiêu đề và các hàng dữ liệu.
Nếu Data Interpreter không cung cấp kết quả như mong được, hãy bỏ chọn hộp thoại Clean with Data Interpreter để dùng nguồn dữ liệu gốc.
- Bước 5: Để thay thế bảng hiện tại bằng bất kỳ bảng nào được tìm thấy, hãy kéo bảng hiện tại ra khỏi canvas và sau đó kéo bảng tìm thấy vào canvas.
Nếu Data Interpreter đã xác định sai phạm vi của bảng được tìm thấy, sau khi bạn kéo bảng được tìm thấy vào canvas, nhấp vào mũi tên hướng xuống trên bảng và chọn Edit Found Table để điều chỉnh các góc.
- Bước 6: Sau khi có dữ liệu mà bạn muốn, bạn có thể áp dụng bất kỳ hoạt động làm sạch dữ liệu bổ sung nào để phân tích.
2.1. Ví dụ Data Interpreter
Trong ví dụ này, chúng ta sẽ kết nối với một Excel spreadsheet (bảng tính) về dữ liệu tội phạm bạo lực theo thành phố và tiểu bang năm 2016. Bảng tính này bao gồm nhiều bảng trên một sheet (trang tính) và một vài định dạng.
A. Tiêu đề
B. Các ô tiêu đề được hợp nhất
C. Thêm khoảng trắng
D. Các bảng phụ (sub-table)
Định dạng bổ sung trong bảng tính này khiến Tableau gặp khó khăn trong việc xác định các tiêu đề và giá trị của trường.
Thay vào đó, nó đọc dữ liệu theo chiều dọc và gán giá trị mặc định F1, F2, F3… cho mỗi cột. Các khoảng trắng sẽ được đọc là giá trị null.
Để xem Data Interpreter có thể giúp làm sạch dữ liệu này, chúng ta chọn Use Data Interpreter.
Data Interpreter đã phát hiện các tiêu đề cho các trường, loại bỏ định dạng bổ sung và tìm thấy một số bảng phụ, các bảng phụ được liệt kê trong phần Sheets trong ngăn Data và được đặt tên bằng cách dùng tên trang tính gốc và phạm vi ô cho mỗi bảng phụ.
Trong ví dụ này có 3 bảng phụ: Crimes 2016 A4:H84, Crimes 2016 K5:L40 và Crimes 2016 O5:P56.
Để kiểm tra kết quả của Data Interpreter, chúng ta nhấp vào Review the result trong ngăn Data để xem bảng sao có chú thích của bảng tính.
Đây là một bản sao của dữ liệu gốc, mã hóa màu để xác định dữ liệu nào được chỉ định là dữ liệu tiêu đề và dữ liệu nào được xác định là các giá trị trường.
Tab tiếp theo hiển thị các bảng phụ được tìm thấy, được vạch ra bởi các phạm vi ô.
Bảng phụ đầu tiên, Crimes 2016 A4:H84 có dữ liệu chính mà chúng ta cần. Để dùng bảng này, hãy kéo bảng gốc ra khỏi canvas và kéo bảng mới vào.
Sau khi hoàn tất, chúng ta đã có được dữ liệu mong muốn và có thể làm sạch dữ liệu bằng các thao tác như:
- Thay đổi tên trường.
- Xoay các trường tháng.
- Kéo bảng phụ thứ ba Crimes 2016 O5:P56 và nối nó vào bảng phụ đầu tiên trên trường State.
- Ẩn các trường trùng lặp đã thêm vào do phép nối.
Kết quả cuối cùng:
3. Khi Data Interpreter không có sẵn
Tùy chọn Data Interpreter không có sẵn vì một vài nguyên nhân sau:
- Nguồn dữ liệu đã ở định dạng mà Tableau có thể diễn giải.
-
Quá nhiều dòng hoặc nhiều cột:
- Dữ liệu chứa nhiều hơn 2000 cột.
- Dữ liệu chứa nhiều hơn 3000 dòng và hơn 150 cột.
- Nguồn dữ liệu không được hỗ trợ:
Data Interpreter chỉ hỗ trợ cho Microsoft Excel, tệp Text (.csv), tệp PDF và Google Sheets. Đối với Excel, dữ liệu của bạn phải ở định dạng .xls hoặc .xlsx.
Trên đây là những gì mà bạn cần biết về tùy chọn làm sạch dữ liệu bằng Data Interpreter trong Tableau. Mong rằng những thông tin này sẽ hữu ích với các bạn, đừng quên theo dõi các bài viết mới nhất tại BAC's Blog và tham gia khóa học Tableau tại BAC để không bỏ lỡ những kiến thức quan trọng về phân tích và trực quan dữ liệu.
Nguồn tham khảo:
https://help.tableau.com/
Nhu cầu đào tạo doanh nghiệp
BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.
Các bài viết liên quan Power BI:
- Power BI cơ bản cho người mới bắt đầu
- Chỉnh sửa và định hình dữ liệu trong Power BI Desktop
- Kết hợp dữ liệu trong Power BI Desktop
- Hướng dẫn kết nối dữ liệu trong Power BI Desktop
- Hướng dẫn tải & cài đặt Power BI trên máy tính
- Khóa học Phân tích và trực quan hóa dữ liệu với Power BI
- Power BI là gì?
Các bài viết liên quan:
- TABLEAU - Giải pháp BUSINESS INTELLIGENCE (BI) - click vào đây
- Hướng dẫn cài đặt và Sử dụng TABLEAU - click vào đây
- Tính năng mới trên tableau - verion 2019.1 - click vào đây
BAC - Biên soạn và tổng hợp nội dung