Tiếp nối hai phần trước về chủ để cấu trúc dữ liệu trong Tableau, trong phần thứ ba này, BAC sẽ giới thiệu đến bạn đọc khái niệm loại dữ liệu. Đừng quên xem lại hai phần đầu tiên để không bỏ lỡ những kiến thức quan trọng.
Tham khảo:
- Dữ liệu cấu trúc để phân tích trong Tableau (Phần 1)
- Dữ liệu cấu trúc để phân tích trong Tableau (Phần 2)
1. Các loại dữ liệu
Cơ sở dữ liệu, không giống như spreadsheet (bảng tính), thường thực thi các quy tắc nghiêm ngặt về dữ liệu. Các kiểu dữ liệu phân loại dữ liệu trong một trường nhất định và cung cấp thông tin về cách dữ liệu nên được định dạng, diễn giải và các thao tác có thể thực hiện. Ví dụ, các trường số có thể có các phép toán áp dụng cho chúng và các trường địa lý có thể được ánh xạ lên bản đồ.
Tableau Desktop chỉ định một trường là một dimension hay measure nhưng các trường có các đặc điểm khác phụ thuộc vào kiểu dữ liệu của chúng. Chúng được biểu thị bằng các biểu tượng riêng. Nếu kiểu dữ liệu được thực thi trên một cột và một giá trị hiện tại không khớp với kiểu dữ liệu được chỉ định của nó, thì nó có thể được hiển thị là “null” (vì “purple” không có nghĩa là một con số).
Một số hàm cần kiểu dữ liệu đặc biệt. Ví dụ, bạn không thể dùng hàm CONTAINS với một trường số. Các hàm dùng để thay đổi kiểu dữ liệu của một trường. Ví dụ, DATE PARSE có thể lấy một văn bản ngày trong một định dạng riêng và biến nó thành ngày tháng, cho phép những thứ như tự động drill down trong view.
2. Pivot và Unpivot
Dữ liệu thân thiện người dùng thường được thu thập và ghi lại ở định dạng rộng với nhiều cột. Dữ liệu có thể đọc bằng máy như Tableau khuyến nghị thì tốt hơn ở định dạng cao với ít cột và nhiều hàng.
Lưu ý: Theo truyền thống, pivot nghĩa là đi từ cao đến rộng (cột đến dòng) và unpivot nghĩa là đi từ rộng sang cao (dòng đến cột). Tuy nhiên, Tableau dùng từ pivot có nghĩa là đi từ rộng (thân thiện với người dùng) đến cao (máy có thể đọc) bằng cách chuyển hàng thành cột. Trong bài viết này, pivot sẽ được dùng để chỉ nghĩa Tableau của từ này. Để rõ ràng, nó có thể giúp chỉ định “pivot columns to rows” (tổng hợp cột thành hàng) hoặc “pivot rows to columns” (tổng hợp hàng thành cột).
2.1. Wipe data (dữ liệu rộng)
Trong bộ dữ liệu về bệnh sốt rét của WHO, có một cột cho country (quốc gia), sau đó là một cột cho mỗi năm. Mỗi ô đại diện cho số trường hợp mắc bệnh của quốc gia và năm đó. Ở định dạng này, chúng ta có 108 hàng và 16 cột.
Định dạng này rất dễ đọc hiểu tuy nhiên, nếu đưa dữ liệu vào Tableau Desktop, chúng ta sẽ nhận được một trường trên mỗi cột. Chúng ta sẽ có 1 trường cho năm 2000, 1 trường cho năm 2001….
Nói cách khác, có 15 trường đại diện cho cùng một điều cơ bản – số trường hợp mắc bệnh sốt rét được báo cáo và không có trường nào cho thời gian. Điều này khiến việc phân tích theo thời gian gặp khó khăn, vì dữ liệu được lưu trong các trường riêng.
- Ví dụ làm việc với dữ liệu rộng:
Đề bài: Làm cách nào tạo ra một bản đồ biểu diễn tổng số ca mắc bệnh sốt rét ở mỗi quốc gia từ năm 2000 đến 2014?
Đáp án: Tạo một calculated field để tính tổng tất cả các năm.
Một dấu hiệu khác cho thấy định dạng này không lý tưởng cho việc phân tích có thể được xem trong thực tế là không nơi nào có thông tin về ý nghĩa của các giá trị thực tế. Đối với Algeria năm 2012, có giá trị 55 nhưng lại không rõ ràng ngay từ cấu trúc dữ liệu.
Nếu tên cột không mô tả giá trị là gì mà chỉ truyền đạt thông tin bổ sung, thì đây là dấu hiệu dữ liệu cần được pivot.
2.2. Tall Data (dữ liệu cao)
Nếu chúng ta pivot dữ liệu, chúng ta định hình lại dữ liệu từ rộng thành cao. Lúc này, thay vì có một cột cho mỗi năm, chúng ta có một cột duy nhất là Year và một cột mới là Reported Cases. Ở định dạng này, chúng ta có 1606 hàng và 3 cột. Định dạng dữ liệu này cao hơn thay rộng hơn.
Bây giờ, trong Tableau Desktop, chúng ta có một trường cho Year và một trường cho Reported Cases như trường Country gốc. Nó dễ làm phân tích hơn vì mỗi trường đại diện một chất lượng duy nhất về tập dữ liệu, vị trí, thời gian và giá trị.
- Ví dụ làm việc với dữ liệu cao:
Đề bài: Làm cách nào tạo ra một bản đồ biểu diễn tổng số ca mắc sốt rét ở mỗi quốc gia từ năm 2000 đến 2014?
Đáp án: Sử dụng trường Reported Cases.
Bây giờ, thật dễ để xem Algeria trong năm 2012, 55 đề cập đến số trường hợp được báo cáo (vì chúng tôi có thể gắn nhãn cho cột mới này).
Lưu ý: Trong ví dụ này, dữ liệu rộng bao gồm một bảng ghi cho mỗi quốc gia. Với định dạng dữ liệu cao, có 15 dòng cho mỗi quốc gia. Cần lưu ý rằng có nhiều dòng cho mỗi quốc gia.
Nếu có một cột cho Land Area, giá trị sẽ được lặp lại cho mỗi 15 dòng của mỗi quốc gia trong cấu trúc dữ liệu cao. Nếu bạn tạo một biểu đồ thanh bằng cách mang Country vào Rows và Land Area vào Columns, mặc định view sẽ tính tổng diện tích đất cho tất cả 15 dòng mỗi quốc gia.
Đối với một số trường, có thể cần bù cho các giá trị đếm kép bằng cách tổng hợp với giá trị trung bình hoặc tối thiểu hơn là tính tổng hoặc lọc.
Như vậy, chúng ta đã lần lượt đi qua các một số khái niệm về kiểu dữ liệu. Phần cuối cùng cung cấp cho bạn tất cả những thông tin còn lại sẽ được gửi đến bạn đọc tại website bacs.vn.
Nguồn tham khảo:
Đọc tiếp phần 4 tại đây nhé: Dữ liệu cấu trúc để phân tích trong Tableau (Phần 4)
Nhu cầu đào tạo doanh nghiệp
BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.
Các bài viết liên quan Power BI:
- Power BI cơ bản cho người mới bắt đầu
- Chỉnh sửa và định hình dữ liệu trong Power BI Desktop
- Kết hợp dữ liệu trong Power BI Desktop
- Hướng dẫn kết nối dữ liệu trong Power BI Desktop
- Hướng dẫn tải & cài đặt Power BI trên máy tính
- Khóa học Phân tích và trực quan hóa dữ liệu với Power BI
- Power BI là gì?
Các bài viết liên quan:
- TABLEAU – Giải pháp BUSINESS INTELLIGENCE (BI) – click vào đây
- Hướng dẫn cài đặt và Sử dụng TABLEAU – click vào đây
- Tính năng mới trên tableau – verion 2019.1 – click vào đây
BAC – Biên soạn và tổng hợp nội dung