BAC đã giới thiệu đến bạn khái niệm cấu trúc dữ liệu trong phần đầu tiên, hãy xem lại ngay dưới đây trước khi tiếp tục. Nội dung lần này, chúng ta sẽ tiếp tục khám phá về phân loại trường.
Tham khảo: Dữ liệu cấu trúc để phân tích trong Tableau (Phần 1)
Mỗi cột trong bảng dữ liệu được đưa vào Tableau Desktop dưới dạng một trường và xuất hiện trong thanh Data bên trái. Các trường trong Tableau Desktop được chia thành dimension hoặc measure và rời rạc (discrete) có màu xanh dương hoặc liên tục (continuous) có màu xanh lá.
- Dimensions có nghĩa là định tính, bạn không thể đo được mà phải mô tả. Các dimensions thường gặp như city (thành phố), country (đồng quê), eye color (màu mắt), category (danh mục), team name (tên đội)… Dimensions thường là trường rời rạc.
- Measures có nghĩa là định lượng, bạn có thể đo được bằng kết quả con số. Các measures thường gặp là sales (doanh số), height (chiều cao), clicks (lượt nhấp)… Trong Tableau Desktop, measures thường được tổng hợp tự động mặc định là SUM. Measures thường là liên tục.
- Rời rạc nghĩa là riêng biệt như Toyota khác với Mazda. Trong Tableau Desktop, các giá trị rời rạc xuất hiện trong view dưới dạng label (nhãn) và chúng tạo các panes (ngăn).
- Liên tục nghĩa là một tổng thể, không gián đoạn. Số 7 được theo sau bởi số 8 và sau đó là 9, 7.5 sẽ nằm giữa 7 và 8. Trong Tableau Desktop, các giá trị liên tục xuất hiện dưới dạng trục.
-
Các dimensions thường là rời rạc và measures thường là liên tục. Tuy nhiên, không phải luôn như vậy, ví dụ, trường dates (ngày tháng) có thể là liên tục hoặc rời rạc.
- Dates là dimensions và tự động xuất hiện trong view là rời rạc (còn gọi là phần ngày, như “tháng 8”, xem xét tháng của tháng 8 mà không xét các thông tin khác như năm. Một đường xu hướng được áp dụng cho dòng thời gian với ngày tháng rời rạc sẽ được chia thành nhiều đường xu hướng, mỗi đường một ô.
- Chúng ta có thể dùng trường dates liên tục (còn gọi là cắt bớt ngày, như tháng 8 năm 2017 thì khác với tháng 8 năm 2018). Đường xu hướng được áp dụng cho dòng thời gian với dates liên tục sẽ có một đường xu hướng duy nhất cho toàn bộ trục date.
Trong Tableau Prep, không có sự phân biệt giữa dimensions và measures. Tuy nhiên, việc hiểu các khái niệm đằng sau rời rạc và liên tục là rất quan trọng đối với những điều như hiểu chi tiết (detail) đối với tóm tắt (summary) dữ liệu trong ngăn hồ sơ.
- Detail: chế độ xem chi tiết hiển thị mọi phần tử miền (domain) dưới dạng một nhãn rời rạc và có thành cuộn trực quan để cung cấp tổng quan trực quan về tất cả dữ liệu.
- Summary: chế độ xem tóm tắt hiển thị các giá trị được phân loại trên một trục liên tục dưới dạng biểu đồ.
1. Binning và Histogram
Một trường như tuổi (age) hoặc lương (salary) được xét là liên tục. Có một mối quan hệ giữa tuổi 34 và 35, 34 cách 35 bằng với 35 cách 36. Tuy nhiên, khi chúng ta đã qua 10 tuổi hoặc hơn, chúng ta thường không nhắc đến 9 tuổi rưỡi, tuổi tác tăng dần qua từng năm.
Một người 12850 ngày tuổi lớn hơn một người 12790 ngày tuổi nhưng chúng ta vẽ một đường thẳng và nói rằng họ 35 tuổi. Tương tự, các nhóm tuổi thường được dùng thay cho tuổi thực. Giá vé xem phim cho trẻ em từ 12 tuổi trở xuống hoặc một cuộc khảo sát có thể yêu cầu bạn chọn nhóm tuổi như 20-24, 25-30…
Histogram (Biểu đồ) được dùng để trực quan hóa việc phân phối dữ liệu số bằng cách dùng binning. Biểu đồ tương tự như biểu đồ thanh nhưng thay vì dùng các danh mục rời rạc trên mỗi thanh, các hình chữ nhật tạo nên biểu đồ kéo dài một thùng của một trục liên tục như khoảng cách của số lượng hoa (0-4, 5-9, 10-14,…). Chiều cao của các hình chữ nhật được xác định bởi tần suất hoặc số lượng các giá trị đó. Ở đây, trục y là số lượng thực vật rơi vào mỗi thùng. 7 cây có 0-4 hoa, 2 cây có 5-9 hoa và 43 cây có 20-24 hoa.
Trong Tableau Prep, summary view là một biểu đồ của các giá trị được phân loại. Detail view biểu diễn tần suất cho mọi giá trị và có một thành cuộn trực quan bên cạnh hiển thị phân phối tổng thể của dữ liệu.
2. Phân phối và ngoại lệ
Xem phân phối của tập dữ liệu có thể giúp phát hiện ngoại lệ.
-
Distribution (phân phối): Hình dạng của dữ liệu trong biểu đồ, mặc dù nó còn phụ thuộc vào kích thước của các bins. Việc có thể xem tất cả dữ liệu trong một biểu đồ cũng giúp xác định xem dữ liệu có chính xác và đầy đủ không. Hình dạng của phân phối sẽ được dùng nếu bạn biết dữ liệu và có thể hiểu phân phối hợp lý hay không.
- Ví dụ, nếu chúng ta xem xét tập dữ liệu số lượng nhà với internet băng thông rộng từ năm 1940-2017, chúng ta sẽ thấy phân bố rõ rệt. Tuy nhiên, nếu khoảng thời gian từ tháng 1 năm 2017 đến tháng 12 năm 2017, phân bố lại khá đồng đều.
- Nếu xét tập hợp dữ liệu tìm kiếm trên Google cho từ khóa “Pumpkin Spice Latte”, sẽ có một đỉnh khả cao vào mùa thu. Trong khi đó, tìm kiếm “convert Celsius to Fahrenheit” sẽ ổn định.
-
Outlier (ngoại lệ): Một giá trị cực trị so với các giá trị khác. Giá trị ngoại lệ có thể là giá trị đúng hoặc chúng có thể là dấu hiệu của lỗi.
- Một số ngoại lệ là chính xác và chỉ ra sự bất thường thực tế; những điều này không nên bị loại bỏ hoặc sửa đổi.
- Một vài ngoại lệ chỉ ra vấn đề về độ sạch của dữ liệu, như mức lương 50$ thay vì 500$ vì dấu chấm được đánh thay dấu phẩy.
Nếu bạn thấy một danh sách như sau:
Thay vì một danh sách các nhãn, khi được vẽ trên một trục liên tục nó sẽ trông như thế này.
Rõ ràng hơn nhiều lần quan sát cuối cùng khác xa lần quan sát đầu tiên và có thể là một ngoại lệ do lỗi.
Việc phân loại trường đóng một vai trò quan trọng để cấu trúc dữ liệu phục vụ cho phân tích. Dữ liệu trong Tableau được phân loại khá rõ ràng, cụ thể và hầu như đều tự động khi bạn kết nối với nguồn dữ liệu. Vì vậy, bạn không phải tự mình phân nhóm mà chỉ cần hiểu ý nghĩa các trường. Đừng quên đón xem phần tiếp theo của bài viết sẽ được gửi đến bạn đọc tại website bacs.vn.
Nguồn tham khảo:
Đọc tiếp phần 3 tại đây nhé: Dữ liệu cấu trúc để phân tích trong Tableau (Phần 3)
Nhu cầu đào tạo doanh nghiệp
BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.
Các bài viết liên quan Power BI:
- Power BI cơ bản cho người mới bắt đầu
- Chỉnh sửa và định hình dữ liệu trong Power BI Desktop
- Kết hợp dữ liệu trong Power BI Desktop
- Hướng dẫn kết nối dữ liệu trong Power BI Desktop
- Hướng dẫn tải & cài đặt Power BI trên máy tính
- Khóa học Phân tích và trực quan hóa dữ liệu với Power BI
- Power BI là gì?
Các bài viết liên quan:
- TABLEAU - Giải pháp BUSINESS INTELLIGENCE (BI) - click vào đây
- Hướng dẫn cài đặt và Sử dụng TABLEAU - click vào đây
- Tính năng mới trên tableau - verion 2019.1 - click vào đây
BAC - Biên soạn và tổng hợp nội dung