Có một số khái niệm cơ bản để hiểu chuẩn bị dữ liệu (data prep) và cách cấu trúc dữ liệu (structure data) để phân tích trong Tableau. Dữ liệu có thể được tạo ra, thu thập và lưu trữ ở nhiều định dạng khác nhau nhưng khi phân tích, không phải tất cả các định dạng dữ liệu đều được tạo ra như nhau.
Chuẩn bị dữ liệu là quá trình nhận dữ liệu được định dạng tốt vào một bảng duy nhất hoặc nhiều bảng có liên quan đề phân tích trong Tableau. Điều này bao gồm cả cấu trúc, tức là gồm hàng và cột cũng như các khía cạnh về độ sạch của dữ liệu, ví dụ kiểu dữ liệu và giá trị dữ liệu chính xác.
1. Cấu trúc dữ liệu tác động như thế nào đến phân tích
Cấu trúc dữ liệu của bạn có thể không phải là thứ bạn kiểm soát được. Phần còn lại của bài viết giả định bạn có quyền truy cập vào dữ liệu thô và các công cụ cần thiết để định hình nó như Tableau Prep Builder. Tuy nhiên, có thể có những trường hợp bạn không thể xoay vòng hoặc tổng hợp dữ liệu như mong muốn. Thông thường, vẫn có thể thực hiện phân tích nhưng bạn cần phải thay đổi phép tính hoặc cách tiếp cận dữ liệu.
Để biết ví dụ về cách thực hiện cùng một phân tích với các cấu trúc dữ liệu khác nhau, hãy xem Tableau Prep Day in the Life Scenarios: Analysis with the Second Date in Tableau Desktop. Nhưng nếu bạn có thể tối ưu hóa cấu trúc dữ liệu sẽ giúp phân tích trở nên dễ dàng hơn.
2. Cấu trúc dữ liệu
Tableau Desktop hoạt động tốt nhất với dữ liệu ở dạng bảng được định dạng như spreadsheet. Tức là, dữ liệu được lưu trữ trong các hàng và cột với tiêu đề cột ở hàng đầu tiên. Vì vậy, bạn nên dùng cột hoặc hàng.
2.1. Hàng là gì?
Một hàng hoặc bảng ghi có thể là bất kỳ thứ gì từ thông tin xung quanh một giao dịch tại một cửa hàng bán lẻ, đến các phép đo thời tiết tại một vị trí cụ thể hoặc thống kê về một bài đăng trên mạng xã hội.
Điều quan trọng là phải biết bản ghi (hàng) trong dữ liệu đại diện cho điều gì. Đây là mức độ chi tiết của dữ liệu.
Mỗi bản ghi là một ngày (bên trái), mỗi bản ghi là một tháng (bên phải).
Mẹo: Cách tốt nhất là có một giá trị định dạng duy nhất, một giá trị xác định mỗi hàng là một phần dữ liệu duy nhất. Hãy coi nó giống như số an sinh xã hội hoặc URL của mỗi bản ghi. Trong Superstore, đó sẽ là Row ID. Lưu ý rằng không phải tất cả các tập dữ liệu đều có UID nhưng nó không thể bị ảnh hưởng nếu có một UID.
Đảm bảo bạn có thể trả lời câu hỏi “Một hàng cho tập dữ liệu đại diện cho điều gì?”. Điều này cũng giống như trả lời “Trường TableName (Count) đại diện cho điều gì?”. Nếu bạn không thể nói rõ điều đó, dữ liệu có thể có cấu trúc kém để phân tích.
Tính tổng hợp và mức độ chi tiết:
Một khái niệm liên quan đến những gì tạo nên một hàng là ý tưởng về sự tổng hợp và độ chi tiết, là hai đầu đối diện của một quang phổ.
Tổng hợp:
- Đề cập đến cách nhiều dữ liệu được kết hợp với nhau thành một giá trị như đếm tất cả tìm kiếm trên Google cho Pumpkin Spice hoặc lấy giá trị trung bình của tất cả các kết quả nhiệt độ xung quanh Seattle vào một ngày nhất định.
- Theo mặc định, các số đo trong Tableau luôn được tổng hợp. Tổng hợp mặc định là SUM. Bạn có thể thay đổi tổng hợp thành các tùy chọn như Average, Median, Count Distinct, Minimum, etc.
Chi tiết:
- Đề cập đến mức độ chi tiết của dữ liệu. Một hàng hoặc bản ghi trong tập dữ liệu đại diện cho điều gì? Một người bị sốt rét? Tổng số ca mắc sốt rét trong một tỉnh? Đó chính là mức độ chi tiết.
- Biết mức độ chi tiết của dữ liệu là rất quan trọng để làm việc với các biểu thức mức độ chi tiết (LOD).
Hiểu tổng hợp và chi tiết là một khái niệm quan trọng vì nhiều lý do; nó tác động đến những thứ như tìm tập dữ liệu hữu ích, xây dựng trực quan, liên kết hoặc kết hợp dữ liệu một cách chính xác và sử dụng biểu thức LOD.
2.2. Cột hoặc trường là gì?
Một cột dữ liệu trong bảng từ Tableau Desktop là một trường trong ngăn dữ liệu nhưng về cơ bản chúng là các thuật ngữ có thể hoán đổi. Một trường dữ liệu phải chứa các mục có thể được nhóm thành một mối quan hệ lớn hơn. Bản thân các mục được gọi là giá trị hoặc thành viên (chỉ các dimensions rời rạc mới chứa các thành viên).
Những giá trị nào được phép trong một trường nhất định được xác định bởi miền của trường (xem lưu ý bên dưới). Ví dụ, cột dành cho “các bộ phận trong cửa hàng tạp hóa” có thể chứa các thành viên như “đồ nguội”, “tiệm bánh”, “sản phẩm”… nhưng không bao gồm “bánh mì” hoặc “xúc xích ý” vì đó là các mặt hàng, không phải phòng ban. Được diễn giải theo một cách khác, tên miền của trường bộ phận được giới hạn ở những phòng ban có thể có trong cửa hàng tạp hóa.
Ngoài ra, một tập dữ liệu có cấu trúc tốt sẽ có một cột “Sales” và một cột “Profit”, không phải một cột “Money” duy nhất, vì lợi nhuận là một khái niệm riêng biệt với doanh số bán hàng.
- Tên miền của trường Sales sẽ là các giá trị ≥ 0 (lớn hơn hoặc bằng 0), vì doanh số bán hàng không được âm.
- Tuy nhiên, miền của trường Profit sẽ là tất cả giá trị, vì lợi nhuận có thể âm.
Lưu ý: Domain (miền) cũng có thể có nghĩa là các giá trị có trong dữ liệu. Nếu cột “grocery store department” chứa sai thành viên “xúc xích ý”, theo định nghĩa này, giá trị đó sẽ nằm trong miền của cột. Các định nghĩa hơi mâu thuẫn. Một là các giá trị có thể có hoặc nên có, một là các giá trị thực sự ở đó.
Qua phần đầu tiên này, hy vọng bạn đã hiểu được khái niệm dữ liệu có cấu trúc và sự ảnh hưởng của dữ liệu đến phân tích trong Tableau. Đừng quên đón xem các phần tiếp theo sẽ được cập nhật tại website bacs.vn và tham gia ngay khóa học Tableau tại BAC để trang bị cho mình những kiến thức nền tảng về phân tích và trực quan dữ liệu.
Nguồn tham khảo:
Đọc tiếp phần 2 tại đây nhé: Dữ liệu cấu trúc để phân tích trong Tableau (Phần 2)
Nhu cầu đào tạo doanh nghiệp
BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.
Các bài viết liên quan Power BI:
- Power BI cơ bản cho người mới bắt đầu
- Chỉnh sửa và định hình dữ liệu trong Power BI Desktop
- Kết hợp dữ liệu trong Power BI Desktop
- Hướng dẫn kết nối dữ liệu trong Power BI Desktop
- Hướng dẫn tải & cài đặt Power BI trên máy tính
- Khóa học Phân tích và trực quan hóa dữ liệu với Power BI
- Power BI là gì?
Các bài viết liên quan:
- TABLEAU – Giải pháp BUSINESS INTELLIGENCE (BI) – click vào đây
- Hướng dẫn cài đặt và Sử dụng TABLEAU – click vào đây
- Tính năng mới trên tableau – verion 2019.1 – click vào đây
BAC – Biên soạn và tổng hợp nội dung