Dữ liệu cấu trúc để phân tích trong Tableau (Phần 4)

Trong phần cuối cùng của chủ đề cấu trúc dữ liệu, BAC sẽ gửi đến bạn phần còn lại, hãy chắc chắn xem qua các phần trước để không bỏ lỡ những kiến thức quan trọng.

Tham khảo:

Dữ liệu cấu trúc để phân tích trong Tableau (Phần 1)

Dữ liệu cấu trúc để phân tích trong Tableau (Phần 2)

Dữ liệu cấu trúc để phân tích trong Tableau (Phần 3)

1. Normalization (chuẩn hóa)

Cơ sở dữ liệu quan hệ được tạo thành từ nhiều bảng có thể liên kết hoặc được liên kết với nhau theo nhiều cách. Mỗi bảng chứa một mã định danh, hoặc khóa duy nhất cho mỗi bảng ghi. Bằng cách liên kết hoặc nối (join) trên các khóa, các bảng ghi có thể được liên kết để cung cấp nhiều thông tin hơn là được chứa trong một bảng. Thông tin nào đi vào mỗi bảng sẽ phụ thuộc vào mô hình dữ liệu được dùng nhưng nguyên tắc chung vẫn là giảm sự trùng lặp.

Ví dụ, xem xét việc lập kế hoạch cho một sự kiện như đám cưới. Chúng ta cần theo dõi thông tin ở cấp độ nhóm (như gia đình hoặc cặp đôi) cũng như cấp độ cá nhân.

Một bảng có thể được tạo bao gồm tất cả thông tin lại với nhau:

Tuy nhiên, nếu một địa chỉ sai và cần sửa, nó phải được sửa trên nhiều hàng, có khả năng dẫn đến lỗi hoặc xung đột. Một cấu trúc tốt hơn là tạo 2 bảng, một bảng cho thông tin liên quan đến nhóm (như địa chỉ và nếu lời mới đã được gửi) và một bảng cho thông tin liên quan đến cá nhân (như chỗ ngồi).

Bảng thông tin nhóm (bên trái), bảng thông tin cá nhân (bên phải)

Việc theo dõi và phân tích thông tin cấp nhóm trong bảng nhóm và thông tin cá nhân trong bảng cá nhân sẽ dễ dàng hơn. Ví dụ, số lượng ghế cần có thể nhận được từ số lượng bản ghi Attending = Yes trong bảng cá nhân và số lượng tem cần cho lời cảm ơn có thể nhận được từ số lượng bản ghi trong bảng nhóm nơi Gift khác null.

Quá trình chia nhỏ tất cả dữ liệu thành nhiều bảng và tìm ra bảng nào chứa cột nào được gọi là chuẩn hóa. Chuẩn hóa giúp giảm dữ liệu dư thừa và đơn giản hóa việc tổ chức dữ liệu.

Tuy nhiên, có những lúc thông tin cần được chia làm nhiều bảng. Ví dụ, nếu chúng ta muốn cân bằng việc sắp xếp chỗ ngồi (cá nhân) để các nhóm từ phía cô dâu được xen kẽ các nhóm bên chú rể. (Cầu nối hoặc liên kết được theo dõi ở cấp độ nhóm). Để làm điều này, chúng ta cần liên kết các bảng với nhau để các cá nhân được liên kết với thông tin về nhóm của họ. Chuẩn hóa phù hợp không chỉ chia bảng mà còn yêu cầu sự hiện diện của các trường được liên kết, chia sẻ hoặc hoặc nhận diện duy nhất có thể được dùng để kết hợp dữ liệu lại với nhau một lần nữa. Ở đây trường được liên kết là Group, trường này có ở cả hai bảng, vì thế, có thể join vào trường này và trở lại định dạng bảng ban đầu của chúng ta. Đây là cấu trúc không chuẩn hóa.

Việc không giữ lại bảng không chuẩn hóa ban đầu vì chúng khó duy trì và lưu trữ thông tin dư thừa. Ở quy mô lớn, mức độ trùng lặp dữ liệu có thể rất lớn, lưu trữ lặp đi lặp lại cùng một thông tin không hiệu quả.

  • Các bảng chuẩn hóa có một số thuộc tính khóa.
  • Mỗi hàng cần một nhận diện duy nhất.

Mỗi bảng cần một hoặc nhiều cột có thể được dùng để kết nối nó trở lại các bảng khác (key).

Các cột (key) được chia sẻ này được dùng để liên kết hoặc nối bảng lại với nhau. Đối với dữ liệu của chúng ta, mệnh đề mối quan hệ hoặc nối sẽ nằm trên trường Group ở mỗi bảng.

1.2. Join Types (loại nối)

Mặc dù, phương pháp mặc định để kết nối dữ liệu trong Tableau Desktop là liên kết, có những trường hợp bạn nên join table (nối bảng) trong Tableau Desktop hoặc Tableau Prep Builder.

2. “Tidy” data

Vào tháng 8 năm 2014, Hadley Wickham đã xuất bản một bài báo trên tạp chí the Journal of Statistical Software có tên “Tidy data” (dữ liệu ngăn nắp) trong tập 59 số 10. Bài viết đã đặt ra một khuôn khổ cho dữ liệu có cấu trúc tốt để phân tích, bạn có thể tham khảo tại đây.

Cấu trúc dữ liệu luôn là chủ đề quan trọng mà bất kỳ nhà phân tích nào cũng cần chú ý. Mong rằng những thông tin được chia sẻ trên đây sẽ hữu ích với bạn đọc. Đừng quên theo dõi các bài viết mới nhất tại website bacs.vn và tham gia khóa học Tableau tại BAC để học cách sử dụng một trong những công cụ phân tích và trực quan dữ liệu tốt nhất hiện nay.

Nguồn tham khảo:

https://help.tableau.com/

Nhu cầu đào tạo doanh nghiệp

BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.

Tham khảo chương trình đào tạo: 

 

Previous Post
Next Post
Exit mobile version