Tập dữ liệu Bookshop được tạo cho Tableau Desktop 2020.2 để giới thiệu các mối quan hệ – khả năng lập mô hình dữ liệu mới để kết hợp dữ liệu.
1. Tải các tệp
Bạn có thể tải dữ liệu thô và bắt đầu xây dựng mô hình dữ liệu của riêng mình hoặc tải xuống một trong các nguồn dữ liệu được tạo sẵn để chuyển ngay vào phân tích với các mối quan hệ.
- Dữ liệu thô (xlsx)
-
Các tệp nguồn dữ liệu được đóng gói (tdsx)
- Tải tệp .tdsx được đóng gói với nguồn dữ liệu được liên kết đã được xây dựng và một vài tùy chỉnh siêu dữ liệu được thêm vào tại đây.
- Tải các bảng tương tự như Bookshop.tdsx nhưng không có bất kỳ siêu dữ liệu hoặc bản dọn dẹp nào tại đây.
- Tải tệp .tdsx được đóng gói để thêm các bảng thư viện vào Bookshop.tdsx (bao gồm tất cả các bảng) tại đây.
-
Để kết nối đến một tệp .tdsx đã tải
- Bước 1: Mở Tableau Desktop.
- Bước 2: Trong ngăn Connect bên trái, chọn tùy chọn More … bên dưới tiêu đề To a file.
- Bước 3: Điều hướng đến nơi bạn đã tải tệp .tdsx về và nhấp đúp vào tệp để mở (hoặc chọn tệp và nhấn Open).
2. Tập dữ liệu
Bookshop bao gồm 13 bảng và được kết hợp như ảnh dưới đây:
Lưu ý: Một khái niệm trung tâm cho tập dữ liệu này là ý tưởng về một cuốn sách so với một ấn bảng. Sách là một khái niệm có các thuộc tính như tác giả, tiêu đề và thể loại. Một ấn bản là một phiên bản thực của sách, với các thuộc tính như là định dạng (bìa cứng, bìa mềm), ngày xuất bản và số trang.
2.1. Thư viện dữ liệu
Một số trường có thể cần được giải thích.
- Trường Rating trong bảng Rating là một thước đo từ 1 – 5với 5 là cao nhất.
- Trường Format là một bảng phân tích chi tiết về định dạng. Mọi thứ khác ngoài “Hardcover” có thể được coi là “Papercover”.
- ISBN là viết tắt cho International Standard Book Number (Mã số sách tiêu chuẩn) và là một mã định danh gồm 13 chữ số duy nhất được cấp cho mỗi ấn bản sách. ISBN được thể hiển trong mã vạch và được gắn với giá.
- Hai trường ItemID và OrderID có thứ bậc. Một đơn đặt hàng có thể chứa nhiều mặt hàng.
- Trường Staff Comment chứa các bảng tóm tắt và đánh giá cho một số cuốn sách.
2.2. Xây dựng nguồn dữ liệu của riêng bạn
- Bước 1: Các bảng Publisher và Sales phải được liên kết với bảng Edition.
-
Bước 2: Các bảng Book và Info có thể được liên kết hoặc joined nhưng nó phải nằm trên phép tính BookID = [BookID1] + [BookID2].
- Khuyến nghị sử dụng inner join.
- Tham khảo: Những điều cần biết về join dữ liệu trong Tableau
- Bảng Series chỉ có thể được dùng khi bản Infor là một phần của nguồn dữ liệu.
Các bước sau không bắt buộc:
- Bước 3: Bạn có thể đổi tên bảng logic của Book được join với Infor “Book” hoặc những thứ tương tự.
- Bước 4: Bốn bảng Sales có thể được phân tích một cách độc lập nhưng nếu chúng được thống nhất (union), bạn nên đổi tên nhóm là “Sales” hoặc tương tự.
-
Bước 5: Hầu hết các trường được dùng để tạo mối quan hệ không cần thiết để phân tích và có thể bị ẩn khi mô hình dữ liệu đã được xây dựng.
- Bất kỳ trường nào kết thúc bằng ID đều có thể bị ẩn.
- ISBN nên được giữ, lý tưởng là từ bảng Edition, làm số nhận dạng của mỗi ấn bản. Trường ISBN trong bảng Sales được union có thể bị ẩn.
- Trường Title trong bảng Award có thể bị ẩn.
- Các trường bảng và sheet từ Union cũng không chứa thông tin duy nhất và có thể bị ẩn.
- Bước 6: Để đơn giản mô hình dữ liệu, các bảng chính là Book, Author và Edition. Các bảng dễ bỏ qua nhất với tác động tối thiểu là Checkouts and Ratings, tiếp theo là Award, Publisher, Sales hoặc Infor và Series.
3. Các thư viện Bookshop
Tệp BookshopLibraries.xlsx giới thiệu các bảng mới xung quanh các thư viện nhằm mục đích hỗ trợ các mối quan hệ many-to-many.
- Bảng Catalog liên kết với bảng Editions trên ISBN.
- Bảng Library Profiles liên kết đến bảng Catalog dưới dạng mối quan hệ many-to-many trên LibraryID.
3.1. Từ điển dữ liệu
-
Hồ sơ thư viện
- Trường Library là tên của thư viện.
- Trường Library ID một ID cùng được dùng trong bảng Catalog.
- Trường Consortium Member là trường yes hoặc no xác định thư viện có là một phần của mạng lưới thư viện lớn hơn cung cấp các khoản cho mượn giữa các thư viện và chia sẻ các dịch vụ khác hay không.
- Trường Private là một trường yes hoặc no cho biết đây là thư viện chỉ dành cho thành viên hay một tổ chức công cộng.
- Staff Type và Number of Staff cùng nhau mô tả số lượng nhân viên thư viện, trợ lý thư viện và kỹ thuật viên làm việc cho mỗi thư viện.
-
Mục lục
- LoanID là một mã định danh duy nhất cho sự kết hợp của ISBN và thư viện được dùng để theo dõi Number of Copies (số lượng bản sao) một thư viện có. Ví dụ, nếu Idle Hour Library có hai bản sao bìa mềm và một bìa cứng của tiêu đề, thì sẽ có 2 Loan ID.
- Trường Library ID là một ID cũng được dùng trong bảng Library Profile.
Trên đây là những gì mà bạn cần biết về tập dữ liệu Bookshop có sẵn để minh họa các mối quan hệ và các tính năng kết hợp dữ liệu. Hy vọng rằng những thông tin được chia sẻ trên đây đã cung cấp những kiến thức hữu ích cho bạn đọc. Hãy tham gia ngay khóa học Tableau tại BAC để trang bị cho mình nền tảng vững chắc về phân tích và trực quan dữ liệu.
Nguồn tham khảo:
Nhu cầu đào tạo doanh nghiệp
BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.
Các bài viết liên quan Power BI:
- Power BI cơ bản cho người mới bắt đầu
- Chỉnh sửa và định hình dữ liệu trong Power BI Desktop
- Kết hợp dữ liệu trong Power BI Desktop
- Hướng dẫn kết nối dữ liệu trong Power BI Desktop
- Hướng dẫn tải & cài đặt Power BI trên máy tính
- Khóa học Phân tích và trực quan hóa dữ liệu với Power BI
- Power BI là gì?
Các bài viết liên quan:
- TABLEAU – Giải pháp BUSINESS INTELLIGENCE (BI) – click vào đây
- Hướng dẫn cài đặt và Sử dụng TABLEAU – click vào đây
- Tính năng mới trên tableau – verion 2019.1 – click vào đây
BAC – Biên soạn và tổng hợp nội dung