Những điều cần biết Join dữ liệu của bạn trong Tableau (Phần 2)

Trong phần trước, chúng ta đã tìm hiểu về khái niệm join dữ liệu cũng như cách thực hiện join dữ liệu. Không dừng lại ở đó, Tableau hỗ trợ nhiều kiểu join, ngoài ra, bạn cũng cần biết đến khái niệm mệnh đề join. Hãy tham khảo phần đầu tiên ngay dưới đây nếu bạn chưa biết đến khái niệm này.

Tham khảo: Những điều cần biết Join dữ liệu của bạn trong Tableau (Phần 1)

1. Những điều cần biết về join

Join được xác định bởi loại và mệnh đề.

1.1. Các loại join

Thông thường có 4 loại joins mà bạn có thể sử dụng trong Tableau là inner, left, right và full outer. Trong trường hợp không biết nên dùng loại nào để kết hợp dữ liệu từ nhiều bảng khác nhau, bạn nên dùng relationship.

Loại Join Kết quả

Inner

Khi bạn dùng một inner join để kết hợp các bảng, kết quả là một bảng chứa các giá trị khớp trong cả hai bảng.

Khi có một giá trị không khớp trên cả hai bảng, nó sẽ bị loại bỏ hoàn toàn.

Left

Khi bạn dùng một left join để kết hợp các bảng, kết quả là một bảng chứa tất cả các giá trị từ bảng bên trái và các kết quả khớp tương ứng từ bảng bên phải.

Khi một giá trị trong bảng bên trái không có giá trị khớp trong bảng bên phải, bạn sẽ thấy một giá trị null trong lưới dữ liệu.

Right

Khi bạn dùng một right join để kết hợp các bảng, kết quả là một bảng chứa tất cả các giá trị từ bảng bên phải và các kết quả khớp tương ứng từ bảng bên trái.

Khi một giá trị trong bảng bên phải không có một kết quả khớp trong bảng bên trái, bạn sẽ thấy một giá trị null trong lưới dữ liệu.

Full outer

Khi bạn sử dụng một full outer join để kết hợp các bảng, kết quả là một bảng chứa tất cả các giá trị từ hai bảng.

Khi một giá trị từ một trong hai bảng không khớp với bảng khác, bạn sẽ thấy giá trị null trong lưới dữ liệu.

Union

Mặc dù, union không phải một loại join, union là một phương pháp khác để kết hợp hai hoặc nhiều bảng bằng cách nối các hàng dữ liệu từ bảng này sang bảng khác. Lý tưởng nhất là các bảng mà bạn kết hợp có cùng số trường và các trường đó có tên và tên kiểu dữ liệu phù hợp.

1.2. Mệnh đề Join

Join được thực hiện bằng cách thiết lập một hoặc nhiều mệnh đề join. Mệnh đề join cho Tableau biết trường nào sẽ được chia sẻ giữa các bảng và cách khớp các hàng tương ứng. Ví dụ, các hàng có cùng ID được căn chỉnh trong bảng kết quả.

Các mệnh đề join thường dùng toán từ bằng (=) để khớp các dòng có cùng giá trị. Cũng có thể thực hiện các phép join không tương đương, chẳng hạn như nhỏ hơn (<) và không bằng (<>).

Một phép join cũng có thể có nhiều mệnh đề join.

  • Ví dụ, nếu First name và Last name được lưu trữ trong các cột khác nhau, có thể có lợi khi chỉ kết hợp nếu “First name = First name” và “Last name = Last name”. Cả hai điều kiện sẽ phải đúng đối với các hàng được join. Ngoài ra, nếu mục tiêu là trả về kết quả khi last name được chia sẻ còn first name thì không, mệnh đề join có thể là “First name <> First name” và “Last name = Last name”.

Mệnh đề join có thể chứa các phép tính.

  • Ví dụ, mệnh đề join có thể là sự ghép nối của các trường tên “[First name] + [Last name] = [First name] + [Last name]”. Lưu ý rằng không phải tất cả các kết nối nguồn dữ liệu đều hỗ trợ tính toán trong các mệnh đề join.
1.3. Các giá trị null trong các khóa join
  • Thông thường, các phép joins thực hiện ở cấp độ cơ sở dữ liệu. Nếu các trường được dùng để join các bảng chứa các giá trị null, thì hầu hết cơ sở dữ liệu trả về dữ liệu mà không có các hàng chứa giá trị null.
  • Tuy nhiên, đối với một số nguồn dữ liệu kết nối nhất định, Tableau cung cấp một tùy chọn bổ sung để cho phép bạn nối các trường chứa các giá trị null với các trường khác chứa giá trị null.
  • Sau khi bạn thiết lập nguồn dữ liệu của mình, trên trang nguồn dữ liệu, hãy chọn Data > Join null values to null values.

Nếu tùy chọn chuyển sang màu xám, nó không khả dụng đối với nguồn dữ liệu của bạn. Lưu ý rằng nếu bạn thêm kết nối thứ hai vào nguồn dữ liệu sử dụng tùy chọn này, kết nối sẽ trở lại hành vi mặc định là loại trừ các hàng có giá trị null.

2. Join cơ sở dữ liệu chéo

Tableau cho phép join các bảng trong các nguồn dữ liệu khác nhau, mặc dù có một số hạn chế từ phía cơ sở dữ liệu mà nền tảng tương thích. Các phép nối cơ sở dữ liệu chéo yêu cầu nguồn dữ liệu đa kết nối – nghĩa là bạn tạo một kết nối mới cho mỗi cơ sở dữ liệu trước khi tham gia các bảng.

  • Bước 1: Khi bạn đã kết nối với nguồn dữ liệu đầu tiên, sử dụng tùy chọn Add trong thanh dữ liệu để thêm kết nối khác.

Lưu ý: Nếu trình kết nối bạn muốn không có sẵn trong danh sách Connect khi bạn cố gắng thêm một kết nối khác nữa, join cơ sở dữ liệu chéo không được hỗ trợ cho sự kết hợp của các nguồn mà bạn muốn join. Điều này bao gồm các kết nối đến dữ liệu khối (ví dụ, Microsoft Analysis Services), hầu hết dữ liệu chỉ trích xuất (ví dụ, Google Analytics và Odata) và các nguồn dữ liệu Tableau Server đã xuất bản.

  • Bước 2: Điều này sẽ tạo một kết nối thứ hai thay vì một nguồn dữ liệu hoàn toàn khác. Bạn có thể chuyển đổi giữa hai (hoặc nhiều) kết nối khi ở trên tab nguồn dữ liệu.

  • Bước 3: Khi bạn chuyển sang worksheet và bắt đầu phân tích, nguồn dữ liệu sẽ hoạt động như là một nguồn dữ liệu kết hợp duy nhất. Điều này trái ngược với hai nguồn dữ liệu độc lập có thể được chuyển đổi giữa trên một worksheet.

Lưu ý: Thông thường, việc join các bảng từ một cơ sở dữ liệu sẽ mang lại hiệu suất tốt hơn. Nguyên nhân là do việc truy vấn dữ liệu được lưu trữ trên cùng cơ sở dữ liệu sẽ mất ít thời gian hơn và tận dụng các khả năng gốc của cơ sở dữ liệu để thực hiện việc join.

Join dữ liệu có những ưu và nhược điểm riêng, tùy vào nhu cầu phân tích mà bạn có thể tận dụng tính năng này của Tableau. Nếu bạn không chắc chắn về kiểu join cũng như mệnh đề join hãy sử dụng relationship theo mặc định để kết hợp dữ liệu. Hy vọng những thông tin trên sẽ hữu ích với bạn đọc, đừng quên đón xem các nội dung mới nhất sẽ được cập nhật thường xuyên tại website bacs.vn.

Nguồn tham khảo:

https://help.tableau.com/

Nhu cầu đào tạo doanh nghiệp

BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.

Tham khảo chương trình đào tạo: 

 

Các bài viết liên quan Power BI: 

    Các bài viết liên quan: 

    • TABLEAU – Giải pháp BUSINESS INTELLIGENCE (BI) – click vào đây
    • Hướng dẫn cài đặt và Sử dụng TABLEAU – click vào đây
    • Tính năng mới trên tableau – version 2019.1 – click vào đây

    BAC – Biên soạn và tổng hợp nội dung

    Previous Post
    Next Post