Lập kế hoạch Data Source trong Tableau (Phần 1)

Trung tâm của Tableau chính là dữ liệu của bạn. Mức độ thành công của bạn với việc khám phá dữ liệu, trả lời câu hỏi và xây dựng trực quan cho chính bạn hoặc người khác sử dụng tất cả phụ thuộc vào dữ liệu cơ bản.

Nếu mục tiêu của bạn là thực hiện một số khám phá nhanh hoặc phân tích đặc biệt, bạn có thể tham gia, kết nối với một số dữ liệu, kéo và thả một chút để xây dựng các trực quan và tìm kiếm thông tin bạn cần. Nhưng nếu mục tiêu của bạn là tạo ra một phân tích hoặc nguồn dữ liệu sẽ được sử dụng nhiều lần thì tốt nhất bạn nên suy nghĩ kỹ và lập kế hoạch cho Data Source của mình.

1. Tableau data source

Một Tableau data source là một liên kết giữa nguồn dữ liệu của bạn và Tableau. Về cơ bản, nó là tổng dữ liệu (dưới dạng kết nối trực tiếp hoặc trích xuất), thông tin kết nối, tên của các bảng hoặc sheets chứa dữ liệu và các tùy chỉnh mà bạn thực hiện trên dữ liệu để làm việc với nó trên Tableau. Những tùy chỉnh đó bao gồm những thứ như cách dữ liệu được kết hợp siêu dữ liệu (metadata) như các phép tính, các trường được đổi tên và định dạng mặc định.

Một Tableau data source có thể chứa nhiều kết nối dữ liệu (data connection) đến các tệp hoặc cơ sơ dữ liệu khác nhau. Thông tin kết nối bao gồm nơi đặt dữ liệu, ví dụ, tên tệp và đường dẫn hoặc vị trí mạng (network) và chi tiết cách kết nối. Chẳng hạn như tên máy chủ cơ sở dữ liệu và thông tin đăng nhập.

Lưu ý: Các thuật ngữ data source và data connection đã được dùng khá bừa bãi trong quá khứ và có thể thiếu sự phân biệt rõ ràng trong các tài liệu cũ.

Cần lưu ý sự khác biệt giữa Tableau data source (quyền truy cập của Tableau vào dữ liệu của bạn và tất cả tùy chỉnh có thể liên quan) và bản thân nguồn dữ liệu (như cơ sở dữ liệu hoặc bảng tính Excel). Lập kế hoặc data source theo nghĩa thiết kế cơ sở dữ liệu không thuộc phạm vi bài viết này.

Tableau data sources vẫn có thể được nhúng trong workbook nơi ban đầu chúng được tạo ra hoặc chúng có thể được xuất bản riêng. Published Data Sources cho phép tập trung và mở rộng các nguồn dữ liệu được quản lý.

2. Những điều cần cân nhắc đối với Tableau data source

Trước khi bắt đầu, bạn cần hiểu rõ mục đích của data source. Nếu bạn muốn tạo một data source tổng hợp cho nhiều người dùng có nhiều câu hỏi khác nhau, bạn sẽ làm theo cách khác so với khi bạn đang tạo một data source thích hợp được tối ưu hóa hiệu suất. Điều quan trọng là phải xác định được mục tiêu của bạn ngay từ đầu và lập kế hoạc trước khi bạn xây dựng data source trong Tableau.

  • Vị trí và quyền truy cập
  • Hình dạng và độ sạch
  • Mô hình dữ liệu và kết hợp dữ liệu
  • Siêu dữ liệu (metadata) và tùy chỉnh
  • Khả năng mở rộng, bảo mật và khám phá
  • Hiệu suất và sự tươi mới
2.1. Vị trí và quyền truy cập

Vị trí dữ liệu của bạn có thể đơn giản như một tệp excel duy nhất trên máy tính của bạn hoặc một Google sheet mà bạn đã tạo hoặc phức tạp như nhiều cơ sở dữ liệu sử dụng các công nghệ khác nhau. Quyền truy cập cũng có thể liên quan đến trình điều khiển hoặc trình kết nối cụ thể cho cơ sở dữ liệu hoặc thông tin đăng nhập cho máy chủ cơ sở dữ liệu.

Câu hỏi cần cân nhắc:

  • Người dùng Tableau chính xác có quyền truy cập và quyền đối với dữ liệu và Tableau không?
  • Tài khoản người dùng nào được sử dụng để đăng nhập vào cơ sở dữ liệu?
  • Lọc người dùng hoặc bảo mật cấp hàng có cần thiết không?
  • Là dữ liệu nguồn trên cơ sở hoặc đám mây?

    • Điều này có thể có ý nghĩa nếu dữ liệu được xuất bản lên Tableau Online.
  • Có các kết nối được hỗ trợ không?
  • Có giới hạn nào cho cơ sở dữ liệu đó không (nó có hỗ trợ tất cả các chức năng mà bạn muốn sử dụng) không?
2.2. Hình dạng và độ sạch

Tổ chức của bạn có thể đã có dữ liệu có cấu trúc tốt mà bạn có thể kết nối hoặc các quy trình ETL mà bạn có thể tận dụng hoặc bạn có thể cần dùng Tableau Prep Builder để thực hiện các hoạt động làm sạch và định hình nhằm đưa dữ liệu của bạn sang định dạng hữu ích.

Câu hỏi cần cân nhắc:

  • Dữ liệu có được cấu trúc tốt để sử dụng với Tableau không?
  • Có nên sử dụng Tableau Prep Builder và Tableau Prep Conductor để làm sạch và tự động hóa các luồng chuẩn bị dữ liệu không?
  • Những phép tính hoặc thao tác nào sẽ được thực hiện nguyên bản tốt nhất trong Tableau?
  • Có bất kỳ dữ liệu nào trong số này không cần thiết không? Có dữ liệu nào bị thiếu không?
2.3. Mô hình dữ liệu và kết hợp dữ liệu

Tableau cần biết cách truy vấn dữ liệu, điều này được truyền đạt bởi The Tableau Data Model. Nếu dữ liệu đến từ nhiều bảng, nó cần được kết hợp. Các phương pháp kết hợp dữ liệu bao gồm các mối quan hệ (relationships), liên kết (joins), hợp nhất (unions) và kết hợp (blends).

Câu hỏi cần cân nhắc:

  • Dữ liệu có trải rộng trên nhiều hệ thống không?
  • Cách tốt nhất để kết hợp từng bảng dữ liệu là gì?
2.4. Siêu dữ liệu và tùy chỉnh

Dữ liệu thường được lưu trữ theo cách khó sử dụng ví dụ như tên trường mặc định không phổ biến, có thể được định dạng tùy chỉnh, định nghĩa về chữ viết tắt hoặc mã bị thiếu hoặc các phép tính thông thường không có trong dữ liệu cơ bản. Tạo một lớp siêu dữ liệu với những phần thông tin đó có thể làm cho dữ liệu dễ hiểu và dễ sử dụng hơn.

Câu hỏi cần cân nhắc:

  • Những phép tính nào cần được thêm vào?
  • Tên bảng và trường đã dễ hiểu chưa?
  • Các cài đặt mặc định cho các trường đã hữu ích chưa hay cần được tùy chỉnh?
  • Có bất kỳ điều chỉnh nào cần được thực hiện để hỗ trợ Ask Data hoặc Tableau Catalog không?

Lưu ý: rằng Explain Data không hỗ trợ các nguồn dữ liệu nhiều bảng tại cùng một thời điểm.

2.5. Khả năng mở rộng, bảo mật và khám phá

Một data source có thể vẫn còn trong workbook nơi nó được tạo – một data source được nhúng hoặc nó có thể được xuất bản lên Tableau Server hoặc Tableau Online một cách độc lập với bất kỳ phân tích nào dưới dạng một tài sản nội dung của riêng nó. Việc tập trung các data source đã xuất bản này có thêm lợi ích về bảo mật và mở rộng quy mô, cho phép nhiều người dùng truy cập vào một data source nhất quán. Các data source đã xuất bản cũng có thể tận dụng Tableau Catalog và các gợi ý, đồng thời cung cấp một data source duy nhất cho một tổ chức.

Câu hỏi cần cân nhắc:

  • Data source có nên được nhúng trong workbook không? (Những câu hỏi sau giả sử data source được xuất bản)
  • Data source sẽ được xuất bản ở đâu?
  • Ai sẽ sở hữu data source?
  • Nó phải có xác thực và quyền gì?
  • Nó có được chứng nhận không?
2.6. Hiệu suất và sự tươi mới

Ngoài ra, Tableau data sources có thể là kết nối trực tiếp đến dữ liệu nguồn hoặc dữ liệu có thể được sao chép ra dưới dạng một bảng trích xuất có thể làm mới. Trích xuất có thể tăng hiệu suất phân tích hoặc ngăn chặn việc tiêu hao tài nguyên đối với hệ thống cơ sở dữ liệu.

Câu hỏi cần cân nhắc:

  • Nên kết nối dữ liệu trực tiếp hay trích xuất?
  • Nếu giải nén thì có lịch làm mới không? (Tableau Server, Tableau Online)
  • Nếu được xuất bản lên Tableau Online, Tableau Bridge có cần được dùng không?
3. Xây dựng data source chất lượng

Có rất nhiều thứ đi vào data source được thiết kế tốt và hiệu quả. Tuy nhiên, bạn không cần xuất bản lần thử đầu tiên của mình. Giống như tạo trực quan tốt, xây dựng data source có thể là một quá trình liên tục. Hãy thử kết hợp dữ liệu mà bạn nghĩ mình cần và sau đó xem liệu bạn có thể xây dựng trực quan mà bạn muốn hay không. Bạn luôn có thể quay lại và viết một phép tính mới hoặc đưa vào một bảng dữ liệu khác.

Tốt nhất chỉ nên xuất bản các data sources mà bạn tin tưởng và chỉ chứng nhận những nguồn đã vượt qua đảm bảo chất lượng. Vào thời điểm data source của bạn xuất hiện trước người dùng, họ sẽ có thể tin tưởng vào nó.

Kết thúc phần đầu tiên, BAC đã giới thiệu đến bạn đọc khái niệm và tầm quan trọng của Tableau data source. Mong rằng những kiến thức trên đây sẽ hữu ích với các bạn quan tâm Tableau nói riêng và lĩnh vực phân tích dữ liệu nói chúng. Đừng quên đón xem phần tiếp theo với chủ đề kết hợp dữ liệu tại website bacs.vn.

Nguồn tham khảo:

https://help.tableau.com/

Đọc tiếp phần 2 tại đây nhé: Lập kế hoạch Data Source trong Tableau (Phần 2)

Nhu cầu đào tạo doanh nghiệp

BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.

Tham khảo chương trình đào tạo: 

Các bài viết liên quan Power BI: 

Các bài viết liên quan: 

  • TABLEAU – Giải pháp BUSINESS INTELLIGENCE (BI) – click vào đây
  • Hướng dẫn cài đặt và Sử dụng TABLEAU – click vào đây
  • Tính năng mới trên tableau – verion 2019.1 – click vào đây

BAC – Biên soạn và tổng hợp nội dung

 

Previous Post
Next Post