Tableau Prep là một công cụ chuẩn bị và khám phá dữ liệu cung cấp một cách trực quan, không dùng mã để bạn rút ra thông tin chuyên sâu, bằng cách cho phép bạn khám phá, làm sạch và định hình dữ liệu của mình một cách tương tác trong thời gian thực trước khi phân tích.
1. Xây dựng luồng của bạn bằng Tableau Prep
Khi bạn đang làm sạch dữ liệu của mình theo bất kỳ loại bước nào có sẵn (Clean, Union, Join,...), bạn đang ở chế độ gọi là Interactive Mode (Chế độ tương tác) trong Tableau Prep. Chế độ tương tác cung cấp phản hồi trực tiếp, tương tác khi bạn dọn dẹp, kết hợp và định hình lại dữ liệu của mình.
Ví dụ, nếu bạn nối hai bảng lại với nhau trong một bước Join, bạn sẽ thấy kết quả nối cuối cùng giảm xuống số lượng hàng ngay lập tức. Đôi khi, Tableau Prep cũng có thể lấy mẫu dữ liệu của bạn. Lấy mẫu đảm bảo khả năng phản hồi để giúp bạn theo kịp tiến trình của nhiệm vụ, ngay cả khi bạn đang làm việc với lượng lớn dữ liệu trong Tableau Prep. Bạn có thể sử dụng số lượng mẫu mặc định hoặc tạo một bộ mẫu bằng cách chỉ định một số hàng cố định.
Ảnh minh họa lấy mẫu dữ liệu trong Tableau Prep
2. Cách Tableau Prep cache dữ liệu
Khi bạn kết nối với nguồn dữ liệu trong Tableau Prep, bạn sẽ nhận thấy rằng bạn không có tùy chọn để chọn giữa kết nối trực tiếp hoặc trích xuất như trong Tableau Desktop.
Thay vào đó, Tableau Prep lưu trữ dữ liệu của bạn dưới dạng Hyper trích xuất trong công cụ dữ liệu trong bộ nhớ, hiệu suất cao. Tuy nhiên, Tableau Prep không lưu trữ mọi thứ và trải nghiệm sẽ khác nếu đây là lần đầu tiên bạn xây dựng một quy trình từ đầu, thay vì quay lại để chỉnh sửa một quy trình hiện có đã được đồng nghiệp xây dựng.
3. Xây dựng quy trình từ đầu
Tableau Prep sẽ luôn cache kết quả từ bước Input của bạn. Trong bước Input, Tableau Prep truy vấn các bảng đầu vào từ cơ sở dữ liệu nguồn hoặc tệp, nhập dữ liệu vào trích xuất Hyper đóng vai trò là bộ đệm được sử dụng khi bạn tiếp tục xây dựng quy trình của mình.
Bộ nhớ đệm này giúp bạn có thể xác thực các thay đổi của mình khi chúng đang diễn ra mà không làm chậm cơ sở dữ liệu bên dưới hoặc máy của bạn. Khi bạn xóa hoặc định hình lại dữ liệu của mình sau bước Input, các thay đổi sẽ được áp dụng cho dữ liệu trong bộ đệm ẩn. (Tableau Prep không truy vấn các bảng nguồn sau bước Input khi bạn ở Chế độ tương tác.)
Nội dung được lưu trong bộ đệm sẽ dựa trên cách bạn định cấu hình bước Input của mình. Nếu bạn chọn lấy mẫu, xóa cột hoặc thay đổi loại dữ liệu, những thay đổi này sẽ ảnh hưởng đến kết quả. Dữ liệu của bạn được lưu vào bộ nhớ cache một lần nữa trong toàn bộ quy trình khi bạn thêm các bước tính toán tốn kém như các bước Join hoặc các bước Union.
4. Chỉnh sửa một luồng
Nếu bạn quay lại và chỉnh sửa một quy trình dựng sẵn, bộ nhớ đệm sẽ phụ thuộc vào bước bạn mở và bắt đầu khám phá. Tableau Prep được trang bị một thuật toán đặc biệt quyết định bước nào là tốt nhất để cache. Tùy thuộc vào vị trí của bạn trong quy trình và dữ liệu nào cần thiết để mang lại trải nghiệm hiệu quả, trực quan và tương tác, Tableau Prep có thể lưu trữ các bước Input, Union hoặc Join của bạn, trong số những bước khác.
5. Điều gì xảy ra khi bạn tạm dừng cập nhật?
Đôi khi, khi bạn đang xây dựng một quy trình trong Tableau Prep, bạn có thể không cần cập nhật trực tiếp. Đôi khi, bạn chỉ cần thực hiện thêm thao tác dọn dẹp nhanh hoặc chuyển đổi dữ liệu đầu vào hàng loạt.
Trong những tình huống này, Tableau Prep cho phép bạn tạm dừng cập nhật dữ liệu. Khi bạn chọn tạm dừng cập nhật dữ liệu, bạn đang ở Metadata Mode. Việc tạm dừng cập nhật dữ liệu cho phép bạn nhanh chóng thực hiện các thay đổi đối với quy trình của mình trước khi tạo kết quả.
Tạm dừng cập nhật dữ liệu trong Tableau Prep
6. Chạy luồng của bạn với Tableau Prep
Khi bạn chạy quy trình của mình và tạo đầu ra để phân tích, bạn đang ở Run Mode và Tableau Prep sẽ chạy quy trình của bạn dựa trên toàn bộ tập dữ liệu. Ví dụ, nếu bạn đặt kích thước mẫu thành năm nghìn hàng, nhưng nguồn dữ liệu cơ bản của bạn có năm triệu hàng, thì toàn bộ tập dữ liệu năm triệu hàng sẽ được truy vấn khi bạn chạy quy trình của mình.
Tableau Prep có một công cụ thực thi thông minh đẩy các hoạt động xuống cơ sở dữ liệu của bạn khi có thể. Điều này giúp bạn tiết kiệm thời gian và tài nguyên vì Tableau Prep bảo tồn sức mạnh xử lý của máy nếu bạn đang chạy quy trình của mình theo cách thủ công hoặc thông qua giao diện dòng lệnh, nếu bạn đang lên lịch cho các luồng của mình trên Prep Conductor, tài nguyên Server của bạn sẽ được bảo toàn theo cách tương tự.
Bạn có biết rằng bạn có thể tạo bao nhiêu bước Input tùy thích trong quy trình của mình không? Bạn có thể linh hoạt chạy một đầu ra tại một thời điểm hoặc tất cả các đầu ra bằng nút Run all Flows ở đầu giao diện Tableau Prep.
Chạy tất cả các luồng trong Tableau Prep
Các quy trình chạy thủ công hoạt động tốt khi mới bắt đầu, nhưng cuối cùng, bạn sẽ cần tự động hóa quy trình làm mới để thay đổi quy mô quy trình chuẩn bị dữ liệu của mình một cách hợp lý nhằm đáp ứng nhu cầu của toàn bộ tổ chức.
Tableau Prep Conductor, một phần của Data Management add-on, cho phép người dùng lên lịch và chạy các quy trình công việc theo kiểu có thể mở rộng, đáng tin cậy và an toàn trong Tableau Server hoặc môi trường Online. Prep Conductor (hiển thị bên dưới) cho phép bạn tập trung lập lịch trình, giám sát và quản lý luồng của mình.
Tableau Prep Conductor
Trên đây là cách hoạt động của Tableau Prep, hy vọng bài viết này sẽ giúp bạn có thể tự tin xây dựng và chạy các quy trình chuẩn bị dữ liệu của mình. Đừng quên đón xem các bài viết mới nhất sẽ được cập nhật tại BAC's Blog.
Nguồn tham khảo:
Nhu cầu đào tạo doanh nghiệp
CÁC KHOÁ HỌC BUSINESS ANALYST BACs.VN DÀNH CHO BẠN
Khoá học Online:
Khoá học Offline:
Tại Tp.HCM:
Tại Hà Nội:
Tham khảo lịch khai giảng TẤT CẢ các khóa học mới nhất
Ban biên tập nội dung - BAC