Microsoft Fabric là một nền tảng phân tích đám mây Saas đầu cuối. Đây là một giải pháp phân tích tổng hợp giúp doanh nghiệp nhất quán trong mọi thao tác làm việc với dữ liệu như dịch chuyển, lưu trữ, phân tích theo thời gian thực,.... Trong bài viết này, chúng ta sẽ cùng tìm hiểu Data Warehouse, một đối tượng trong Microsoft Fabric là gì và cách nó hoạt động.

1. Microsoft Fabric Data Warehouse là gì?

Microsoft Fabric Data Warehouse là một hệ thống cơ sở dữ liệu lưu trữ dữ liệu trong OneLake. Nó cung cấp phương tiện để tương tác với cơ sở dữ liệu bằng lệnh SQL. Fabric Data Warehouse hay còn được biết đến với tên gọi Data Warehouse hoặc gọi tắt là Warehouse, cung cấp một công cụ tính toán mạnh mẽ để tính khối lượng dữ liệu lớn và hỗ trợ hệ thống cơ sở dữ liệu hoạt động nhanh.

Tóm lại, Microsoft Fabric Data Warehouse là công cụ phân tích dữ liệu hoạt động nhanh, hỗ trợ SQL hoàn toàn và lưu trữ dữ liệu trong OneLake.

Có một vài điểm khác biệt giữa Data Warehouse và Lakehouse là Lakehouse hỗ trợ cả dữ liệu có cấu trúc và không có cấu trúc, trong khi Data Warehouse chỉ hỗ trợ dữ liệu có cấu trúc. Lakehouse chỉ hỗ trợ các lệnh SQL để đọc dữ liệu, trong khi Data Warehouse hỗ trợ dữ liệu cho các hoạt động đọc và ghi.

2. Bắt đầu với Warehouse

Để bắt đầu tạo Warehouse, trước tiên, bạn cần bật Fabric:

Điều hướng đến khối lượng công việc Data Warehousing của Microsoft Fabric.

Khi đã vào khối lượng công việc Data Warehouse, hãy nhấp vào Creating a new Warehouse.

Tạo Data Warehouse mới trong Microsoft Fabric

Bạn có chú ý thấy dòng Synapse Data Warehouse trong tiêu đề. Đó là vì Azure Synapse là thành phần đằng sau chịu trách nhiệm cho khối lượng công việc Data Warehousing trong Fabric.

Sau khi đặt tên cho Warehouse, bạn sẽ được điều hướng đến Warehouse Explorer. Tại đây, bạn có thể chọn phương pháp để tải dữ liệu vào Warehouse.

Warehouse Explorer

Bạn có thể tải dữ liệu vào Warehouse bằng Data Pipelines hoặc viết mã SQL. Ngoài ra còn có tùy chọn sử dụng cơ sở dữ liệu mẫu, như cách thực hiện ở đây. Dữ liệu mẫu sẽ có một số bảng được tải trước và sẵn sàng để làm việc.

Dữ liệu mẫu được tải vào Warehouse

Bạn cũng có thể sử dụng các phương pháp khác để tải dữ liệu. Ảnh chụp màn hình bên dưới là ví dụ về hoạt động sao chép dữ liệu đang chạy từ một Data Factory Pipeline.

Tải dữ liệu vào Warehouse bằng Data Factory Pipeline Nhà máy và hoạt động Copy dữ liệu

Trong Warehouse Explorer, bạn có thể khám phá dữ liệu và tạo các đối tượng cơ sở dữ liệu như Stored Procedure, hàm và chế độ xem. Bạn cũng có thể chỉ định thông số kỹ thuật bảo mật.

The Warehouse explorer

Tuy nhiên, không giống như Lakehouse, bạn không thể khám phá các tệp. Bởi vì trong Warehouse, bạn chỉ có thể lưu trữ dữ liệu có cấu trúc (Dữ liệu có cấu trúc nghĩa là bảng dữ liệu).

3. Cách tải dữ liệu vào Warehouse

Có nhiều phương pháp để tải dữ liệu vào Warehouse như:

  • Data Pipelines
  • Dataflows (Gen 2)
  • SQL Commands

Các lệnh SQL bạn có thể sử dụng cho Warehouse được sử dụng cho các hoạt động đọc và ghi. Đây là một điểm khác biệt nữa giữa SQL Endpoint của Lakehouse và Warehouse. SQL Endpoint trong Lakehouse chỉ cho phép các hoạt động đọc, trong khi Warehouse cho phép các hoạt động đọc và ghi.

Điều này có nghĩa là bạn có thể viết mã SQL để chèn, cập nhật hoặc xóa dữ liệu trong Warehouse.

Lakehouse SQL Endpoint chỉ hỗ trợ các hoạt động chỉ đọc, trong khi Warehouse hỗ trợ các hoạt động đọc và ghi.

Điều này có nghĩa là bạn có thể có các mã SQL như bên dưới để tải dữ liệu vào các bảng

INSERT INTO [dbo].[table2]

SELECT * FROM [dbo].[table1]

WHERE [updated] > '2023-05-31';

4. Đọc dữ liệu từ Warehouse

Ngoài ra còn có nhiều phương pháp để đọc dữ liệu từ Warehouse như:

  • Truy vấn SQL (chạy trong Warehouse Explorer hoặc trong các công cụ khác như SQL Server Management Studio)
  • Truy vấn trực quan (Power Query Editor trực tuyến)
  • Power BI Get Data (Hoặc Dataflow Get Data, v.v.)

Bạn có thể viết các truy vấn SQL đơn giản bên trong Warehouse Explorer như bên dưới:

Truy vấn dữ liệu bằng SQL Query từ Warehouse

Bạn cũng có thể sử dụng Visual Query, sẽ sử dụng Power Query Editor trực tuyến để xây dựng truy vấn.

Tạo truy vấn trực quan cho Microsoft Fabric Warehouse

Điều quan trọng cần lưu ý là bạn sẽ không có đầy đủ chức năng của Power Query trong trình soạn thảo này. Trình soạn thảo này chủ yếu hỗ trợ các hành động có thể được đưa trở lại nguồn. Bạn thậm chí có thể Xem mã SQL được tạo bởi truy vấn trực quan.

Bạn cũng có thể sử dụng chuỗi kết nối SQL (mà bạn có thể lấy từ cài đặt của Warehouse Explorer) để kết nối các công cụ như SSMS với Warehouse.

Nhận chuỗi kết nối SQL cho Microsoft Fabric Warehouse

Cuối cùng, bạn có thể sử dụng Power BI để lấy dữ liệu từ Warehouse. Cần lưu ý là sẽ có nhiều cách khác nhau để lấy dữ liệu từ Warehouse.

  • Báo cáo Power BI kết nối trực tiếp với tập dữ liệu được liên kết với Warehouse tập dữ liệu này được tạo tự động nhưng có thể chỉnh sửa.
  • Báo cáo Power BI kết nối DirectQuery hoặc Import Data với chính Warehouse.

Warehouse đi kèm với Power BI Dataset riêng. Bộ dữ liệu này được tạo tự động với Warehouse.

Power BI Dataset được tạo tự động cho Warehouse

Power BI Dataset này có thể được sửa đổi bằng cách sử dụng Warehouse Explorer trong tab Model.

Thay đổi Power BI Dataset trực tuyến

Sau đó, Power BI Desktop có thể kết nối với tập dữ liệu này bằng cách sử dụng Get Data  từ Warehouse hoặc Get Data từ Dataset.

Lấy dữ liệu từ Warehouses trong Power BI Desktop

Nếu bạn lấy dữ liệu từ Warehouse, bạn sẽ tạo kết nối trực tiếp đến Power BI Dataset được liên kết. Điều này tương tự như cách Power BI Datamart và Lakehouse hoạt động

Tuy nhiên, nếu bạn kết nối đến điểm cuối SQL, bạn có thể chọn kết nối DirectQuery đến Warehouse hoặc nhập dữ liệu đó vào báo cáo và tập dữ liệu Power BI mới của bạn.

Lấy dữ liệu từ các tùy chọn Warehouse trong Power BI Desktop

Theo quan điểm của báo cáo Power BI, sẽ không có sự khác biệt nào nếu bạn kết nối với Lakehouse hoặc Warehouse. Bạn sẽ có kết quả tương tự nếu bạn kết nối với tập dữ liệu được tạo tự động liên kết với Lakehouse hoặc Warehouse.

Bạn cũng có thể xây dựng báo cáo trực tiếp từ Warehouse Explorer trực tuyến.

Xây dựng báo cáo Power BI trực tuyến

Trên đây là những gì mà bạn cần biết về Microsoft Fabric Data Warehouse. Để không bỏ lỡ những kiến thức hay và thú vị về Microsoft Fabric, đừng quên đón đọc các bài viết mới nhất, nhanh nhất sẽ được cập nhật tại BAC's Blog.


Nguồn tham khảo:
https://radacad.com/

Nhu cầu đào tạo doanh nghiệp

BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.
 
 

CÁC KHOÁ HỌC BUSINESS ANALYST BACs.VN DÀNH CHO BẠN

Khoá học Online:

Khoá học Offline:

Tại Tp.HCM:

Tại Hà Nội:

Tham khảo lịch khai giảng TẤT CẢ các khóa học mới nhất

Ban biên tập nội dung - BAC