Datastage là một trong những công cụ được tìm kiếm rất nhiều trong thời gian qua. Đây cũng là chủ đề chính của bài viết lần này mà BAC muốn gửi đến bạn đọc.
1. Datastage là gì?
DataStage là một trong những công cụ ETL mạnh mẽ nhất với tính năng trực quan hóa đồ họa để tích hợp dữ liệu. Nó cung cấp một phương tiện để tạo nhanh chóng các kho dữ liệu hoạt động hoặc kho dữ liệu. Nó là một bộ công cụ tích hợp để phát triển, thiết kế, chạy, biên dịch và quản lý các ứng dụng trích xuất dữ liệu từ một hoặc nhiều nguồn dữ liệu, thực hiện chuyển đổi nhiều phần dữ liệu và tải một hoặc nhiều tệp mục tiêu hoặc cơ sở dữ liệu cùng với dữ liệu.
Những lợi ích của Datastage có thể kể đến như mức độ bảo mật riêng tư, chia sẻ và cộng tác cho các nhà nghiên cứu, tùy chọn để chú thích tệp và truy cập từ mọi nơi, lưu trữ dữ liệu vĩnh viễn, được hỗ trợ thông qua các luồng và chuyển đổi dữ liệu, phổ biến cho việc di chuyển và chất lượng dữ liệu, hỗ trợ xử lý song song…. Một số lợi ích bổ sung khác như chỉ yêu cầu một giao diện duy nhất để tích hợp các ứng dụng không đồng nhất, hỗ trợ cả máy chủ Windows và Linux và không yêu cầu đào tạo chuyên sâu.
2. Kiến trúc Datastage
DataStage tuân theo kiến trúc client-server. Các phiên bản khác nhau của DataStage có các kiểu kiến trúc client-server khác nhau. Về cơ bản, kiến trúc DataStage bao gồm các thành phần sau:
- Project (Dự án)
Để khởi động máy khách DataStage, trước tiên hãy đính kèm với một dự án DataStage. Mọi dự án hoàn chỉnh có thể bao gồm:
DataStage jobs: Các công việc DataStage là một tập hợp các công việc được sử dụng để tải và duy trì một kho dữ liệu.
Built-in components: Đây là các cơ chế được xác định trước được sử dụng trong một công việc.
User-defined components: Đây là các cơ chế đã sửa đổi được tạo ra bằng cách sử dụng DataStage Manager. Mọi thành phần do người dùng định nghĩa sẽ thực thi một nhiệm vụ cụ thể trong một công việc.
- Jobs (Việc làm)
Một công việc DataStage bao gồm một chuỗi các giai đoạn cụ thể, được kết nối với nhau để xác định luồng dữ liệu từ một nguồn dữ liệu đến một kho dữ liệu này hoặc kho dữ liệu khác. Mỗi giai đoạn giải thích một cơ sở dữ liệu hoặc thủ tục cụ thể. Các giai đoạn được thêm vào một công việc và được kết nối với nhau với sự trợ giúp của DataStage Designer.
Thuộc tính dữ liệu được xác định bởi:
Table definitions: Định nghĩa bảng được sử dụng để xác định dữ liệu, tức là dữ liệu của bảng hoặc giải thích về các cột cụ thể hoặc bất kỳ thứ gì được yêu cầu để chỉ định dữ liệu.
Data elements: Mỗi phần tử dữ liệu xác định một loại dữ liệu có thể được giữ trong một cột. DataStage có một số phần tử dữ liệu được xác định trước biểu thị các kiểu dữ liệu thường được yêu cầu. Ngoài ra còn có một điều khoản để mô tả các phần tử dữ liệu riêng.
Transforms: Biến đổi được sử dụng để thay đổi và làm sạch dữ liệu bằng cách chuyển đổi nó thành một định dạng cần thiết để lưu và thực hành trong kho cuối cùng. DataStage cung cấp một bộ sưu tập lớn các biến đổi được tích hợp sẵn.
- Stages (Các giai đoạn)
Một giai đoạn được phân loại thành hai loại, chủ động hoặc bị động. Giai đoạn thụ động cho phép truy cập vào cơ sở dữ liệu để khai thác hoặc tạo kịch bản cho dữ liệu. Các giai đoạn hoạt động xác định sự di chuyển của dữ liệu và đưa ra các cơ chế để hợp nhất dữ liệu thu thập, luồng dữ liệu và chuyển đổi dữ liệu từ một kiểu dữ liệu này sang một kiểu khác.
- Server Components
DataStage được chia thành ba thành phần máy chủ:
Repository (Kho lưu trữ): Kho lưu trữ trung tâm chứa tất cả thông tin cần thiết để xây dựng kho dữ liệu.
DataStage Server: Chạy các công việc thực thi, dưới sự kiểm soát của DataStage Director, trích xuất, chuyển đổi và tải dữ liệu vào kho dữ liệu.
DataStage Package Installer: Một giao diện người dùng được sử dụng để cài đặt các công việc và trình cắm thêm DataStage được đóng gói.
- Client Components
DataStage được chia thành bốn thành phần khách:
DataStage Manager – Nó là một công cụ đồ họa cho phép xem và quản lý nội dung của DataStage Repository. DataStage Manager cho phép duyệt, nhập và chỉnh sửa siêu dữ liệu về mục tiêu, chuyển đổi và nguồn dữ liệu.
DataStage Designer – DataStage Designer được sử dụng để xây dựng các công việc bằng cách tạo một thiết kế đồ họa mô hình hóa quá trình chuyển đổi dữ liệu và các luồng dữ liệu từ nguồn dữ liệu qua kho mục tiêu.
DataStage Director – DataStage Director cho phép giám sát, điều hành và kiểm soát các công việc được xây dựng trong DataStage Designer.
DataStage Administrator – DataStage Administrator cho phép nhóm người dùng DataStage, kiểm soát việc loại bỏ Kho lưu trữ và nếu NLS được gắn kết, hãy cài đặt và quản lý ngôn ngữ và bản đồ.
3. Vì sao nên tìm hiểu Datastage?
Khi nói đến các hoạt động ETL, Datastage là một công cụ không thể thay thế. Mặc dù có nhiều công cụ ETL khác trên thị trường, Datastage được coi là một trong những công cụ lưu trữ dữ liệu mạnh mẽ nhất. Công cụ này hoàn toàn phù hợp cho những người mong muốn trở thành nhà phân tích dữ liệu và chuyên gia khoa học dữ liệu, chuyên gia tình báo kinh doanh,…
Hy vọng với những chia sẻ trên đây về Datastage, các bạn đã có thêm một công cụ hữu ích phục vụ cho công việc và quá trình nghiên cứu dữ liệu của mình. Đừng quên đón xem các bài viết mới nhất sẽ được cập nhật thường xuyên tại BAC’s Blog.
Nguồn tham khảo:
https://intellipaat.com/
Nhu cầu đào tạo doanh nghiệp
CÁC KHOÁ HỌC BUSINESS ANALYST BACs.VN DÀNH CHO BẠN
Khoá học Online:
Khoá học Offline:
Tại Tp.HCM:
Tại Hà Nội:
Tham khảo lịch khai giảng TẤT CẢ các khóa học mới nhất
Ban biên tập nội dung – BAC