1. Định nghĩa
Ở dạng đơn giản nhất, Data Mapping giúp các cơ sở dữ liệu của công ty giao tiếp qua lại với nhau. Trong thực tế, các chuyên gia dữ liệu sẽ liên kết các thuộc tính và giá trị giữa các nguồn dữ liệu lại. Để minh họa, hãy tưởng tượng bạn có thông tin của khách hàng nằm trong hai cơ sở dữ liệu khác nhau. Các nhà phân tích không muốn nền tảng phần mềm của họ đếm hai lần cùng một khách hàng, vì vậy họ tạo một bản đồ kết nối Pete Smith trong cơ sở dữ liệu 1 với Peter Smith trong cơ sở dữ liệu 2 để tránh việc trùng lặp sẽ xảy ra trong tương lai. Việc lập Data Mapping cũng giúp giảm bớt sự dư thừa và đảm bảo việc phân tích trở nên chính xác hơn để mọi người cảm thấy tin tưởng vào kết quả và thông tin chi tiết được tạo ra. Tất nhiên, việc lập Data Mapping phức tạp hơn câu chuyện về Pete Smith được nêu ở phía trên.
Data Mapping đặc biệt có giá trị trong các loại dự án sau:
- Chuyển đổi dữ liệu (Data Migration) – Khi dữ liệu gốc được chuyển đổi sang một kho lưu trữ dữ liệu đích mới.
- Tích hợp dữ liệu (Data Integration) – Khi dữ liệu gốc được gửi đến một kho dữ liệu đích một cách thường xuyên và hai nguồn dữ liệu này không chia sẻ chung một mô hình dữ liệu (data model). Việc tích hợp có thể diễn ra trong hàng giờ, hàng ngày, hàng tuần, hàng tháng hay thậm chí diễn ra theo thời gian thực như thường được yêu cầu đối với một hệ thống tích hợp.
Hai loại này nghe có vẻ giống nhau, và thật sự đúng là như vậy. Sự khác biệt cơ bản giữa cả hai là sau khi dự án chuyển đổi dữ liệu hoàn tất, dữ liệu gốc ban đầu không còn được sử dụng hoặc được duy trì; còn đối với dự án tích hợp dữ liệu, sau khi hoàn tất, cả hai nguồn dữ liệu đều được duy trì.
2. Các yếu tố chính của Data Mapping
Về cơ bản, để Data Mapping thì cần phải có đặc tả của Data Mapping, đặc tả này sẽ phân tích, trên cơ sở của từng trường (field), cách di chuyển dữ liệu từ hệ thống này sang hệ thống khác. Lấy ví dụ: nếu tôi sắp xếp nguồn cấp dữ liệu từ kho lưu trữ bài viết Bridging the Gap sang công cụ tìm kiếm, tôi sẽ muốn map các thuộc tính chính của bài viết, như tiêu đề, danh mục và nội dung với các thuộc tính được chỉ định của công cụ tìm kiếm. Việc phân tích này đảm bảo rằng mỗi phần thông tin khi kết thúc sẽ ở vị trí thích hợp nhất trong kho dữ liệu đích.
Để đạt được mục tiêu này, đặc tả Data Mapping cần chứa các thuộc tính sau:
- Danh sách các thuộc tính của nguồn dữ liệu ban đầu (thường có thông tin bổ sung được lấy từ từ điển dữ liệu (data dictionary).
- Danh sách các thuộc tính tương ứng (hoặc thuộc tính được “map”) của kho dữ liệu đích (vẫn là thường có thông tin bổ sung được lấy từ từ điển dữ liệu).
- Quy tắc dịch (Translation rule) xác định bất kỳ thao tác dữ liệu (data manipulation) nào cần được xảy ra khi thông tin dữ liệu di chuyển giữa 2 nguồn, chẳng hạn như đặt các giá trị mặc định, kết hợp với các trường, hoặc ánh xạ (map) giá trị.
3. Data Mapping giúp giải quyết các vấn đề tiềm ẩn
Viết đặc tả Data Mapping giúp phát hiện và giải quyết các vấn đề tiềm ẩn trước khi việc Data Mapping diễn ra. Trong quá trình chuyển đổi và tích hợp dữ liệu, bất kỳ sự khác biệt nào giữa cách dữ liệu được lưu trữ đều có thể khiến dữ liệu bị mất hoặc thể hiện sai.
Ví dụ: có thể xảy ra trường hợp dữ liệu gốc của bạn có ở dạng trường văn bản (text field), còn kho lưu trữ mục tiêu của bạn sử dụng ở dạng danh sách liệt kê (enumerated list). Nếu không phân tích dữ liệu và cung cấp logic cho việc map các giá trị văn bản với các giá trị danh sách (hoặc bắt đầu bằng các nỗ lực dọn dẹp dữ liệu thích hợp), bạn có thể gặp phải lỗi không mong muốn trong quá trình chuyển đổi hệ thống.
4. Mẫu template Data Mapping
Dưới đây là một template Data Mapping đơn giản đi kèm với ví dụ giúp bạn có thể hiểu được cách thức hoạt động của nó trong thực tế. Ví dụ giả định rằng chúng ta đang gửi một nguồn cấp dữ liệu từ kho lưu trữ bài viết Bridging the Gap đến công cụ tìm kiếm.
Như bạn có thể thấy, ngay cả một tình huống lập Data Mapping đơn giản cũng có thể gặp phải các vấn đề tiềm ẩn về Data Mapping, mà cách tốt nhất để giải quyết là xử lý một cách chủ động theo hướng tập trung vào doanh nghiệp hơn là xử lý thụ động tập trung vào kỹ thuật.
Một phân tích kinh doanh vững chắc thông qua việc mô hình hóa dữ liệu (data modeling) sẽ ngăn ngừa được những vấn đề này trước khi chúng xảy ra, bằng cách phát hiện trước, làm việc với các bên liên quan trong lĩnh vực kinh doanh và kỹ thuật để tìm ra được giải pháp khả thi, sau đó bắt đầu những nỗ lực dọn dẹp và chuẩn hóa dữ liệu.
5. Chọn kỹ thuật Data Mapping phù hợp
Trước tiên, hãy xem xét kỹ thuật nào phù hợp nhất với hoàn cảnh hoặc nhu cầu của bạn và tổng chi phí để sở hữu nền tảng phân tích thực hiện các tác vụ tích hợp dữ liệu. Cần có một mức độ kiến thức về kỹ thuật nhất định để lập Data Mapping. Một loạt các kỹ thuật Data Mapping từ thủ công hoàn toàn đến tự động hoàn toàn đều có ưu và nhược điểm của nó.
- Data Mapping thủ công
Điểm mạnh: Tùy chỉnh hoàn toàn chính xác theo nhu cầu của bạn một cách linh hoạt.
Hạn chế: Thủ công, tốn thời gian, sử dụng nhiều tài nguyên, không có công cụ hỗ trợ và phải phụ thuộc nhiều vào code.
Việc lập Data Mapping thủ công đòi hỏi nhiều nỗ lực thực hiện công việc. Nó liên quan đến việc kết nối các nguồn dữ liệu và ghi lại quy trình dưới dạng tài liệu bằng cách sử dụng code. Thông thường, các nhà phân tích lập Map bằng các ngôn ngữ mã hóa như SQL, C++ hay Java. Người lập Data Mapping có thể sử dụng các kỹ thuật như chức năng Extract (Trích xuất), Transform (Biến đổi) và Load (Tải) (viết tắt là ETLs) để di chuyển dữ liệu trong các cơ sở dữ liệu. Mặc dù, các chuyên gia dữ liệu trong một tổ chức có thể hoàn thành được nhiệm vụ, bạn vẫn có thể tạo Data Mapping với toàn quyền kiểm soát nó.
- Data Mapping bán tự động
Điểm mạnh: Có sự cân bằng giữa tính linh hoạt và tính hiệu quả.
Hạn chế: Yêu cầu cần có kiến thức về code, phải liên tục chuyển đổi giữa quy trình làm thủ công và làm tự động, cần sử dụng nhiều tài nguyên.
Một số công ty khác có thể sử dụng phương pháp Data Mapping bán tự động. Việc lập Data Mapping bán tự động sử dụng nhiều biểu diễn đồ họa để liên kết các dữ liệu. Những chuyên gia tạo bản đồ lược đồ ở trong một giao diện trực quan. Ví dụ: người dùng sẽ đối sánh “Tên Sinh Viên” ở cơ sở dữ liệu này với “Tên” trong cơ sở dữ liệu khác bằng cách vẽ các đường thẳng, sử dụng chức năng kéo và thả hoặc chức năng phân nhóm thông minh trong ứng dụng phần mềm như Tableau Prep. Sau đó, có thể có một tập lệnh là đầu ra với Map được viết bằng ngôn ngữ được mã hóa – giống như quy trình thực hiện thủ công ở phía trên. Có được một tập lệnh đầu ra để lưu trữ và có thể hỗ trợ khi bạn muốn chuẩn hóa Map cho các nguồn dữ liệu khác hoặc sử dụng trong trường hợp bạn không có công cụ tự động.
- Data Mapping tự động
Điểm mạnh: không có nhiều yêu cầu về kiến thức kỹ thuật, ít rào cản gia nhập, thực hiện nhanh chóng, dễ mở rộng quy mô, lập lịch dễ dàng và triển khai linh hoạt.
Hạn chế: Xu hướng là đào tạo thiên về công cụ hoặc một phần mềm cụ thể, thường một phần mềm là phải đi kèm với một thẻ giá.
Các nền tảng lập Data Mapping hiện đại đang phát triển để trở nên tự động hoàn toàn. Điều này có nghĩa là bất kỳ ai – từ chuyên gia dữ liệu đến người mới làm quen với dữ liệu – đều có thể hoàn thành việc lập Data Mapping mà không cần sử dụng code để sắp xếp dữ liệu theo cách mà họ muốn và làm mới bản phân tích một cách thường xuyên, làm mới theo lịch trình, nhờ đó mà nắm bắt được tất cả các thay đổi xảy ra. Một số nền tảng Data Mapping hiện đang xử lý ngôn ngữ tự nhiên để khớp được với các trường và thuộc tính dữ liệu, mô tả nội dung nằm trong nguồn dữ liệu. Từ đó hiểu được dữ liệu đang muốn nói lên điều gì, giảm các giả định không chính xác.
Hy vọng thông tin của bài viết sẽ đưa bạn tiến xa hơn trong hành trình viết các Data Mapping, đừng quên đón xem các bài viết mới nhất sẽ được cập nhật thường xuyên tại BAC’s Blog.
Nguồn tham khảo:
https://www.bridging-the-gap.com
https://www.tableau.com
Nhu cầu đào tạo doanh nghiệp
BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.
Tham khảo chương trình đào tạo:
Các bài viết liên quan Power BI:
- Power BI cơ bản cho người mới bắt đầu
- Chỉnh sửa và định hình dữ liệu trong Power BI Desktop
- Kết hợp dữ liệu trong Power BI Desktop
- Hướng dẫn kết nối dữ liệu trong Power BI Desktop
- Hướng dẫn tải & cài đặt Power BI trên máy tính
- Khóa học Phân tích và trực quan hóa dữ liệu với Power BI
- Power BI là gì?
Các bài viết liên quan:
- TABLEAU – Giải pháp BUSINESS INTELLIGENCE (BI) – click vào đây
- Hướng dẫn cài đặt và Sử dụng TABLEAU – click vào đây
- Tính năng mới trên tableau – verion 2019.1 – click vào đây
BAC – Biên soạn và tổng hợp nội dung