Hướng dẫn tạo báo cáo phân tích đại dịch COVID-19 bằng Power BI

Đại học Johns Hopkins đã chia sẻ một một bảng điều khiển tương tác giúp phân tích sự lây lan của đại dịch COVID-19 theo quốc gia. Dữ liệu được cung cấp bởi các nguồn như CDC, Who… hiện đang đặt tại GitHub, gồm 2 tệp là Confirmed casesDeaths. Bài viết này, BAC sẽ giúp bạn kết hợp và chuyển đổi dữ liệu để xây dựng báo cáo của riêng mình.

Báo cáo mẫu được xây dựng bằng Power BI

1. Chuẩn bị dữ liệu

Thư mục chứa các tệp dữ liệu liên quan

Như đã chia sẻ, dữ liệu hiện đang đặt tại GitHub và nằm ở 2 tệp là ConfirmedDeaths. Bạn có thể truy cập tại đây, vào thư mục case_covid_19_data, tiếp theo là case_covid_19_time_series. Bạn sẽ tìm thấy tệp time_series_covid19_confirmed_global.csv, hoặc có thể mở trực tiếp tại đây.

Nhấn “Raw” để truy cập tệp dữ liệu

Nhấn nút Raw và Copy đường dẫn, vì Power BI hỗ trợ kết nối dữ liệu thông qua nền tảng Web. Chúng ta có thể dùng đường dẫn này để kết nối đến dữ liệu trong tệp, hãy tiếp tục đến với bước tiếp theo.

Copy đường dẫn đến tệp để kết nối

2. Kết nối dữ liệu Confirmed Cases

Chọn phương pháp kết nối qua trình duyệt Web

Trên máy tính mở Power BI Desktop, chọn Get Data và chọn Web. Dán đường dẫn vào hộp thoại kết nối tại ô URL và chọn OK. Mất một lúc để Power BI có thể kết nối dữ liệu, khi nhận được bảng sau nhấn Transform Data để bắt đầu chỉnh sửa.

Dữ liệu kết nối thành công sẽ xuất hiện trong bảng

Đổi tên Query thành Confirmed, tại tab Home chọn Use First Row as Headers. Một số phiên bản cũ sẽ có giao diện khác nhau, tuy nhiên, tính năng này vẫn đặt tại tab Home.

Tính năng Use First Row as Headers nằm tại tab Home

Đến đây bạn sẽ thấy 4 cột đầu tiên là region/country, province/state, longitude và

latitude. Nhưng phần còn lại của các cột là confirmed cases by date. Định dạng này không phù hợp cho phân tích trong Power BI hay Excel.

Sử dụng phím Shift hoặc Ctrl để chọn nhiều cột

Để thay đổi điều này, nhấn giữ nút Ctrl trên bàn phím và chọn tất cả 4 cột kể trên như ảnh minh họa trên. Nhấp chuột phải vào tiêu đề của 1 trong 4 cột và chọn Unpivot Other Columns trong shortcut menu.

Đổi tên cột để thuận lợi cho việc sử dụng

Bước cuối cùng là đổi tên cho 2 cột cuối cùng của bảng thành DateConfirm. Như vậy, chúng ta vừa hoàn tất việc kết nối và chỉnh sửa dữ liệu Confirmed Cases của COVID-19 Data. Theo yêu cầu đề bài, chúng ta sẽ tiếp tục với dữ liệu Deaths.

3. Kết nối dữ liệu Deaths

Tệp dữ liệu tiếp theo cần sử dụng

Thực hiện tương tự thao tác truy cập thư mục csse_covid_19_time_series như trên và mở tệp time_series_covid19_deaths_global.csv. Hoặc bạn có thể truy cập trực tiếp tại đây, chọn Raw để lấy đường dẫn kết nối.

Tính năng Duplicate cho phép nhân bản một query

Trở lại với Power Query Editor, nhấp chuột phải vào query Confirmed và chọn Duplicate. Sau đó, đổi tên query mới thành Deaths, trong Applied Steps, chọn Source và nhấp vào biểu tượng cài đặt bên phải như ảnh minh họa bên dưới.

Chọn biểu tượng bên phải bước “Source” trong Applied Steps

Hộp thoại Comma-Seperated Values mở ra, dán đường dẫn đã Copy ở trên vào ô URL, nhấn OK. Đến bước này, bạn đã có được 2 tệp dữ liệu cần lấy từ GitHub. Tuy nhiên, để có thể thuận lợi cho việc phân tích và trực quan dữ liệu, chúng ta sẽ kết hợp cả 2 dữ liệu này lại với nhau.

Nhập URL đã copy vào và nhấn OK để lấy dữ liệu

4. Kết hợp 2 tệp dữ liệu

Nhằm ngăn chặn việc xuất hiện các bảng riêng biệt trong báo cáo, hãy nhấp chuột phải vào mỗi Query và chọn Enable Load. Tiếp theo, chọn query Deaths và đổi tên cột cuối cùng bảng thành Deaths.

Trở lại query Confirmed, tại tab Home bạn chọn tính năng Merge Queries => Merge Queries as New. Trong hộp thoại Merge, chọn Deaths ở thanh menu thứ hai. Sau đó, nhấn giữ phím Ctrl trên bàn phím và chọn ba cột theo thứ tự Province/State, Country/Region, and Date. Ở menu bên dưới lặp lại tương tự, nếu bạn không chắc chắn về thứ tự hãy xem ảnh minh họa bên dưới.

Thứ tự kết hợp các cột của hai bảng

Sau khi nhấn OK, hộp thoại Privacy levels sẽ xuất hiện, chọn Public ở dòng đầu tiên và nhấn Save. Lúc này, bạn sẽ thu được một query mới là sự kết hợp của 2 query Confirm Deaths.

Chọn Public để có thể kết hợp hai query

Mở rộng cột Deaths trong query mới bằng cách chọn nút expand ở góc phải trên tên cột. Trong hộp thoại mở ra, bỏ chọn tất cả các cột khác và chỉ giữ lại ô Deaths, nhấn OK. Bước này sẽ mở rộng số lượng các trường hợp tử vong (death case) theo vị trí và ngày tương ứng của các trường hợp được xác nhận (confirmed case). Sau đó, đổi tên cột thành Deaths.

Bỏ check ở tất cả các ô khác ngoại trừ Deaths

Để thuận tiện cho việc sử dụng sau này, bạn có thể đổi tên của query thành COVID-19 Cases. Bây giờ, dữ liệu đã được hoàn tất từ khâu kết nói đến chỉnh sửa, chúng ta sẽ sử dụng để tạo các biểu đồ trực quan và phân tích đại dịch COVID.

Tuy nhiên, trước đó cần lưu ý rằng dữ liệu này cần được cập nhập mỗi ngày. Vì tình hình dịch bệnh sẽ có sự chuyển biến theo thời gian và dữ liệu trên GitHub, theo đó cũng thay đổi. Để có thể tự động cập nhật, chúng ta sẽ tiếp tục thực hiện thêm một bước.

5. Thay đổi truy vấn giúp nó có thể làm mới

Vị trí cần xóa để dữ liệu có thể tự động làm mới

Trong mỗi query ConfirmedDeaths, chú ý bảng Applied Steps bên phải và chọn Source. Sau đó, trên thanh công thức, bạn sẽ nhìn thấy phần Columns với số cột tĩnh rõ ràng. Nếu Power BI Desktop của bạn không hiển thị thanh công thức hãy mở nó lên trong tab View.

Tất cả những việc cần làm là xóa Columns=xx khỏi công thức, công thức mới sẽ như sau:

= Csv.Document(Web.Contents(“https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Confirmed.csv”),[Delimiter=”,”, Encoding=65001, QuoteStyle=QuoteStyle.None])

Cuối cùng, mở query Covid-19 cases và đổi loại của ConfirmedDeaths thành Whole Number như ảnh minh họa bên dưới. Như vậy, là bạn đã hoàn tất việc kết nối và chuẩn bị dữ liệu phân tích diễn biến dịch COVID-19 bằng Power BI.

Bước cuối cùng để hoàn tất dữ liệu cho báo cáo

Nhấp Close & Apply để bắt đầu xây dựng báo cáo, chọn một loại biểu đồ bất kì, ví dụ Map. Sau đó, bổ sung các trường bằng cách nhấp chọn Country Deaths, chúng ta đã thu được một bảng đồ với các chấm tròn đại diện cho số ca tử vong tại các quốc gia.

Bản đồ thể hiện sự lây lan của dịch tại các quốc gia

Bạn có thể tùy ý sử dụng dữ liệu để xây dựng các báo cáo theo phong cách của riêng mình. Trên đây, là bài viết hướng dẫn tạo báo cáo phân tích đại dịch COVID-19 bằng Power BI. Hy vọng rằng sẽ hữu ích với các bạn quan tâm chủ đề này.

Đừng quên theo dõi các bài viết tiếp theo tại website bacs.vn, bạn đọc có nhu cầu học tập, nghiên cứu, làm việc trong lĩnh vực phân tích dữ liệu nói chung và Power BI nói riêng có thể tham khảo các khóa học mới nhất tại BAC.

Nguồn: datachant.com

Nhu cầu đào tạo doanh nghiệp

BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.

Tham khảo chương trình đào tạo: 

 

Previous Post
Next Post
Exit mobile version