Ngôn ngữ R là một trong những ngôn ngữ lập trình mạnh mẽ mà nhiều nhà thống kê, nhà khoa học dữ liệu và phân tích dữ liệu sử dụng. Bạn có thể sử dụng R trong Power Query Editor của Power BI Desktop để thực hiện những việc sau:
- Chuẩn bị các mô hình dữ liệu.
- Tạo các báo cáo.
- Làm sạch dữ liệu, định hình dữ liệu nâng cao và phân tích dữ liệu, bao gồm hoàn thành dữ liệu bị thiếu, dự đoán, phân nhóm và hơn thế nữa.
Bạn có thể tải R miễn phí từ trang Revolution R Open download tại đây và CRAN Repository tại đây.
Tham khảo: Chạy các tập lệnh R trong Power BI Desktop
1. Cài đặt chuột
Điều kiện tiên quyết là bạn phải cài đặt thư viện chuột trong môi trường R của bạn. Nếu không có chuột, mã tập lệnh mẫu sẽ không hoạt động bình thường. Gói chuột thực hiện một phương pháp để đối phó với dữ liệu bị thiếu.
Để cài đặt thư viện chuột:
- Bước 1: Chạy chương trình R.exe (ví dụ, C:\Program Files\Microsoft\ R Open\R-3.5.3\bin\R.exe).
- Bước 2: Chạy lệnh cài đặt từ lời nhắc R:
install.packages(‘mice’)
2. Sử dụng R trong Power Query Editor
Để minh họa cho việc sử dụng R trong Power Query Editor, chúng ta sẽ sử dụng tập dữ liệu thị trường chứng khoán mẫu có trong tệp .csv và thực hiện các bước sau:
- Bước 1: Tải xuống tệp EuStockMarkets_NA.csv tại đây. Hãy nhớ nơi mà bạn lưu tệp.
- Bước 2: Tải tệp lên Power BI Desktop. Từ tab Home, chọn Get Data > Text/CSV.
- Bước 3: Chọn tệp vừa tải về và chọn Open. Dữ liệu CSV được hiển thị trong hộp thoại Text/CSV như ảnh dưới.
- Bước 4: Chọn Load để tải dữ liệu từ tệp. Sau khi Power BI đã tải dữ liệu hoàn tất, bảng mới sẽ xuất hiện trong ngăn Fields.
- Bước 5: Để mở Power Query Editor, từ tab Home chọn Edit Queries.
- Bước 6: Từ tab Transform, chọn Run R script, trình chỉnh sửa Run R script sẽ xuất hiện. Dòng 15 và dòng 20 có dữ liệu bị thiếu cũng như các hàng khác mà bạn không thể nhìn thấy trong hình ảnh. Các bước dưới đây sẽ cho thấy cách R hoàn thành các hàng đó cho bạn.
- Bước 7: Trong ví dụ này, nhập mã tập lệnh dưới đây trong hộp Script của cửa sổ Run R Script. Thay thế <Your File Path> bằng đường dẫn đến EuStockMarkets_NA.csv trên hệ thống tệp cục bộ của bạn. Ví dụ: C:/Users/John Doe/Documents/Microsoft/EuStockMarkets_NA.csv.
dataset <- read.csv(file=”<Your File Path>/EuStockMarkets_NA.csv”, header=TRUE, sep=”,”)
library(mice)
tempData <- mice(dataset,m=1,maxit=50,meth=’pmm’,seed=100)
completedData <- complete(tempData,1)
output <- dataset
output$completedValues <- completedData$”SMI missing values”
Lưu ý: Bạn có thể cần ghi đè đầu ra có tên biến để tạo đúng tập dữ liệu mới với các bộ lọc được áp dụng.
- Bước 8: Chọn OK. Power Query Editor sẽ hiển thị một cảnh báo về bảo mật dữ liệu.
- Bước 9: Trong tin nhắn cảnh báo, chọn Continue. Trong hộp thoại Privacy levels xuất hiện, đặt tất cả các nguồn dữ liệu thành Public để các tập lệnh R hoạt động bình thường trong Power BI service.
- Bước 10: Chọn Save để chạy mã.
Lưu ý một cột mới trong ngăn Fields được gọi là completedValues. Cột này có một vài phần tử dữ liệu bị thiếu như là trên dòng 15 và 18, hãy xem cách R xử lý điều đó trong phần tiếp theo.
Chỉ với năm dòng lệnh R, Power Query Editor đã điền vào các giá trị còn thiếu bằng một mô hình dự đoán.
3. Tạo trực quan từ tập dữ liệu R
Bây giờ, chúng ta có thể tạo một trực quan để xem cách mã tập lệnh R với thư viện chuột hoàn thành các giá trị bị thiếu.
Bạn có thể lưu tất cả các trực quan hoàn thiện trong một tệp Power BI Desktop .pbix và sử dụng mô hình dữ liệu và các tập lệnh R trong Power BI service.
Lưu ý: Bạn có thể tải một tệp .pbix với tất cả các bước đã hoàn thiện tại đây.
Sau khi bạn đã tải tệp .pbix lên Power BI service, bạn cần thực hiện các bước bổ sung để khởi động dịch vụ làm mới dữ liệu và cập nhật trực quan:
- Khởi động làm mới theo lịch trình cho dataset: Để khởi động lên lịch làm mới cho workbook chứa dataset với các tập lệnh R của bạn, hãy xem bài viết bên dưới.
- Cài đặt một personal gateway: Bạn cần có một personal gateway được cài đặt trên máy nơi tệp và R được đặt. Power BI service truy cập workbook đó và kết xuất mọi trực quan được cập nhật.
Tham khảo: Cách sử dụng personal gateway trong Power BI
4. Hạn chế
Có một số hạn chế đối với các truy vấn bao gồm tập lệnh R được tạo trong Power Query Editor:
- Tất cả cài đặt nguồn dữ liệu R phải được đặt thành Public. Tất cả các bước khác trong một truy vấn Power Query Editor cũng phải là public.
Để lấy các cài đặt nguồn dữ liệu, trong Power BI Desktop, chọn File > Options and settings > Data source settings.
Trong hộp thoại Data source settings, chọn một hoặc nhiều nguồn dữ liệu và sau đó chọn Edit Permissions. Đặt Privacy Level thành Public.
- Để lên lịch làm mới trực quan hoặc tập dữ liệu R của bạn, hãy khởi động làm mới theo lịch trình và cài đặt một personal gateway trên máy tính chứa workbook và R. Có rất nhiều thứ mà bạn có thể làm với R và các truy vấn tùy chỉnh.
Trên đây là hướng dẫn cách sử dụng R trong Power Query Editor của Power BI. Mong rằng bài viết đã mang đến những thông tin hữu ích cho bạn đọc quan tâm về Power BI nói riêng và phân tích dữ liệu nói chung. Đừng quên theo dõi các bài viết mới nhất sẽ được cập thường xuyên tại website bacs.vn.
Nguồn tham khảo:
Nhu cầu đào tạo doanh nghiệp
BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.
Các bài viết liên quan Power BI:
- Power BI cơ bản cho người mới bắt đầu
- Chỉnh sửa và định hình dữ liệu trong Power BI Desktop
- Kết hợp dữ liệu trong Power BI Desktop
- Hướng dẫn kết nối dữ liệu trong Power BI Desktop
- Hướng dẫn tải & cài đặt Power BI trên máy tính
- Khóa học Phân tích và trực quan hóa dữ liệu với Power BI
- Power BI là gì?
Các bài viết liên quan:
- TABLEAU – Giải pháp BUSINESS INTELLIGENCE (BI) – click vào đây
- Hướng dẫn cài đặt và Sử dụng TABLEAU – click vào đây
- Tính năng mới trên tableau – verion 2019.1 – click vào đây
BAC – Biên soạn và tổng hợp nội dung