Khi nhắc đến Data Science người ta lại nhớ câu nói “the sexiest job of the 21st century” (công việc hấp dẫn nhất của thế kỷ 21) để nói về Data Scientist, những nhà khoa học dữ liệu. Nếu bạn là một người mới trong lĩnh vực dữ liệu nói riêng và các lĩnh vực liên quan nói chung như ngân hàng, kinh doanh, thương mại điện tử… và mong muốn bắt đầu tìm hiểu về nghề này, đây chính là bài viết dành cho bạn.
1. Data Scientist là gì?
Nhà khoa học dữ liệu, kỹ sư khoa học dữ liệu,… là những cách gọi cho chức danh Data Scientist tại Việt Nam. Họ được biết đến là người sắp xếp, phân tích, thống kê và trực quan dữ liệu để mang đến những thông tin giá trị cho tổ chức. Nói cách khác, những nhà khoa học dữ liệu sẽ làm công việc với các dữ liệu thu thập được để giúp tổ chức nắm bắt tình hình hoạt động, dự báo xu hướng nhằm đưa ra các quyết định quan trọng thúc đẩy hiệu quả hoạt động.
Lấy ví dụ tại Việt Nam, các trang web thương mại điện tử thu thập hàng tỷ dữ liệu mỗi ngày. Dữ liệu người dùng, đơn đặt hàng, tỉ lệ hoàn trả, số lượng khách hàng đăng ký mới, các sản phẩm bán chạy… nhờ các thông tin này, các công ty, doanh nghiệp có thể đánh giá chính xác hiệu quả kinh doanh, nghiên cứu hành vi người dùng, dự đoán xu hướng mua sắm trong tương lai và hơn thế nữa.
2. Công việc của Data Scientist là gì?
Ngành khoa học dữ liệu hay data science ở cấp độ cơ bản nhất là sử dụng dữ liệu để có được thông tin chuyên sâu và có giá trị. Tuy nhiên, ở cấp độ cao hơn, đó còn là sự kết hợp phức tạp của nhiều kỹ năng từ lập trình, cơ sở dữ liệu, phân tích, thống kê, trực quan hóa dữ liệu, công cụ dòng lệnh, học máy và nhiều hơn nữa để có được những thông tin giá trị nhất.
Một Data Scientist sẽ phải làm việc với các bộ phận khác nhau trong doanh nghiệp để có được dữ liệu cần thiết và từ đó tìm ra thông tin giá trị giúp các bộ phận này đưa ra những quyết định chính xác. Dưới đây là Data Science Workflow từ Matt Dancho giảng viên bộ môn Data Science cho Business Science University.
Dựa theo workflow trên có thể chia quy trình làm việc thành 3 giai đoạn:
- Preparation (chuẩn bị): Giai đoạn đầu tiên chính là thu thập dữ liệu cần thiết. Dựa vào nhu cầu của tổ chức mà số lượng dữ liệu cần chuẩn bị sẽ có quy mô khác nhau. Tuy nhiên, hầu hết dữ liệu không đồng nhất và cần được làm sạch (clean) để có thể đọc và sử dụng, bước này sẽ tiêu tốn khá nhiều thời gian.
- Experimentation (thử nghiệm): Là giai đoạn tiến hành phân tích dựa trên dữ liệu có được, đặt ra các giả thuyết, tiến hành sử dụng công cụ trực quan dữ liệu “thô” thành các biểu đồ tương tác, mô hình hóa dữ liệu.
- Distribution (phân phối): Khi đã có được các thông tin quan trọng từ dữ liệu được mô hình hóa, công việc tiếp theo là tài liệu hóa chúng để báo cáo cho các bộ phận hay người chịu trách nhiệm đưa ra quyết định.
Mặc dù, có nhiều cách khác nhau để tạo nên quy trình làm việc của Data Scientist. Tuy nhiên, nhìn chung chúng đều có thể sắp xếp vào 3 giai đoạn cụ thể như trên. Một số chức danh khác có thể đảm nhiệm các công việc tương tự như Data Analysis hay Machine Learning. Dù vậy, tùy vào khối lượng công việc cho từng giai đoạn mà họ sẽ đảm nhiệm vai trò giống hoặc khác nhau trong tổ chức.
3. Lộ trình trở thành Data Scientist
Cuối cùng nhưng không kém phần quan trọng chính là lộ trình trở thành Data Scientist dành cho các bạn muốn bắt đầu theo đuổi vị trí này trong tương lai.
Trên đây là sơ đồ lộ trình tham khảo giúp các bạn nắm bắt những kiến thức, kỹ năng quan trọng cần trang bị. Ngoài ra, trong một số lĩnh vực nhất định có thể yêu cầu thêm các kiến thức chuyên môn.
- Toán học
Bạn không cần phải là một nhà toán học để có thể trở thành một Data Scientist. Tuy nhiên, toán học được xem là xương sống của ngành khoa học dữ liệu. Những người làm ngành này sẽ thường xuyên sử dụng các phương pháp thống kê, hồi quy, mô hình đồ họa 2d, thậm chí là 3d, ma trận… Toán học cơ bản giúp bạn nắm chắc khả năng đọc hiểu, xử lý các vấn đề kể trên. Một vài chủ đề toán học cần chú ý là đại số tuyến tính, hàm số, ma trận, vi phân, hoán vị và kết hợp, tuyến tính.
- Ngôn ngữ lập trình
Đóng một vai trò quan trọng không thể thiếu trong thời đại hiện nay, ngôn ngữ lập trình xuất hiện trong hầu hết mọi lĩnh vực công nghệ. Đối với các nhà khoa học dữ liệu, những ngôn ngữ có nhu cầu tuyển dụng cao nhất hiện nay phải kể đến là Python, R, SQL. Ngoài ra, những người có kiến thức lập trình ở các ngôn ngữ khác như C, C#, Java… cũng có nhiều lợi thế khi bắt đầu. Những vấn đề lập trình cần biết như cấu trúc dữ liệu và giải thuật, thuật toán tìm kiếm và sắp xếp, lập trình hướng đối tượng, cơ sở dữ liệu,….
- Thống kê
Thống kê là kỹ năng quan trọng hàng đầu đối với mọi vai trò công việc liên quan đến dữ liệu từ Data Analyst, Business Analyst cho đến Machine Learning Engineer. Một số kỹ năng thống kê cần nắm phải kể đến như các khái niệm cơ bản về xác suất, sai lệch lựa chọn, nghịch lý Simpson, thống kê mô tả, những điều cơ bản của suy luận thống kê và cách thực hiện phân tích dữ liệu khám phá tốt (EDA).
- Các kỹ năng làm việc với dữ liệu
Tìm kiếm, thu thập, thống kê, phân tích, trực quan là những kỹ năng không thể thiếu khi làm việc với dữ liệu. Không phải lúc nào các đơn vị, phòng ban hay tổ chức hiểu rõ những dữ liệu nào là quan trọng. Trong vai trò Data Scientist, bạn phải thu thập đầy đủ, làm sạch (chuyển đổi các dữ liệu thô thành những định dạng phù hợp nhu cầu sử dụng).
Sau đó, tiến hành phân tích và trực quan dữ liệu thành những biểu đồ tương tác, công việc này còn được gọi là trực quan hóa dữ liệu. Những vấn đề quan trọng cần biết khi làm việc với dữ liệu là các kỹ thuật phân tích dữ liệu, cách sử dụng các công cụ trực quan dữ liệu như Power BI, Tableau, các loại biểu đồ như line chart, scatter plot, histogram, bubble chart, bar chart, heatmap.
- Học máy
Học máy hay machine learning là tập con của trí tuệ nhân tạo để giúp các ứng dụng thực hiện một nhiệm vụ chưa được lập trình sẵn. Là một Data Scientist, bạn chắc chắn không thể bỏ qua học máy, hãy bắt đầu từ những điều đơn giản nhất như các thuật ngữ liên quan. Học máy cũng liên quan rất nhiều đến thống kê và được xem là kiến thức không thể thiếu với những ngành nghề liên quan đến dữ liệu. Bạn cũng nên dành thêm thời gian để tìm hiểu về Deep Learning và Big Data để có thể tận dụng tối đa sức mạnh của khó dữ liệu này.
- Kỹ năng mềm
Bên cạnh những kiến thức và kỹ năng công việc, kỹ năng mềm là yếu tố quyết định rất nhiều đến sự thành công của một Data Scientist. Hãy nhớ rằng tất cả những công việc của bạn đều nhằm mục đích giúp những người quản lý đưa ra các quyết định đúng đắn. Nếu như thông tin do bạn truyền đạt không rõ ràng, thiếu chính xác sẽ ảnh hưởng lớn đến sự phát triển của toàn bộ tổ chức. Các kỹ năng giao tiếp, trình bày, thuyết trình, tư duy phản biện, làm việc nhóm, tổ chức cuộc họp,… chắc chắn không thể bỏ qua.
Mong rằng những thông tin được tổng hợp trên đây có thể cung cấp những kiến thức hữu ích cho bạn đọc. Đặc biệt, đối với các bạn muốn bắt đầu tìm hiểu về dữ liệu hoặc đã và đang làm việc trong các ngành liên quan có thể tham gia khóa học Data Analysis tại BAC. Khóa học được thiết kế để phù hợp với mọi đối tượng, giúp người học trang bị những kiến thức và kỹ năng nền tảng nhất như sắp xếp, phân tích và trực quan dữ liệu.
Tham khảo và tổng hợp từ nhiều nguồn
Nhu cầu đào tạo doanh nghiệp
CÁC KHOÁ HỌC BUSINESS ANALYST BACs.VN DÀNH CHO BẠN
Khoá học Online:
Khoá học Offline:
Tại Tp.HCM:
Tại Hà Nội:
Tham khảo lịch khai giảng TẤT CẢ các khóa học mới nhất
Ban biên tập nội dung – BAC