5 sai lầm các kỹ sư dữ liệu cần tránh

Trong quá trình làm việc với dữ liệu, các Data Engineer (kỹ sư dữ liệu) khó tránh khỏi các sai lầm, đặc biệt những người mới bắt đầu. Những lỗi dù nhỏ cũng là một bài học đáng trân trọng. Tuy nhiên, có những sai lầm mà bạn có thể học từ kinh nghiệm của những người đi trước và tránh mắc phải trong tương lai.

1. Xây dựng các hệ thống quá phức tạp

Khi nhu cầu dữ liệu trở nên phức tạp và các mốc thời gian phân phối thu hẹp lại, đôi khi các kỹ sư dữ liệu có xu hướng xây dựng những hệ thống phức tạp. Những hệ thống phức tạp có thể có hàng nghìn dòng mã, một số trong số chúng không có cấu trúc, gây khó khăn cho việc bảo trì.

Trong thực tế, hầu như không thể gỡ lỗi khi có sự cố, ngoại trừ nhà phát triển ban đầu. Là một kỹ sư dữ liệu, bạn cần tạo các hệ thống để đơn giản hóa vấn đề và giúp mọi người kể cả người mới hiểu được.

Điều quan trọng là phải duy trì cấu trúc mô-đun tốt cho công việc, tạo ra các hàm dễ hiểu và sử dụng quy ước tên phù hợp. Một người không viết mã hay thiết kế hệ thống cũng có thể hiểu được.

2. Không kiểm tra tính chính xác của dữ liệu

Các hệ thống bạn thiết kế có thể phải dùng đến nhiều loại dữ liệu, từ nhiều nguồn khác nhau. Với lượng thông tin tăng theo từng ngày, tính chính xác là yếu tố quan trọng mà một kỹ sư dữ liệu cần quan tâm.

Giả sử bạn là kỹ sư dữ liệu cho các hệ thống tiếp thị và bán hàng của công ty. Bạn có thể xây dựng các đường ống dữ liệu và xử lý nhiều loại thông tin khác nhau:

  • Dữ liệu truyền thông xã hội.
  • Dữ liệu công cụ tìm kiếm.
  • Dữ liệu thông tin đặt hàng từ ERPs và data warehouse.
  • Nhân viên bán hàng hoặc thông tin nhân viên từ hệ thống HRMS.
  • Dự báo và thông tin tài chính.

Dữ liệu mạng xã hội và công cụ tìm kiếm cần dọn dẹp rất nhiều. Một số dữ liệu có thể sạch hơn như ERPs và data warehouses. Dù bạn tin là dữ liệu bạn nhận được là chính xác nhưng nó hoàn toàn có thể sai hoặc xảy ra lỗi trong các bước chuyển đổi trung gian trước khi bạn nhận dữ liệu.

Là một kỹ sư dữ liệu, nguyên tắc vàng là phải kiểm tra tính chính xác của dữ liệu. Trên thực tế, bạn nên có các bước kiểm tra tiêu chuẩn được xây dựng trong quá trình phát triển của mình để đảm bảo độ chính xác. Nếu dùng SQL, bạn có thể tạo một số truy vấn ở cuối để làm nổi bật sự khác biệt. Nó có thể có nghĩa là sự khác biệt giữa thành công và thất bại của dự án.

3. Làm việc không cần suy nghĩ và thực hiện hành động một cách máy móc

Tùy theo vị trí trong hệ thống phân cấp dữ liệu, trách nhiệm của bạn có thể thay đổi. Ví dụ, nếu bạn đang bắt đầu sự nghiệp, bạn có thể được giao một mô-đun nhỏ trong dự án lớn để phát triển. Khi có nhiều kinh nghiệm hơn, bạn có thể thiết kế toàn bộ kiến trúc hệ thống để phục vụ một số mục đích cụ thể.

Không quan trọng vị trí của bạn ở đâu, hãy luôn ghi nhớ trả lời những câu hỏi quan trọng:

  • Tại sao tôi làm dự án này cho công ty? Giá trị nó mang lại là gì?
  • Ai là khách hàng của tôi (cả trước mắt và sau cùng)?
  • Cách hệ thống của bạn được sử dụng?

Điều này rất quan trọng để bạn không bị mất phương hướng của dự án. Trong thực tế, sự rõ ràng này cũng sẽ giúp bạn sắp xếp thứ tự ưu tiên các nhiệm vụ và chức năng tốt hơn.

Bạn có thể thiết kế một hệ thống xử lý hàng terabytes thông tin mỗi giờ. Nhưng điều đó cũng không có ý nghĩa gì nếu dự án không phù hợp với nhu cầu của khách hàng.

4. Không cân nhắc nhu cầu của người dùng cuối

Là một kỹ sư dữ liệu, bạn phát triển các hệ thống được dùng bởi các nhà phân tích, lập trình viên, người dùng doanh nghiệp và tất nhiên, khách hàng cuối. Một số trong đó có thể là khách hàng trực tiếp, trong khi những người khác là gián tiếp.

Ví dụ, một nhà phân tích có thể truy cập cơ sở dữ liệu bạn thiết kế để tạo dashboard trực quan. Người dùng doanh nghiệp sử dụng trang tổng quan đó để đưa ra quyết định, điều này cuối cùng sẽ mang lại lợi ích cho khách hàng.

Lưu ý:

  • Người dùng cuối của bạn là ai và loại dữ liệu họ dùng là gì?
  • Người dùng cuối của bạn sẽ truy cập thông tin như thế nào? Họ có hiểu mô hình dữ liệu? SQL? Cấu trúc dữ liệu của bạn có đủ tốt cho nhu cầu của họ?
  • Người dùng cuối của bạn có kỹ năng ở công cụ nào?

Hãy mời họ tham gia vào dự án để đảm bảo bạn luôn đi đúng hướng. Điều này rất quan trọng, vì những gì bạn đang làm có thể rời xa mong muốn của người dùng cuối.

5. Không trao đổi với doanh nghiệp

Giao tiếp thường xuyên với doanh nghiệp là điều quan trọng với mỗi kỹ sư dữ liệu. Bạn hãy xem doanh nghiệp vừa là khách hàng vừa là người hỗ trợ. Giả sử bạn cần thêm tài nguyên, có thể là đám mây đăng ký, một máy mạnh hơn hoặc một kỹ sư bổ sung trong nhóm. Các cuộc trao đổi thường xuyên sẽ giúp việc trao đổi dễ dàng hơn. Cuối cùng, dự án của bạn sẽ mang đến nhiều giá trị hơn cho doanh nghiệp thông qua việc thấu hiểu giữa hai bên qua các cuộc giao tiếp.

Trên đây là những sai lầm mà các kỹ sư dữ liệu nên chú ý trong quá trình làm việc. Mong rằng bài viết đã cung cấp những thông tin hữu ích cho bạn đọc, đừng quên đón xem các nội dung mới sẽ được cập nhật thường xuyên tại BAC’s Blog.

Nguồn tham khảo:

https://learnsql.com/

Nhu cầu đào tạo doanh nghiệp

BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.
 
 

CÁC KHOÁ HỌC BUSINESS ANALYST BACs.VN DÀNH CHO BẠN

Khoá học Online:

Khoá học Offline:

Tại Tp.HCM:

Tại Hà Nội:

Tham khảo lịch khai giảng TẤT CẢ các khóa học mới nhất

Ban biên tập nội dung – BAC

 

Previous Post
Next Post
Exit mobile version