Xử lý ngôn ngữ tự nhiên (Natural language processing - NLP) là một nhánh của trí tuệ nhân tạo và khoa học máy tính nghiên cứu giao tiếp ngôn ngữ tự nhiên giữa máy tính và con người. Mục tiêu cuối cùng của NLP là làm cho máy tính có khả năng hiểu ngôn ngữ như con người. Nó hỗ trợ xây dựng rất nhiều công nghệ, bao gồm dịch máy, nhận dạng giọng nói, phân tích cảm xúc, tóm tắt văn bản tự động, trợ lý ảo, v.v. Bài viết này sẽ giới thiệu về xử lý ngôn ngữ tự nhiên (NLP), tìm hiểu một số nguyên tắc cơ bản của nó và giải thích những phát triển hiện tại trong học sâu đã giúp ích cho NLP như thế nào.
 
1. Khái niệm về xử lý ngôn ngữ tự nhiên - NLP 
Lĩnh vực xử lý ngôn ngữ tự nhiên (Natural language processing - NLP) là sự kết hợp giữa học máy (ML), ngôn ngữ học và khoa học máy tính. Mục tiêu của xử lý ngôn ngữ tự nhiên (NLP) là cho phép máy tính hiểu và tạo ra ngôn ngữ của con người. Lĩnh vực này tập trung vào giao tiếp ngôn ngữ tự nhiên giữa con người và máy tính. Kỹ thuật NLP được sử dụng trong các ứng dụng lọc văn bản và dịch máy, cũng như trong các trợ lý giọng nói như Siri của Apple và Alexa của Amazon.
 
NLP mang đến rất nhiều lợi ích vì nó ảnh hưởng bởi sự phát triển của học máy (ML) và đặc biệt là từ các kỹ thuật học sâu. NLP được cơ bản được chia làm 3 phần: 
  • Nhận dạng giọng nói: dịch ngôn ngữ nói thành văn bản.
  • Hiểu ngôn ngữ tự nhiên:  khả năng hiểu ngôn ngữ của máy tính.
  • Tạo ngôn ngữ tự nhiên:  tạo ra ngôn ngữ tự nhiên bằng máy tính.
2. Tại sao việc xử lý ngôn ngữ tự nhiên lại khó khăn? 
Ngôn ngữ của con người là được xây dựng đặc biệt để truyền đạt ý nghĩa của người nói/người viết. Đây là một hệ thống phức tạp, khiến cho quá trình xử lý ngôn ngữ tự nhiên khó khăn hơn. Một điều đáng chú ý khác về ngôn ngữ của con người là nó đều có tính biểu tượng. Theo Chris Manning, giáo sư máy học tại Stanford, đây là một hệ thống tín hiệu phân loại, mang tính biểu tượng và rời rạc. Điều này có nghĩa là chúng ta có thể truyền đạt cùng một ý nghĩa theo nhiều cách khác nhau (ví dụ: lời nói, cử chỉ, dấu hiệu, v.v.). Mã hóa của não người là một mô hình kích hoạt liên tục trong đó các biểu tượng được truyền qua tín hiệu liên tục của âm thanh và hình ảnh. Hiểu ngôn ngữ của con người được coi là một nhiệm vụ khó khăn do tính phức tạp của nó. Ví dụ, có vô số cách khác nhau để sắp xếp các từ trong một câu. Ngoài ra, các từ có thể có nhiều nghĩa và thông tin ngữ cảnh là cần thiết để diễn giải câu một cách chính xác. 
 
3. Phân tích cú pháp và ngữ nghĩa
Phân tích cú pháp (cú pháp) và phân tích ngữ nghĩa (ngữ nghĩa) là hai kỹ thuật chính dẫn đến sự hiểu biết về ngôn ngữ tự nhiên.
 

3.1. Phân tích cú pháp:

Phân tích cú pháp là quá trình phân tích ngôn ngữ tự nhiên với các quy tắc của ngữ pháp chính thức. Các quy tắc ngữ pháp được áp dụng cho các danh mục và nhóm từ chứ không phải các từ riêng lẻ. Phân tích cú pháp về cơ bản gán một cấu trúc ngữ nghĩa cho văn bản.
 

3.2. Phân tích ngữ nghĩa:

Sự hiểu biết của chúng ta về những gì ai đó đã nói là một quá trình tiềm thức phụ thuộc vào trực giác và hiểu biết ngôn ngữ của chúng ta. Nói cách khác, ý nghĩa và bối cảnh đóng vai trò quan trọng trong cách chúng ta hiểu ngôn ngữ. Nhưng với máy tính thì lại là chuyện khác. Từ “ngữ nghĩa” là một thuật ngữ ngôn ngữ và có nghĩa là “liên quan đến ý nghĩa hoặc logic”.
 
Quá trình giải mã và giải thích các tín hiệu, từ ngữ và cấu trúc câu được gọi là phân tích ngữ nghĩa. Điều này cho phép máy tính hiểu ngôn ngữ tự nhiên một phần tương tự như cách con người hiểu.
 
4. Kỹ thuật xử lý ngôn ngữ tự nhiên để hiểu văn bản

4.1. Phân tích cú pháp:

Phân tích cú pháp đề cập đến việc máy tính phân tích chính thức một câu thành các thành phần của nó, dẫn đến cây phân tích cú pháp hiển thị mối quan hệ cú pháp của chúng với nhau ở dạng trực quan, có thể được sử dụng để xử lý và hiểu thêm.
 
Cây phân tích cú pháp là một công cụ dùng để nhóm các từ thành câu, hiển thị các phần từ của mỗi từ (danh từ, động từ, từ hạn định). Nó giúp hiểu được mối quan hệ ngữ pháp giữa các từ dựa trên cấu trúc của chúng. Ví dụ: "robbed" là cụm động từ có gắn "V" và "VP", trong khi "thief" là cụm động từ có gắn "NP". Cấu trúc này giúp hình thành các mối quan hệ chủ ngữ-động từ và các mối quan hệ khác.
 

4.2. Nguồn gốc:

Đây là giai đoạn truy xuất thông tin được sử dụng trong xử lý ngôn ngữ tự nhiên cho mục đích tiền xử lý và hiệu quả. Về cơ bản việc truy xuất nguồn gốc của từ rất cần thiết vì sẽ gặp những biến thể khác nhau của các từ thực sự có cùng gốc và cùng một nghĩa. Ví dụ:
  • Tôi đang đi trên xe.
  • Tôi đang đi trên ô tô.
Hai câu này có nghĩa giống hệt nhau và cách sử dụng từ này giống hệt nhau. 
 

4.3. Phân đoạn văn bản:

Trong xử lý ngôn ngữ tự nhiên, phân đoạn văn bản là quá trình chia văn bản thành các thành phần có ý nghĩa như từ, câu, chủ đề, mục đích cơ bản, v.v. Văn bản chủ yếu được chia thành các từ cấu thành, một quá trình mà tùy thuộc vào ngôn ngữ, có thể gặp nhiều khó khăn.
 

4.4. Nhận dạng thực thể được đặt tên: 

Mục tiêu nhận dạng thực thể được đặt tên (Named entity recognition - NER) là xác định các mục "thực thể được đặt tên" trong văn bản có thể được định vị và phân loại thành các nhóm được thiết lập trước. Các danh mục này có thể chứa mọi thứ từ tỷ lệ phần trăm và số liệu tiền tệ cho đến tên người, địa điểm và tổ chức. 
 
Ví dụ:
  • Trước NER: Martin đã mua 300 cổ phiếu SAP vào năm 2016.
  • Sau NER: [Martin]Person đã mua 300 cổ phiếu của [SAP]Organization trong [2016]Time.

4.5. Trích xuất mối quan hệ:

Các thực thể có tên NER được sử dụng trong việc trích xuất mối quan hệ nhằm tìm kiếm các mối quan hệ ngữ nghĩa giữa chúng. Điều này có thể đòi hỏi phải có sự tìm hiểu, chẳng hạn như ai kết hôn với ai, liệu ai đó có làm việc cho một công ty cụ thể hay không và các chi tiết khác. Cũng có thể biến vấn đề này thành một vấn đề phân loại và có thể đào tạo một mô hình học máy để xử lý tất cả các loại mối quan hệ.
 

4.6. Phân tích tình cảm:

Phân tích tình cảm được sử dụng để xác định thái độ hoặc tình cảm của người viết hoặc người nói đối với một tác phẩm hay một cuộc trao đổi. Vì vậy, để dự đoán được ý định cơ bản thì văn bản phải được hiểu. Đây là một thách thức của việc xử lý ngôn ngữ tự nhiên. Hầu hết tình cảm được chia thành ba loại: trung lập, tiêu cực và tích cực.
 
Ví dụ: phân tích cảm xúc có thể được sử dụng để dự báo cảm xúc và ý kiến của khách hàng về sản phẩm dựa trên bài đánh giá mà họ đã viết. Việc áp dụng phân tích tình cảm vào các bài đánh giá, thăm dò ý kiến, ấn phẩm và các tài liệu khác được áp dụng phổ biến.
 
5. Lợi ích của việc xử lý ngôn ngữ tự nhiên 
  • Phân tích dữ liệu nâng cao: Mặc dù NLP và các dạng AI khác không hoàn hảo, nhưng việc xử lý ngôn ngữ tự nhiên có thể mang lại tính khách quan cho việc phân tích dữ liệu , mang lại kết quả chính xác và nhất quán hơn. 
  • Có được thông tin chi tiết nhanh hơn: Với sự phát triển vượt trội của IoT và các công nghệ tiên tiến khác đang tổng hợp nhiều dữ liệu hơn bao giờ hết, một số bộ dữ liệu đơn giản là quá sức để con người có thể xem qua. Một lượng lớn dữ liệu có thể được xử lý nhanh chóng bằng cách sử dụng NLP, mang lại những hiểu biết sâu sắc mà con người có thể phải mất hàng tuần hoặc thậm chí hàng tháng mới có được.
  • Tăng năng suất: NLP có thể xử lý các công việc như sàng lọc các tập dữ liệu, sắp xếp email và đánh giá phản hồi của khách hàng. Với những công việc lặp đi lặp lại này, người lao động được tự do tập trung vào những vấn đề phức tạp và cấp bách hơn. 
  • Nâng cao chất lượng trải nghiệm của khách hàng: Xử lý ngôn ngữ tự nhiên có thể giảm bớt một số khối lượng công việc cho nhân viên hỗ trợ khách hàng bằng chatbot, có thể nhanh chóng trả lời các câu hỏi trực tuyến và định tuyến lại người dùng khi cần. NLP cũng có khả năng phân tích phản hồi và khảo sát của người tiêu dùng, giúp các nhóm truy cập nhanh vào thông tin về cảm nhận của mọi người về thương hiệu và những hành động cần thực hiện để nâng cao tình cảm đó.
6. Các trường hợp sử dụng NLP
Với các lợi ích kể trên NLP được các công ty ứng dụng cho nhiều trường hợp khác nhau. 
  • Dịch vụ khách hàng: Mặc dù NLP được sử dụng thường xuyên nhất trong cài đặt dịch vụ khách hàng để hỗ trợ chatbot và callbot, nhưng các doanh nghiệp cũng đã sử dụng NLP để hỗ trợ trợ lý ảo. Những người trợ giúp này là một loại AI đàm thoại có thể thực hiện các cuộc trò chuyện dài hơn và phức tạp hơn. Ngoài ra, NLP có thể giúp người tiêu dùng liên hệ với đúng người nếu nó không thể giải quyết vấn đề.
  • Marketing: Việc thu thập thông tin thị trường trở nên dễ dàng hơn nhiều với xử lý ngôn ngữ tự nhiên, có thể phân tích các đánh giá trực tuyến, bài đăng trên mạng xã hội và diễn đàn web. Việc tổng hợp dữ liệu này có thể giúp nhóm tiếp thị hiểu được người tiêu dùng quan tâm đến điều gì và cách họ nhìn nhận thương hiệu của doanh nghiệp.
  • Nguồn nhân lực: Các nhà tuyển dụng và nhân sự có thể sử dụng NLP để sàng lọc hồ sơ, chọn ra những ứng viên có triển vọng dựa trên từ khóa, trình độ học vấn, kỹ năng và các tiêu chí khác. Ngoài ra, khả năng phân tích dữ liệu của NLP rất lý tưởng để xem xét các cuộc khảo sát nhân viên và nhanh chóng xác định cảm nhận của nhân viên về nơi làm việc.  
  • Thương mại điện tử: Xử lý ngôn ngữ tự nhiên có thể giúp khách hàng đặt vé, theo dõi đơn hàng và thậm chí giới thiệu các sản phẩm tương tự trên các trang web thương mại điện tử. Các doanh nghiệp có thể sử dụng dữ liệu về hoạt động mua hàng của khách hàng để thông báo loại sản phẩm nào cần dự trữ và thời điểm bổ sung hàng tồn kho.  
  • Tài chính: Trong tài chính, NLP có thể được kết hợp với học máy để tạo báo cáo tài chính dựa trên hóa đơn, bảng sao kê và các tài liệu khác. Các nhà phân tích tài chính cũng có thể sử dụng xử lý ngôn ngữ tự nhiên để dự đoán xu hướng thị trường chứng khoán. 
  • Bảo hiểm: Các công ty bảo hiểm có thể đánh giá các yêu cầu bồi thường bằng cách xử lý ngôn ngữ tự nhiên vì công nghệ này có thể xử lý cả dữ liệu có cấu trúc và không có cấu trúc. NLP cũng có thể được đào tạo để chọn ra thông tin bất thường, cho phép các nhóm phát hiện các khiếu nại gian lận.
  • Giáo dục: NLP có thể kiểm tra lỗi chính tả, đánh dấu ngữ pháp không cần thiết hoặc áp dụng sai và thậm chí đề xuất những cách đơn giản hơn để sắp xếp câu. Ngoài ra, NLP còn hỗ trợ dịch thuật cho học sinh trong quá trình học một ngôn ngữ mới. 
  • Y tế: Trong quá trình thực hiện, các bác sĩ có thể ra lệnh cho hành động và ghi chú của mình vào một ứng dụng để tạo ra bản ghi chính xác. NLP cũng có thể quét tài liệu của bệnh nhân để xác định những bệnh nhân phù hợp nhất cho một số thử nghiệm lâm sàng nhất định. 
  • Chế tạo: Với khả năng xử lý lượng lớn dữ liệu, NLP có thể thông báo cho nhà sản xuất về cách cải thiện quy trình sản xuất, thời điểm thực hiện bảo trì máy và những vấn đề cần khắc phục trong sản phẩm. 
  • An ninh mạng: Đội ngũ CNTT và bảo mật có thể sử dụng quá trình xử lý ngôn ngữ tự nhiên để lọc ra các thông tin liên lạc có vấn đề dựa trên thái độ, lựa chọn từ ngữ và các tiêu chí khác. Điều này tạo điều kiện thuận lợi cho quá trình bảo vệ một số bộ phận khỏi các mối đe dọa trực tuyến như thư rác và các chương trình lừa đảo. Khả năng hiểu dữ liệu của NLP cho phép nó xác định hành vi lạ và thông báo cho các nhóm về những mối nguy hiểm tiềm ẩn.
Hy vọng rằng những chia sẻ của BAC sẽ giúp ích cho bạn. Đừng quên đón đọc các bài viết mới nhất được cập nhật tại BAC's Blog bạn nhé.

Nguồn tham khảo:
https://builtin.com/

Nhu cầu đào tạo doanh nghiệp

BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.
 
 

CÁC KHOÁ HỌC BUSINESS ANALYST BACs.VN DÀNH CHO BẠN

Khoá học Online:

Khoá học Offline:

Tại Tp.HCM:

Tại Hà Nội:

Tham khảo lịch khai giảng TẤT CẢ các khóa học mới nhất

Ban biên tập nội dung - BAC