Giải pháp nâng cao chất lượng soạn thảo văn bản tiếng việt - Deep Spelling

Với sự phát triển đột phá của các công nghệ học máy (Machine Learning) và công nghệ xử lý ngôn ngữ tự nhiên (Natural Language Processing), các mô hình xử lý ngôn ngữ tự nhiên tự động đã trở nên khả thi hơn khi ứng dụng vào thực tế. Hệ thống phát hiện và sửa lỗi chính tả Deep Spelling ra đời nhờ ứng dụng công nghệ học máy tiên tiến nhất đồng thời với các cải tiến riêng mới cho ngôn ngữ Tiếng Việt. Hệ thống Deep Spelling là một công cụ hữu ích trong việc nâng cao chất lượng soạn thảo văn bản Tiếng Việt.
Đối với văn bản hay bản tin của các cơ quan nhà nước, lỗi chính tả còn gây ra sự không chính xác về nội dung, ảnh hưởng tới uy tín của đơn vị phát hành văn bản, và cũng làm giảm tính nghiêm túc của thông tin mà văn bản muốn truyền tải. Lỗi chính tả xuất hiện trong các văn bản có thể ảnh hưởng tới chất lượng của văn bản, gây cảm xúc tiêu cực ở người đọc. Vì vậy, việc xây dựng một hệ thống thông minh, tự động phát hiện lỗi chính tả là một nhiệm vụ quan trọng để hỗ trợ con người trong việc nâng cao chất lượng văn bản.
 
Một số hệ thống ứng dụng cũng đã được xây dựng và thử nghiệm thực tế, tuy nhiên chất lượng chưa thực sự tốt khi dùng trong thực tế và vì vậy chưa phổ biến. Vì vậy hiện tại đa số chúng ta vẫn đang sử dụng công cụ đơn giản có sẵn trong các hệ soạn thảo văn bản, như trong MS Word, để chủ yếu kiểm tra một từ có nằm trong từ điển không.
 
Các kết quả thử nghiệm trên thực tế
Thực hiện khảo sát một số bản tin trên một số trang websites:
•    Báo VnExpress
•    Báo Vietnamnet
•    Zing News
•    Báo Bảo vệ pháp luật
•    Báo Phụ nữ Việt Nam
•    Báo Giao thông
•    Hà Nội Mới
•    Tin tức Quốc hội
•    Báo Chính phủ
 
Và thống kê được kết quả như sau:
 
 
Hệ thống có khả năng kiểm tra phát hiện ra 6 loại lỗi sau
(1)    Lỗi chính tả: Bao gồm các loại lỗi chính tả thông thường như liệt kê trong mục 1.2, ví dụ:
 
 
(2)    Lỗi thiếu từ: Hiện tượng thiếu từ được hệ thống phát hiện ra và gợi ý thêm từ. Lỗi  này thường xảy ra do quá trình soạn thảo vội. Hệ thống sẽ phát hiện ra và gợi ý bổ sung từ thiếu.
(3)    Lỗi thừa từ:  Hệ thống phát hiện một số hiện tượng thừa từ thuộc loại từ nhiễu bị thêm vào hoặc là từ bị lặp lại trong quá trình soạn thảo.
(4)    Lỗi viết hoa/thường: chủ yếu dành cho việc kiểm tra tên riêng viết hoa Nghị định số 30/2020/NĐ-CP của Chính phủ về công tác văn thư.
 
 
(5)    Lỗi dấu thanh:
Một số văn bản cũ vẫn còn lỗi nếu xét theo quy định này, đồng thời một số nơi vẫn ưu tiên sử dụng đánh dấu thanh theo kiểu cũ. Vì vậy hệ thống cho phép Tuỳ chọn cả 2 loại này. Và cũng đồng thời cho phép người dùng chấp nhận cả 2 loại.
 
 
Ví dụ:
 
 
(6)    Lỗi khoảng trắng: Lỗi này thường xảy ra khi người dùng có thói quen dùng khoảng trắng để phân cách các dấu câu, dấu ngoặc đối với các từ trước nó.
 
Deep Spelling- cung cấp 3 phương thức sử dụng thuận tiện cho người dùng
Sử dụng trên Web.
Ngoài việc soạn thảo trực tiếp hoặc copy nội dung văn bản để kiểm tra chính tả, người dùng có thể upload file văn bản dạng Text, dạng MS Word, dạng Pdf (textual) hoặc là link của một trang Web.