Mô hình ứng dụng giải pháp chuyển đổi giọng nói thành văn bản Memobot

Đây là giải pháp tiết kiệm thời gian, công sức, tối ưu năng suất, thúc đẩy tiến độ công việc, giải quyết được vấn đề xả băng ghi âm, dễ dàng lưu trữ, phân loại các loại tập tin, dữ liệu.
Thực trạng
Xả băng ghi âm truyền thống là việc nghe và đánh máy, ghi chép thủ công lại tập tin ghi âm. Công việc ngồi nghe băng ghi âm hàng giờ và viết lại thành văn bản phức tạp và có nhiều điểm hạn chế: tốn nhiều thời gian, thời lượng ghi âm dài gây khó khăn trong việc nghe lại các các đoạn âm thanh từng phần của biên bản. Do vậy việc ra một biên bản xả băng hoàn chỉnh mất nhiều thời gian, kéo theo các tiến độ công việc khác bị chậm trễ.
 
Trong các doanh nghiệp, công việc xả băng ghi âm ở các cuộc họp sẽ được nhóm thư ký xử lý. Khi đó, với tốc độ nói 100 – 250 từ/phút và tốc độ gõ 50 – 70 từ/phút sẽ tốn nhiều thời gian để ghi chép, chuyển đổi thành văn bản. Sau đó là công đoạn rà soát lại nội dung, thư ký sẽ nghe toàn bộ file ghi âm kết hợp với dò văn bản một lần nữa để đảm bảo tính chính xác của văn bản chuyển đổi. Do mất nhiều thời gian và công đoạn, biên bản sẽ ra chậm, đôi khi cuộc họp chỉ 1 giờ nhưng 2 ngày sau mới có biên bản hoàn chỉnh. Ngoài ra, các thư ký phải phối hợp với nhau cùng xử lý thông tin, điều đó gây khó khăn trong vấn đề phối hợp nhiều thư ký trong một phiên họp.
 
Có thể thấy rằng, rã băng ghi âm truyền thống tốn nhiều thời gian ghi chép, công đoạn rà soát nội dung mất nhiều công sức, thời gian ra biên bản chậm và hiệu quả làm việc nhóm không cao. Đối với doanh nghiệp, khối lượng lớn tập tin ghi âm cần nhiều người phối hợp cùng xử lý và khó quản lý, lưu trữ. Đối với các cá nhân, do thời lượng băng ghi âm dài nên thường lựa chọn xả băng những đoạn cần thiết, điều đó vô tình bỏ qua nhiều thông tin và tư liệu có giá trị. Xả băng ghi âm cũng là nỗi trăn trở của các nhà báo, người làm nghệ thuật.
 
Để đáp ứng nhu cầu xả băng ghi âm nhanh chóng, Công ty Cổ phần Giải Pháp Trí thông minh Nhân tạo Việt Nam (VAIS) đã tạo ra giải pháp Memobot chuyên chuyển đổi giọng nói thành văn bản, hỗ trợ việc xả băng ghi âm, ứng dụng trong nhiều lĩnh vực như: họp hành (lãnh đạo, thư ký ghi âm lại các buổi họp), phỏng vấn (nhà báo, luật sư, nhà tuyển dụng ghi âm lại các sự kiện, cuộc phỏng vấn), học tập (học sinh, sinh viên ghi âm lời thầy cô giảng bài), sáng tạo nội dung (người làm truyền thông Youtube/Podcasts ghi âm làm phụ đề video), sáng tác (nhà văn, nhà nghiên cứu ghi âm ngay khi vừa nảy ra ý tưởng).
 
Theo ông Phạm Tấn Anh Vũ (Đại diện kinh doanh khu vực phía Nam – Công ty VAIS), giải pháp chuyển đổi giọng nói thành văn bản Memobot là phương án hiệu quả giúp cá nhân và doanh nghiệp rã băng ghi âm trong thời đại chuyển đổi số. Hơn hết, đây là giải pháp tiết kiệm thời gian, công sức, tối ưu năng suất, thúc đẩy tiến độ công việc. Mặt khác, vấn đề xả băng ghi âm trong thời đại công nghệ cũng rất cần giải pháp chuyển đổi số hỗ trợ để quản lý, lưu trữ tập tin ghi âm và văn bản chuyển đổi. Memobot là hướng đi tích cực để giải quyết các vấn đề và vướng mắc mà doanh nghiệp, cá nhân đang gặp.
 
 
 
Ưu điểm công nghệ
 
Ông Phạm Tấn Anh Vũ (Đại diện kinh doanh khu vực phía Nam – Công ty VAIS) cho biết, Memobot đã đoạt giải Nhất hạng mục Nhận dạng giọng nói với độ chính xác 95,2% tại cuộc thi Xử lý ngôn ngữ và giọng nói tiếng Việt 2019. Tại cuộc thi Startup Wheel 2022, ứng dụng Memobot là sản phẩm duy nhất nhận 2 giải thưởng quan trọng là giải Nhì và giải thưởng Dự án sáng tạo nhất. Sản phẩm đã triển khai cho Văn phòng Chính phủ, kỳ họp Quốc Hội 14 (2019), 15 (2022), VTV, VOV…
 
Ngoài chức năng chuyển đổi giọng nói thành văn bản trong thời gian thực, Memobot còn cung cấp nhiều tính năng khác gồm: Trực tiếp tham gia và ghi âm cuộc họp Meet, Zoom, Teams; Phân chia dữ liệu theo năm tháng và chủ đề; Tự động nhận biết và ngắt đoạn từng lời nói của nhiều người khác nhau; Hỗ trợ chuyển đổi các tệp âm thanh có định dạng khác nhau; Đồng bộ dữ liệu giữa điện thoại và website (memobot.io), có mặt ở cả hai phiên bản Android và iOS.
 
Điểm nổi bật của Memobot là hỗ trợ tự động tạo phụ đề và ngắt đoạn từng lời của nhiều người khác nhau trong thời gian thực, giúp tiết kiệm tối đa thời gian xử lý băng ghi âm, trong khi xả băng ghi âm truyền thống phải nghe và viết lại thủ công, tự ngắt phân đoạn thời gian và phân biệt từng người nói. Bên cạnh đó, Memobot cũng hỗ trợ đăng tải và xuất văn bản chuyển đổi ra các loại tệp có định dạng khác nhau, xử lý toàn bộ các công đoạn trên trong thời gian thực, chỉnh sửa nội dung văn bản trực tiếp kèm theo phân đoạn thời gian được thể hiện sẵn, từ nào sai thì chỉ cần gõ lại từ đó chứ không cần gõ lại toàn bộ nội dung.
 
 
Khi sử dụng Memobot, mọi thông tin file ghi âm và văn bản đều được lưu trữ trên phần mềm. Người dùng dễ dàng nắm bắt và chia sẻ cho người khác, do đó các cá nhân và doanh nghiệp khác cũng có thể tiếp nhận thông tin từ dữ liệu đã được lưu trữ lại. Từ đó, doanh nghiệp, cá nhân giải quyết được vấn đề xả băng ghi âm, dễ dàng lưu trữ, phân loại các loại tập tin, dữ liệu.
 
Quy trình – giải pháp công nghệ
Bước 1: Chuyển đổi file thành văn bản
Để chuyển file ghi âm thành văn bản, trên smartphone có nút ghi âm được thể hiện bằng biểu tượng mic màu cam ở cuối màn hình tay phải, gồm ba lựa chọn là ghi âm trực tiếp và ghi âm thông qua cuộc họp online trên các nền tảng Zoom, Meet và Teams hoặc đăng tải file ghi âm có sẵn lên website memobot.io.
• Trường hợp ghi âm trực tiếp: Chọn Ghi âm và tiến hành thu âm trực tiếp.
• Trường hợp ghi âm qua Zoom, Meet, Teams: Chọn Tham gia cuộc họp và tiến hành dán đường dẫn cuộc họp. Khi được người tổ chức chấp nhận, phê duyệt tham gia cuộc họp, Memobot sẽ tự động ghi âm nội dung cuộc họp đang diễn ra. Kết thúc ghi âm bằng cách ấn vào biểu tượng Dừng lại.
• Trường hợp sử dụng file ghi âm có sẵn: Chọn Thêm file âm thanh, đăng tải file âm thanh có sẵn.
 
Sau đó, Memobot sẽ xử lý toàn bộ các công đoạn trên trong thời gian thực.
 
Bước 2: Chỉnh sửa nội dung văn bản và đánh dấu nội dung
Người dùng có thể chỉnh sửa nội dung văn bản trực tiếp kèm theo phân đoạn thời gian được thể hiện sẵn, chỉ cần gõ lại từ mà Memobot nhận diện sai, không cần gõ lại toàn bộ nội dung. Ngoài ra người dùng có thể sửa trực tiếp vào văn bản nếu thấy phần dịch của Memobot chưa được chính xác hay muốn bổ sung nội dung mới khi phần thu âm trước đó chưa đề cập đến nội dung đó.
Để đánh dấu phần ghi âm, người dùng tô đen phần chữ trong văn bản, Memobot sẽ đồng bộ phần tô đen giống với phần ghi âm, khi đó chỉ cần nhấp vào phần chữ tô đen thì phần thu âm giọng nói sẽ tự động phát đến đoạn tương ứng với với dòng chữ đó.
 
Bước 3: Xuất và chia sẻ văn bản chuyển đổi
Sau khi kết thúc quá trình chuyển đổi file ghi âm, Memobot hỗ trợ tải bản ghi qua nhiều định dạng khác nhau từ tệp word (doc), tệp âm thanh (mp3), tệp văn bản (txt), tệp phụ đề (srt),… và chia sẻ trực tiếp bản ghi thông qua những ứng dụng khác nhau như Instagram, Facebook, Zalo, Gmail, Drive, Twitter,..
.
Điều kiện chuyển giao
Các doanh nghiệp, tổ chức, đơn vị, cá nhân có nhu cầu có thể liên hệ trực tiếp Công ty Cổ phần Giải Pháp Trí thông minh Nhân tạo Việt Nam (VAIS) để dùng thử sản phẩm, hoặc liên hệ Trung tâm Thông tin và Thống kê Khoa học và Công nghệ (CESTI, thuộc Sở Khoa học và Công nghệ TP.HCM) để được hỗ trợ tư vấn triển khai chuyển giao công nghệ.
 
Thông tin liên hệ
1. Ông Phạm Tấn Anh Vũ – Đại diện kinh doanh khu vực phía Nam
Công ty Cổ phần Giải Pháp Trí thông minh Nhân tạo Việt Nam (VAIS)
Điện thoại: 0918192860
E-mail: phamtananhvu@vais.vn
Website: https://vais.vn
 
2. Trung tâm Thông tin và Thống kê Khoa học và Công nghệ
Phòng Giao dịch Công nghệ
Địa chỉ: 79 Trương Định, phường Bến Thành, Quận 1, TP.HCM
Điện thoại: (028) 3822 1635 - Fax: (028) 3829 1957
Email: giaodichcongnghe@cesti.gov.vn
Hoàng Kim (CESTI)
Scroll