Dùng AI bóc tách giọng nói thành văn bản

Ứng dụng có khả năng tối ưu nhận dạng vùng miền với khả năng hoạt động hiệu quả trong môi trường nhiễu, khoảng cách xa và hiển thị thời gian thực, đạt độ chính xác 95%.
Ngày 13/7/2023, Sở Khoa học Công nghệ TP.HCM tổ chức hội thảo “Giải pháp chuyển đổi giọng nói thành văn bản Memobot”. Đây là một trong những hoạt động của Sàn Giao dịch Công nghệ TP.HCM năm 2023, do Trung tâm Thông tin và Thống kê Khoa học và Công nghệ (CESTI) triển khai thực hiện.
 
 
Tại hội thảo, ông Phạm Tấn Anh Vũ (Công ty Cổ phần Giải pháp Trí thông minh nhân tạo Việt Nam) chia sẻ với nguồn dữ liệu gần 7000 từ vựng tiếng Việt, Memobot là phương án hiệu quả giúp cá nhân và doanh nghiệp tiết kiệm thời gian, công sức, tối ưu năng suất, thúc đẩy tiến độ công việc, giải quyết được vấn đề xả băng ghi âm, dễ dàng lưu trữ, phân loại các loại tập tin, dữ liệu. Ứng dụng có khả năng tối ưu nhận dạng vùng miền với khả năng hoạt động hiệu quả trong môi trường nhiễu, khoảng cách xa và hiển thị thời gian thực, đạt độ chính xác 95%. Một giờ ghi âm có thể xử lý thành văn bản trong 6 phút.
 
Trong vài năm gần đây, Memobot đã đoạt giải Nhất hạng mục Nhận dạng giọng nói tại cuộc thi Xử lý ngôn ngữ và giọng nói tiếng Việt 2019. Tại cuộc thi Startup Wheel 2022, ứng dụng Memobot là sản phẩm duy nhất nhận 2 giải thưởng quan trọng là giải Nhì và giải thưởng Dự án sáng tạo nhất.
 
Điểm nổi bật của Memobot là hỗ trợ tự động tạo phụ đề và ngắt đoạn từng lời của nhiều người khác nhau trong thời gian thực, giúp tiết kiệm tối đa thời gian xử lý băng ghi âm, trong khi xả băng ghi âm truyền thống phải nghe và viết lại thủ công, tự ngắt phân đoạn thời gian và phân biệt từng người nói. Văn bản đầu ra được chuẩn hóa viết tắt, số, ngày tháng, từ nước ngoài, email và tự động viết hoa và chèn dấu chấm câu. Bên cạnh đó, Memobot cũng hỗ trợ đăng tải và xuất văn bản chuyển đổi ra các loại tệp có định dạng khác nhau, xử lý toàn bộ các công đoạn trên trong thời gian thực, chỉnh sửa nội dung văn bản trực tiếp kèm theo phân đoạn thời gian được thể hiện sẵn, từ nào sai thì chỉ cần gõ lại từ đó chứ không cần gõ lại toàn bộ nội dung.
 
Khi sử dụng Memobot, người dùng có thể ghi âm mọi lúc, mọi nơi bằng smartphone, kể cả việc ghi âm cuộc họp trên Zoom, Teams hay Meet. Mọi thông tin file ghi âm và văn bản đều được lưu trữ trên phần mềm. Sau đó, người dùng dễ dàng nắm bắt và chia sẻ cho người khác, do đó các cá nhân và doanh nghiệp khác cũng có thể tiếp nhận thông tin từ dữ liệu đã được lưu trữ lại. Nhờ vậy, doanh nghiệp, cá nhân giải quyết được vấn đề xả băng ghi âm, dễ dàng lưu trữ, phân loại các loại tập tin, dữ liệu. Hơn thế, giải pháp chuyển đổi giọng nói thành văn bản Memobot có thể được triển khai ngay, thích nghi nhiều ngôn ngữ lập trình và nhiều loại thiết bị (máy tính, điện thoại di động, micro) trong điều kiện ngoại tuyến, sử dụng dịch vụ cloud và máy chủ riêng để đảm bảo bảo mật thông tin trong đơn vị, doanh nghiệp.
 
Sau hội thảo, Sàn Giao dịch Công nghệ TP.HCM tiếp tục hỗ trợ kết nối, chuyển giao công nghệ giải pháp chuyển đổi giọng nói thành văn bản Memobot cho đơn vị, tổ chức, cá nhân có nhu cầu.
Văn Kiệt - Hoàng Kim (CESTI)
Scroll