Chuyển đổi giọng nói thành văn bản, mảnh đất khởi nghiệp tiềm năng

Thu Trang, Lê Phương
Chia sẻ
(VOV5) - "Origin-STT" là phần mềm hỗ trợ chuyển từ giọng nói tiếng Việt thành văn bản và gỡ băng với độ chính xác trung bình lên tới gần 94%.

Cùng với sự phát triển của kỷ nguyên 4.0, các sản phẩm công nghệ ngày càng được áp dụng phổ biến, trong đó phải kể đến phần mềm chuyển đổi giọng nói thành văn bản. Công nghệ này đang ngày càng được ứng dụng phổ biến, đa dạng đến nhiều lĩnh vực của đời sống: từ gỡ băng trong các phiên họp; sử dụng cho các nhà báo tác nghiệp; hỗ trợ ghi biên bản điều tra hiện trường, hỗ trợ cho người khuyết tật...  Origin Note – một phần mềm do các kỹ sư trẻ Việt Nam nghiên cứu – là một trong số những sản phẩm công nghệ như vậy.

Chuyển đổi giọng nói thành văn bản, mảnh đất khởi nghiệp tiềm năng - ảnh 1

Phần mềm chuyển giọng nói thành văn bản Origin-STT đạt giải Nhất lĩnh vực Công nghệ Thông tin cuộc thi Nhân tài Đất Việt 2019 - Ảnh: vietnamnet.vn

Nghe âm thanh bài viết tại đây:

Theo đánh giá của List25, tiếng Việt là một trong những ngôn ngữ khó học, khó phát âm nhất trên thế giới. Do đó, việc xây dựng nên những phần mềm, giải pháp chuyển đổi tiếng Việt vẫn được xem là một thử thách không nhỏ đối với ngay cả những tập đoàn hàng đầu thế giới như Google, Microsoft, hay Apple khi bước chân vào thị trường Việt Nam. Tuy nhiên, một startup Việt với những thành viên sáng lập trẻ trung, năng động chỉ mất 2 năm để xây dựng nên "Origin-STT" - một sản phẩm khiến bất kỳ ai cũng phải ngạc nhiên về tính sáng tạo và ứng dụng cao của nó.

"Origin-STT" là phần mềm hỗ trợ chuyển từ giọng nói tiếng Việt thành văn bản và gỡ băng với độ chính xác trung bình lên tới gần 94%. Origin Note còn có thể nhận dạng giọng nói ở cả 3 miền Bắc, Trung, Nam; có khả năng nhận dạng khoảng 7.000 từ tiếng Việt. Origin Note giúp tiết kiệm tối thiểu 10 lần thời gian, công sức nghe lại audio và gõ lại văn bản (gỡ băng). Ấn tượng hơn, phần mềm này thậm chí có thể tự động viết hoa tên người, tên địa danh, viết đúng định dạng ngày, tháng. Thậm chí một số tên riêng tiếng Anh đọc theo kiểu tiếng Việt phần mềm cũng có thể nhận diện và viết đúng.

Anh Hà Anh Tuấn, Giám đốc Công ty CP Truyền thông và Công nghệ Vinalink, Giám đốc Điều hành hệ sinh thái khởi nghiệp EMI, nhận xét: "Tôi đã thử cài phần mềm Origin Note trên các ứng dụng và khi tôi test thử thì độ chính xác nó gần như là tuyệt đối, đúng đến 99% như khi tôi nói. Tôi nói cũng lẫn lộn cả giọng của phóng viên, của mọi người. Thế nhưng nó vẫn có thể tách riêng được thì đấy là điều rất bất ngờ và tôi thấy rằng đây là cái phần mềm mà ý tưởng thì không có gì đặc biệt nhưng mà thực thi được cực kỳ tốt, cực kỳ xuất sắc, tức là một phần mềm thực sự là giải quyết được vượt trội cả nước ngoài".

Nhu cầu về một phần mềm tự động chuyển đổi tiếng nói sang văn bản phục vụ các phiên họp là việc hết sức cần thiết. Trước thực tế này, công ty TNHH Hệ thống trí thông minh nhân tạo Việt Nam (VAIS) đã đón đầu nhu cầu, nghiên cứu, phát triển thành công các công nghệ lõi của hệ thống trí thông minh nhân tạo cho ngôn ngữ tiếng Việt. Thông qua Origin-STT, người dùng có thể lưu lại nội dung cuộc họp dưới dạng văn bản và tệp âm thanh tương ứng đồng thời xuất văn bản sau khi kết thúc phiên họp/phỏng vấn; Gỡ băng dữ liệu phục vụ việc lưu trữ, tìm kiếm các tệp tin âm thanh bằng văn bản tương ứng.

Với những tính năng nổi bật và tiện ích đem lại, năm 2018, VAIS đã giành giải nhất về công nghệ nhận dạng giọng nói trong cuộc thi Ngôn ngữ tiếng Việt và công nghệ xử lý giọng nói 2019, đánh dấu sự xuất hiện của một tên tuổi mới tại Việt Nam về lĩnh vực trí tuệ nhân tạo nói chung và xử lý tiếng nói nói riêng ở cả khía cạnh ngôn ngữ và học thuật. Đầu năm 2019, VAIS đã đưa thành công các giải pháp nhận dạng tiếng nói ứng dụng cho các phiên họp của các cơ quan Trung ương như Văn phòng Trung ương Đảng và Văn phòng Quốc hội. Đặc biệt, "Origin-STT" đã ứng dụng gỡ băng cho toàn thể các phiên chất vấn nằm trong kỳ họp lần thứ 8 - Quốc Hội khóa XIV với độ chính xác cao.

Anh Nguyễn Quang Anh, Kỹ sư phát triển phần mềm Origin Note, cho biết: "Chúng tôi sử dụng nền tảng AI đê xử lý tiếng nói thành văn bản. Hiện tại chúng tôi đang triển khai trên các nền tảng Cloud, Web app, Mobi app. Về mặt bảo mật, đối với những sản phẩm trực tuyến, chúng tôi đã mã hóa văn bản cũng như audio đối với từng người dùng. Khi tin tặc chiếm dụng thì cũng không thể lấy được các dữ liệu này". 

Hiện VAIS đang hướng tới chiến lược đưa sản phẩm Origin Note đến được với nhiều đối tượng người dùng, góp phần đưa AI đi vào cuộc sống với những ứng dụng hữu ích. Anh Hoàng Minh Thành, Giám đốc điều hành Công ty TNHH Hệ thống trí thông minh nhân tạo Việt Nam, chia sẻ: "Hiện tại với công nghệ lõi chúng tôi đang sở hữu, chúng tôi có thể đưa ra được rất nhiều sản phẩm phục vụ cho nhiều đối tượng khác nhau. Ngoài việc hiện tại cung cấp sản phẩm gỡ băng cho phóng viên và khối văn phòng, chúng tôi cũng có thể cung cấp sản phẩm này cho các đơn vị doanh nghiệp. Sắp tới, chúng tôi sẽ đưa ra sản phẩm phân tích giọng nói ứng dụng trong tổng đài và bên cạnh đấy là những công cụ khác để học sinh sinh viên, giáo viên có thể nhập liệu văn bản bằng giọng nói".

Thời gian tới, phần mềm chuyển đổi giọng nói thành văn bản sẽ là lựa chọn của nhiều cá nhân, tổ chức để tối ưu háo nguồn lực và nâng cao hiệu quả trong công việc.

Feedback