Startup đến từ Ai-len xây dựng công nghệ nhận dạng giọng nói đầu tiên trên thế giới dành cho trẻ em

Với công nghệ này, hãng dự định cung cấp cả phần cứng và phần mềm cho các nhà phát triển. Những ứng dụng giáo dục mở rộng sẽ hỗ trợ đọc và phát triển ngôn ngữ, điều khiển giọng nói của trẻ em cho các thiết bị IoT dùng trong nhà, đồ chơi thông minh và những trải nghiệm thực tế ảo /thực tế ảo tăng cường (AR).

SoapBox Labs ra đời vào năm 2013, là đứa con tinh thần của tiến sĩ Patricia Scanlon - nhà nghiên cứu đã từng làm việc tại Bell Labs, với hơn 20 năm kinh nghiệm trong lĩnh vực công nghệ nhận dạng giọng nói, công ty công nghệ non trẻ được xây dựng dựa trên nền tảng của công nghệ nhận dạng giọng nói được xây dựng dùng cho người trưởng thành nổi lên thời gian gần đây, được trang bị trong các thiết bị loa thông minh như Amazon Echo hoặc Google Home, nhưng chúng lại không hoạt động tốt với đối tượng là trẻ em.

Đó là bởi vì trẻ em có giọng nói mẫu và cao độ khác nhau. Thêm vào đó, không như người lớn – thường thực hiện các hành vi có ý thức hoặc vô thức nhằm cải thiện độ chính xác của những tiện ích mà chúng ta hay gọi là trợ lý (ảo) thông minh, trẻ nhỏ không có xu hướng tự thích nghi thứ ngôn ngữ (mà chúng) đang sử dụng để phù hợp với ngôn ngữ trên máy móc.

Trong một cuộc trao đổi qua điện thoại, tiến sĩ Scanlon cho biết, khi bà và nhóm của mình tại SoapBox Labs bắt đầu làm việc về vấn đề này vào năm 2013, họ đã phải bỏ đi rất nhiều điều mà họ đã biết trong cách xây dựng công nghệ về giọng nói. Sau một giai đoạn nghiên cứu sâu rộng, họ rút ra kết luận rõ ràng là "hành vi nói của trẻ em rất khác so với người lớn", đặc biệt là ở lớp trẻ nhỏ hơn. Kết quả thử nghiệm khi cho trẻ em sử dụng công nghệ nhận dạng giọng nói sử dụng dữ liệu giọng nói của người lớn mang lại hiệu suất khá thấp.

Thay vào đó, SoapBox Labs đã tạo ra tập hợp dữ liệu giọng nói trẻ em của riêng họ (trong đó bao gồm hàng ngàn giờ dữ liệu về giọng nói của trẻ em) và kết hợp với sự hiểu biết của nhóm về giọng nói và hành vi của trẻ. Nền tảng kết quả thu được sử dụng các kỹ thuật học sâu (deep learning) ứng dụng trí tuệ nhân tạo (AI) để vận hành cho các mô hình riêng của công ty và các thuật toán ghi điểm, và mục tiêu tối thượng là cung cấp công nghệ giọng nói tốt hơn hướng tới đối tượng người dùng là trẻ em.

Hiện SoapBox Labs đã phát hành một phiên bản giao diện lập trình ứng dụng (API) nhận dạng giọng nói trẻ em với ngôn ngữ là tiếng Anh cho các bên thứ ba sử dụng, danh sách các đối tác sẽ được công bố vào đầu tháng tới.

Công ty cũng tiết lộ về khoản tài trợ lên đến 2,1 triệu Euro – trong đó bao gồm khoản trợ cấp trị giá 1,5 triệu Euro của EU và 600.000 đô la Mỹ từ các nhà tài trợ hiện có, với dự định sử dụng để bổ sung thêm nhiều ngôn ngữ cho nền tảng nhận dạng giọng nói của mình. Hiện tổng vốn SoapBox Labs đã huy động được khoảng 3 triệu Euro.

Thảo luận về tương lai của công nghệ nhận dạng giọng nói của trẻ em, Scanlon nói với TechCrunch rằng chúng ta có thể thấy trong một tình huống nhất định nào đó, thiết bị sẽ nhận ra đó là giọng nói của một đứa trẻ hay người lớn để chuyển đổi nền tảng sang các bộ dữ liệu và mô hình phù hợp. Theo bà, đó là bởi vì phát triển công nghệ nhận dạng giọng nói dành cho trẻ em hiện khá khó khăn, không như đối với công nghệ dành cho người lớn, và vì vậy, hai giải pháp riêng biệt ở thời điểm này là giải pháp tối ưu.

Ngoài ra, một thiết bị hoặc ứng dụng nếu biết rằng nó đang tương tác với một đứa trẻ có thể làm thay đổi các hành vi hoặc quyền tương tác của nó đến với đối tượng. Trong một số trường hợp, bạn sẽ thực sự không mong muốn đứa trẻ bị máy móc kiểm soát, mà là chúng cần được thấu hiểu.

Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống

Tham gia bình luận

Tin cùng chuyên mục Xem tất cả

Phát ngôn đáng suy ngẫm của Elon Musk: thay vì chĩa tên lửa vào nhau, chúng ta nên hướng chúng tới những vì sao

Nhóm lập trình viên bí ẩn tự nhận mình là ‘hậu duệ Bitcoin’: Âm thầm ‘vá’ nhiều lỗ hổng, nắm trong tay tương lai tiền số, được nhận tài trợ 3,7 tỷ đồng/năm

Phát hiện lỗ hổng "không thể vá" trong chip Apple M-series, hacker chỉ cần một giờ để xuyên thủng lớp mã hóa bảo mật

Hết trà sữa hành lá lại xuất hiện trà sữa cá chiên: Đừng đùa với sức khỏe của chính mình nữa!

Discord vừa biến mọi PC trở thành "máy cày view": Video đạt 1.4 tỷ view chỉ trong 1 ngày, Sky hay fan K-pop cũng phải "chào thua"