Lê Duy Khánh, kỹ sư “genZ” của Zalo AI đã báo cáo tại hội nghị khoa học Interspeech vừa diễn ra tại Hy Lạp từ 1-5.9.2024.
Đề tài Improving Streaming Speech Recognition With Time-Shifted Contextual Attention And Dynamic Right Context Masking (Cải thiện nhận dạng tiếng nói thời gian thực bằng cơ chế chú ý dịch chuyển theo thời gian và mặt nạ ngữ cảnh tương lai động) của Duy Khánh đã đạt điểm “gần như tuyệt đối” – 11/12 điểm, vượt qua vòng xét duyệt của hơn 2.000 bài báo để được trình bày tại hội nghị dưới hình thức thuyết trình.
TS Châu Thành Đức, trưởng bộ phận nghiên cứu và phát triển tại Zalo AI, giảng viên ĐH Khoa học tự nhiên TP.HCM đánh giá: “Công trình này được kỳ vọng đóng góp vào việc nâng cấp các mô hình nhận dạng tiếng nói, tăng độ chính xác của tính năng soạn tin nhắn bằng giọng nói và tính năng chuyển tin nhắn thoại thành văn bản trên ứng dụng Zalo. Trước đó, Zalo đã tích hợp nghiên cứu này vào ứng dụng nhắn tin từ cuối năm 2023, cho phép người dùng soạn tin nhắn bằng giọng nói thay vì phải gõ tay, giúp tiết kiệm thời gian và tiện lợi hơn trong nhiều tình huống sử dụng. Hiện tại, độ chính xác của tính năng soạn tin nhắn bằng giọng nói trên Zalo đã đạt 95% trong thực tế, tỷ lệ cần chỉnh sửa lại văn bản sau khi soạn bằng giọng nói giảm từ 6,4% xuống còn 4,8%. Theo thống kê của Zalo, mặc dù tính năng vẫn đang trong giai đoạn thử nghiệm nhưng đã tạo ra gần 4,5 triệu tin nhắn mỗi ngày, có khoảng 3,2 triệu người dùng hàng tháng (dữ liệu cập nhật đến tháng 6.2024).
Hiện tại, 31% nhân sự của Zalo thuộc thế hệ GenZ. Năm 2021, 2 đề tài nghiên cứu của nhóm kỹ sư Zalo AI liên quan đến công nghệ xử lý tiếng nói đã trình bày tại hội nghị châu Á – Thái Bình Dương về trí tuệ nhân tạo quốc tế (PRICAI 2021). Các tác giả của 2 đề tài này có độ tuổi chưa đến 30.
Lâm Vạn