Dataocean AI, в сотрудничестве с несколькими университетами и компаниями, анонсировала создание GigaSpeech 2 — многоязычного датасета для распознавания речи. Он включает 30,000 часов автоматически транскрибированного аудио на тайском, индонезийском и вьетнамском языках. После доработки, refined версия предлагает 10,000 часов тайского, 6,000 часов индонезийского и 6,000 часов вьетнамского аудио.
Процесс создания датасета полностью автоматизирован и включает в себя сбор данных, транскрипцию и уточнение. GigaSpeech 2 охватывает множество тематик, таких как бизнес, культура, технологии и спорт. Модели, обученные на этом датасете, показывают результаты, сопоставимые с коммерческими решениями.
Теперь GigaSpeech 2 доступен для скачивания, что открывает новые горизонты для исследований в области распознавания речи.