Центр речевых технологий представил журналистам свои новые продукты и онлайн-технологии
5 августа 2010 года петербургская компания Центр речевых технологий (ЦРТ) провела летний пресс-тур для журналистов. Главной темой пресс-тура стали «Речевые технологии онлайн».
Сегодня рынок речевых технологий находится на пороге взрывного роста. Уровень и качество разработок позволяют говорить о переходе технологий в законченные решения и продукты.
Одним из ключевых направлений развития в ЦРТ видят Интернет, где на сегодняшний день рынок только формируется. Именно этой теме был посвящен пресс-тур.
Пресс-тур был поделен на 2 основные части:
-
о компании и технологиях распознавания и синтеза речи;
-
анонсы новых продуктов и технологий.
О компании и о технологиях
ЦРТ сегодня
Пресс-тур начался с выступления Михаила Хитрова, генерального директора ЦРТ. Михаил Хитров коротко рассказал об истории компании и ее достижениях за последние 20 лет (в этом году компания отмечает 20-летний юбилей).
За 20 лет работы на рынке компания стала российским и мировым лидером индустрии речевых технологий. Оборот компании с 2003 по 2008 годы вырос в 16 раз, а количество сотрудников сегодня превышает 260 человек (среди них более 100 ученых, 25 кандидатов в доктора наук, 3 доктора наук, средний возраст сотрудников - 35 лет).
ЦРТ осуществляет поставки своих продуктов в 64 страны мира на всех 5-и континентах. В России компания имеет широкую дилерскую сеть и поставляет свои решения в 150 городов страны. Рост оборота компании продолжился и в кризисные годы: в 2009 году, когда отечественный IT рынок просел на 14%, обороты ЦРТ выросли на 12% - прежде всего благодаря диверсифицированной продуктовой линейке и проектам за пределами страны.
Компания традиционно сильна в таких направлениях, как запись речи (многоканальные системы записи и профессиональные диктофоны), криминалистическая экспертиза речи (идентификация диктора, шумоочистка звукового сигнала), военные разработки. Кроме того, в последние годы компания выходит на коммерческий рынок. Среди прорывных перспективных технологий - голосовая биометрия, а также распознавание и синтез речи.
В области голосовой биометрии ЦРТ является общепризнанным мировым лидером. Это доказывает и недавно завершенный проект системы национального фоноучета, выполненный для Федерального правительства Мексики. Аналогов этому масштабному проекту на сегодняшний день в мире нет.
В области распознавания и синтеза речи ЦРТ обладает лучшими технологиями для русского языка. Несмотря на то, что ряд западных компаний работает на российском рынке, продукты ЦРТ остаются лучшими, прежде всего благодаря работе многочисленного штата лингвистов, фонетистов и других ученых, работающих с родным языком.
В последние годы ЦРТ получил множество призов и наград, в частности был признан «Лучшей инновационной компанией России - 2009» по версии РА Эксперт и «Лучшим экспортером Санкт- Петербурга - 2009». Михаил Хитров был удостоен премии «Шеф года в области инноваций» по версии журнала The Chief.
Распознавание речи
О технологии распознавания речи рассказал руководитель отдела распознавания речи Кирилл Левин. Кирилл выделил 4 перспективных направления для применения технологии:
-
управление устройствами;
-
автоматические справочно-информационные системы;
-
речевая аналитика, поиск информации в звукозаписях;
-
автоматическое стенографирование.
Кирилл также рассказал о механизме работы технологии, отметив основные проблемы и трудности, а также методы, с помощью которых они решаются. Одной из основных трудностей, к примеру, является резкое падение качества распознавания на больших словарях (более 5000 слов). Это происходит из-за большого количества похожих слов и нечеткого их произношения людьми в реальной жизни. Даже человек не способен распознавать 100% речи - некоторую ее часть он вынужден уточнять, переспрашивать или додумывать исходя из контекста фраз или за счет дополнительной информации (например, визуальной). Для решения этой проблемы в ЦРТ активно развивают технологию подробного анализа контекста распознаваемой речи. Сегодня машина, также как человек, способна понимать тему разговора и делать соответствующие поправки при распознавании.
Кирилл Левин привел следующие цифры, характеризующие сегодняшний уровень надежности распознавания:
-
50 слов - 96,5%
-
120 слов - 96,2%
-
489 слов - 83,8%
-
2077 слов - 85,8%
Синтез речи
О технологии синтеза журналистам рассказал Андрей Таланов, руководитель отдела синтеза речи. Андрей рассказал о развитии технологии и перечислил основные существующие ветви ее развития:
-
Формантный синтез: роботизированный голос, создаваемый без участия диктора, только за счет математических моделей и формул;
-
Артикулятивный синтез: физическая имитация речевого тракта человека (воссоздание горла, языка и т.п. и управление ими с помощью ряда моторов для извлечения звуков);
-
Компилятивный синтез: наиболее совершенный метод на сегодняшний день. Делится на аллофонный метод и метод Unit Selection. Данный синтез обладает естественным звучанием и основан на голосе конкретного диктора (более 10 часов записи голоса реального диктора).
В ЦРТ был разработан гибридный метод, который совместил в себе преимущества аллофонного синтеза и метода Unit Selection. Сегодня эта технология, получившая название VitalVoice является наиболее совершенной для русского языка.
VitalVoice способен читать сложные предложения, понимать контекст и смысл синтезируемой речи, расшифровывать аббревиатуры, сокращения, даты, числа и т.п.
Сегодня ученые ЦРТ работают над совершенствованием технологии. Конечная цель - сделать синтез речи неотличимым от речи живого человека.
Анонс новых продуктов
VitalVoice web: озвучивание контента в Интернете
В сентябре 2010 года ЦРТ запускает новый web-сервис синтеза русской речи. С помощью технологии VitalVoice пользователи смогут озвучивать любой контент в Интернете. Для этого уже создан специальный сайт, на котором люди смогут регистрироваться и управлять своим аккаунтом с помощью личного кабинета. Так, например, покупать озвученный текст можно будет по времени, количеству сообщений или ежемесячными пакетами. Для пользователей разработан целый ряд тарифов, среди которых есть и бесплатный (для блоггеров и небольших ресуросв):
В компании потенциал рынка оценивают в 5,3 млрд. минут в год. При этом в первый год работы сервиса планируется озвучить 25 млн. минут текстовых сообщений.
Среди основных клиентов подобного сервиса в ЦРТ видят:
-
Социальные сети
-
Электронные СМИ
-
Почтовые сервисы
-
Образовательные порталы
-
Газеты объявлений
«Существует масса случаев, когда читать контент неудобно или невозможно вовсе. Например, на улице, в транспорте, в автомобиле, на прогулке и т.д. При этом слушать последние новости или интересные статьи и материалы в этих случаях может быть вполне удобно и полезно. Именно на такое применение и рассчитан наш сервис. Мы также связываем большие надежды с сегментом мобильного Интернета, где слушать зачастую гораздо легче, чем читать» - говорит Михаил Ильюшин, менеджер проекта.
Технологии синтеза есть и у других производителей, однако такого удобного инструмента для их применения в Интернете до сих пор не было. ЦРТ со своим новым web сервисом планирует занять лидирующую позицию на данном рынке.
Speak-to-Click: голосовая навигация по сайтам
Еще об одной разработке ЦРТ рассказал Вадим Васильченко, менеджер проектов компании. Технология Speak-to-Click позволяет осуществлять навигацию в Интернете с помощью голоса.
Технология может быть встроена в любой сайт за достаточно короткое время, после чего пользователи смогут передвигаться по сайту с помощью голосовых команд: любая активная ссылка на странице будет распознаваться, причем все новые ссылки, появляющиеся на странице со временем, будут добавляться в словарь распознавания автоматически (что сильно облегчит работу web-мастерам заказчика). Кроме этого, каждый сайт может быть оснащен дополнительным набором команд управления: вперед, назад, главная страница, вверх, вниз и т.п.
Кроме распознавания речи в Speak-to-Click также используется и синтез - сайт может отвечать пользователю, давать подсказки, озвучивать контент страниц или другую информацию.
«Сейчас система тестируется на портале государственных услуг Gosuslugi.ru. Использовать ее достаточно легко: все, что нужно - это микрофон, никакого обучения не требуется, а надежность распознавания достаточно велика. Такая система поможет лучше ориентироваться в Интернете людям с ограниченным возможностями, кроме того ее удобно использовать на мобильных телефонах и коммуникаторах» - говорит Вадим Васильченко. - «Сейчас мы ведем переговоры с рядом крупных компаний, но если технология вызовет широкий интерес, мы готовы запустить ее распространение и среди массового пользователя».
Также в ходе пресс-тура представители ЦРТ заявили о ряде крупных проектов в области внедрения речевых технологий в геоинформационных сервисах, в телекоммуникациях и в контакт-центрах.
В завершение журналистам провели экскурсию по научно-разработческому кластеру ЦРТ, в котором сегодня трудится более 100 ученых, инженеров и программистов.
Центр речевых технологий
Компания Центр речевых технологий была создана в 1990 году в Петербурге и за 20 лет стала абсолютным лидером российского и значимым игроком международного рынков речевых технологий. Компания является ведущим международным разработчиком систем в сфере высококачественной записи, обработки, анализа, синтеза и передачи речевого сигнала.
ЦРТ обладает широкой линейкой собственных технологий и разработок, осуществляет консалтинговую и образовательную деятельность. Большинство продуктов компании превосходят конкурентов по своим техническим характеристикам и зачастую являются «первопроходцами» в своих сегментах рынка. Продукты и технологии компании продаются более чем в 60 странах мира. Компания имеет собственные представительства в России, Белоруссии, Германии, США и Мексике.
В 2009 году Центр речевых технологий был признан «Лучшей инновационной компанией» по версии журнала «Эксперт», а генеральный директор Михаил Хитров получил премию «Шеф года в области инноваций» от журнала The Chief.
PR служба ЦРТ: pr@speechpro.com










