Меню

Не работает настройка микрофона для распознавания речи. Механизм распознавания речи не распознает речь

Новости

Друзья, на днях мы рассматривали одно из новшеств, привнесённых в Windows 10 обновлением Fall Creators Update – . Поддержку голосового ввода на русском языке компания Microsoft обещает в будущем, но не уточняет, близко или далеко это будущее обозримо. Возможно, это будет тогда, когда и Кортана сможет говорить, а главное, понимать по-русски. Ждать, пока Microsoft научит Windows 10 понимать наших не стоит. Если чего-то нет в среде самой системы, это практически всегда можно реализовать за счёт сторонних программных средств. Собственно, о них мы и будем говорить в этой статье. Ниже рассмотрим различные способы, как можно с помощью встроенного в ноутбук или подключённого к ПК микрофона вводить голосом поисковые запросы и надиктовывать текст документов.

1. «Ок, Алиса» и голосовой поиск Google для поисковых запросов

Непонятно, почему компания Google до сих пор не интегрировала эту технологию в интерфейс YouTube. Но в любом случае видеоролики можно искать в самом поисковике, проговаривая ключевые запросы. Просто затем нужно будет в результатах выдачи переключаться на вкладку «Видео». Львиная доля поисковых выдач по известным причинам всё равно будет с YouTube.

Успевшим уже познакомиться с – и вовсе не нужно отправляться на сайт поисковика в окне браузера. После установки программы поисковое поле Яндекса с возможностью голосового ввода запросов появится прямо на панели задач Windows. А на редкие несложные вопросы Алиса сможет ответить и без поисковика, не выходя за пределы своего диалогового окошка.

2. Веб-сервис Web Speech API от Google

У технологии Web Speech API, посредством которой в поисковике Google реализован голосовой ввод запросов, есть свой веб-интерфейс по адресу:

https://www.google.com/intl/ja/chrome/demos/speech.html

Функционал сервиса миинималистичен: в нём присутствует кнопка включения микрофона и результирующее поле, где затем будет отображаться распознанный текст.

Но в этом результирующем поле нельзя вносить правки. По итогу получим результаты распознавания как есть. И сможем отредактировать их только в каком-то текстовом редакторе или форме ввода данных. Кнопка ниже результирующего поля «Copy and Paste» завершает текущую сессию ввода и на весь распознанный текст автоматически ставит блок выделения. Так сделано для удобства копирования в буфер.

Для распознанного текста доступна ещё одна возможность, реализованная кнопкой создания электронного письма. Она запускает почтовый клиент, установленный в среде Windows таковым по умолчанию, создаёт новое письмо и переносит в него распознанный текст.

Примечательно, что Web Speech API может распознавать некоторые знаки препинания, как минимум точку и запятую. Так что во время диктовок в местах вставки точек и запятых их можно просто проговаривать.

Отсутствие возможности редактирования текста внутри результирующего поля делает использование интерфейса Web Speech API не совсем удобным для больших объёмов набора текста. Для длительных диктовок лучше использовать веб-интерфейс сервиса «Google Документы», в который технология Web Speech API встроена. В «Google Документах» можно и вводить текст голосом, и тут же править его, и ещё попутно форматировать документ.

3. «Голосовой блокнот» на Speechpad.Ru

На базе технологии Web Speech API работает ещё сайт - самый популярный и самый функциональный в Рунете сервис голосового ввода данных «Голосовой блокнот». В числе основных его функций:

  • Поддержка нескольких языков, включая русский и украинский;
  • Результирующее поле распознавания голоса с возможностью правки текста, его перевода на другие языки, выгрузки результатов в TXT-файл;
  • Вывод распознанных фраз в буфер обмена;
  • Транскрибация;
  • Интеграция в веб-формы Chromium-браузеров;
  • Интеграция в среду Windows и Linux.

Плюс к этому всему, в «Голосовом блокноте» опция ввода голоса включается и отключается только по нажатию соответствующей кнопки. Эта опция не деактивируется сама по себе, как только мы на время призадумаемся в поисках точной формулировки мысли, как это происходит в прочих сервисах на базе Web Speech API.

И отслеживаем в результирующем поле распознанный текст.

4. Интеграция Speechpad в веб-формы браузера

После внедрения этого расширения в контекстном меню веб-форм ввода текста появится пункт «Speechpad». Жмём эту кнопку и говорим в микрофон. Таким образом можем, например, надиктовывать заметки в Google Keep.

5. Интеграция Speechpad в среду Windows

Возможности веб-сервиса «Голосовой блокнот» можно интегрировать в среду Windows. И осуществлять набор текста голосом в любой программе операционной системы – штатном блокноте, Microsoft Word, прочих текстовых редакторах. Распознанная речь без посредничества веб-сервисов или буфера обмена будет вставляться прямо в редактируемые документы. Однако такая функция Speechpad.Ru не бесплатна, и стоит она 100 руб. в месяц. Предусматриваются варианты экономии: при оплате услуг сразу за квартал стоимость будет составлять 250 руб., а предоплата за год обойдётся в 800 руб. Каждый зарегистрированный пользователь может прежде протестировать интегрированный в среду своей операционной системы функционал сервиса. Создатели Speechpad.Ru предлагают двухдневный тестовый период бесплатно. Как непосредственно осуществляется интеграция «Голосового блокнота» в операционные системы, в частности, в Windows, подробно описывается на сайте самого Speechpad.Ru. Кликаем знак вопроса возле опции интеграции.

И проходим все описываемые в инструкции шаги:

  • Устанавливаем вышеупомянутое расширение сервиса;
  • Скачиваем пакет файлов интеграции;
  • Распаковываем архив и запускаем файл install_host.bat;
  • На сайте Speechpad.Ru заходим в кабинет пользователя;

Жмём кнопку «Включить тестовый период».

И так каждый раз, когда нужно активировать голосовой ввод. Вот, собственно, и всё. Теперь можно открывать Microsoft Word, LibreOffice Writer, прочие текстовые редакторы и начинать диктовку. Распознанный текст будет появляться в окне любого активного приложения, поддерживающего ввод данных.

Важно: чтобы использовать интегрированный в систему Speechpad, нельзя закрывать вкладку его сайта в окне браузера. Закрытие последней деактивирует голосовой ввод.

5. Бесплатные альтернативы интеграции голосового ввода в среду Windows

Какие могут быть бесплатные альтернативы интеграции в среду Windows русскоязычного голосового ввода данных?

Вариант №1

Совершенно бесплатно на сайте Speechpad.Ru можно использовать опцию вывода распознанной речи в буфер обмена. Жмём на сайте кнопку «Включить запись» и перемещаемся в любое приложение Windows.

Теперь можем проговаривать отдельные фразы и вставлять их из буфера клавишами Ctrl+V. Как только сделаем паузу в речи, услышим писк Speechpad, свидетельствующий о том, что фраза распознана и скопирована в буфер обмена. Такой способ работы с голосовым вводом имеет свои преимущества: при вставке отдельных фраз можно попутно редактировать текст начисто.

Вариант №2

Работающим с приложениями офисного пакета компания Microsoft может предложить свою наработку по внедрению голосового ввода – надстройку Dictate, интегрирующую в Word, Outlook и PowerPoint дополнительную вкладку меню с инструментом распознавания речи. Надстройка может распознавать речь на 20 языках, включая русский, и позволяет попутно переводить текст на 60 языков.

Ещё один бесплатный способ голосового ввода текста – запись речи в аудиофайл с дальнейшей автоматической транскрибацией (расшифровкой в текст). Далеко на каждый может сразу изложить свои мысли структурированным литературным языком, да ещё и попутно править ошибки распознавания, проставлять знаки препинания. При записи же речи на диктофон можно полностью сконцентрироваться на сути излагаемого материала, а в процессе транскрибации уже всю концентрацию внимания направить на красноречие и грамотность подачи этого материала. Но, друзья, автоматизация транскрибации аудиозаписей – это тема уже другой, отдельной статьи.

Продолжение в статьях:

  • Перевод

С тех пор, как на сцену распознавания речи вышло глубинное обучение, количество ошибок в распознавании слов кардинально уменьшилось. Но, несмотря на все те статьи, которые вы могли читать, у нас до сих пор нет распознавания речи человеческого уровня. У распознавателей речи много видов отказов. Для дальнейшего улучшения их нужно выделить и постараться устранить. Это единственный способ перейти от распознавания, подходящего для некоторых людей большую часть времени, к распознаванию, работающему для всех людей всё время.

Улучшения в количестве ошибочно распознанных слов. Тестовый голосовой набор был собран на телефонном коммутаторе в 2000 году из 40 случайных разговоров двух человек, чей родной язык – английский

Говорить о том, что мы достигли уровня человека в распознавании речи в разговорах, основываясь лишь на наборе разговоров с телефонного коммутатора, это всё равно, что утверждать, что робомобиль водит не хуже человека, протестировав его в единственном городе в солнечный день без всякого уличного движения. Произошедшие в деле распознавания речи в последнее время сдвиги удивительны. Но заявления по поводу распознавания речи на уровне человека слишком смелы. Вот несколько областей, в которых всё ещё необходимо добиваться улучшений.

Акценты и шум

Один из очевидных недостатков распознавания речи – обработка акцентов и фонового шума. Основная причина этого в том, что большая часть тренировочных данных состоит из американского говора с высоким отношением сигнала к шуму. К примеру, в наборе разговоров с телефонного коммутатора есть только беседы людей, чей родной язык – английский (по большей части, это американцы) с небольшим фоновым шумом.

Но увеличение тренировочных данных само по себе, скорее всего, не решит эту проблему. Существует множество языков, содержащих много диалектов и акцентов. Нереально собрать размеченные данные для всех случаев. Создание высококачественного распознавателя речи только для американского английского требует до 5 тысяч часов аудиозаписей, переведённых в текст.


Сравнение людей, занимающихся преобразованием речи в текст, с Baidu’s Deep Speech 2 на разных типах речи. Люди хуже справляются с распознаванием неамериканских акцентов – возможно, из-за обилия американцев среди них. Думаю, что люди, выросшие в определённом регионе, с гораздо меньшим количеством ошибок справились бы с распознаванием акцента этого региона.

При наличии фонового шума в движущейся машине отношение сигнал/шум может достигать величин в -5 дБ. Люди легко справляются с распознаванием речи другого человека в таких условиях. Автоматические распознаватели гораздо быстрее ухудшают показатели с увеличением шума. На графике видно, как сильно увеличивается отрыв людей при увеличении шума (при низких значениях SNR, signal-to-noise ratio)

Семантические ошибки

Часто количество ошибочно распознанных слов не является самоцелью системы распознавания речи. Мы нацеливаемся на количество семантических ошибок. Это та доля выражений, у которых мы неправильно распознаём смысл.

Пример семантической ошибки – когда кто-то предлагает «let’s meet up Tuesday» [давайте встретимся во вторник] а распознаватель выдаёт «let’s meet up today» [давайте встретимся сегодня]. Бывают и ошибки в словах без семантических ошибок. Если распознаватель не распознал «up» и выдал “let’s meet Tuesday”, семантика предложения не изменилась.

Нам нужно аккуратно использовать количество ошибочно распознанных слов в качестве критерия. Для иллюстрации этого я дам вам пример с наихудшим из возможных случаев. 5% ошибок в словах соответствует одному пропущенному слову из 20. Если в каждом предложении 20 слов (что для английского языка вполне в рамках среднего), то количество неправильно распознанных предложений приближается к 100%. Можно надеяться на то, что неправильно распознанные слова не меняют семантический смысл предложений. А иначе распознаватель может неправильно расшифровать каждое предложение даже с 5% количеством ошибочно распознанных слов.

Сравнивая модели с людьми важно проверять суть ошибок и следить не только за количеством неправильно распознанных слов. По моему опыту, люди, транслирующие речь в текст, делают меньше ошибок и они не такие серьёзные, как у компьютеров.

Исследователи из Microsoft недавно сравнили ошибки людей и компьютерных распознавателей схожего уровня. Одно из найденных различий – модель путает “uh” [э-э-э…] с “uh huh” [ага] гораздо чаще людей. У двух этих терминов очень разная семантика: “uh” заполняет паузы, а “uh huh” обозначает подтверждение со стороны слушателя. Также у моделей и людей обнаружили много ошибок совпадающих типов.

Много голосов в одном канале

Распознавать записанные телефонные разговоры проще ещё и потому, что каждого говорящего записывали на отдельный микрофон. Там не происходит наложения нескольких голосов в одном аудиоканале. Люди же могут понимать нескольких ораторов, иногда говорящих одновременно.

Хороший распознаватель речи должен уметь разделять аудиопоток на сегменты в зависимости от говорящего (подвергать его диаризации). Также он должен извлечь смысл из аудиозаписи с двумя накладывающимися друг на друга голосами (разделение источников). Это необходимо делать без микрофона, расположенного прямо у рта каждого из спикеров, то есть так, чтобы распознаватель работал хорошо, будучи размещённым в произвольном месте.

Качество записи

Акценты и фоновый шум – всего два фактора, к которым распознаватель речи должен быть устойчив. Вот ещё несколько:

Реверберация в разных акустических условиях.
Артефакты, связанные с оборудованием.
Артефакты кодека, используемого для записи и сжатия сигнала.
Частота дискретизации.
Возраст говорящего.

Большинство людей не отличат на слух записей из mp3 и wav-файлов. Прежде чем заявлять о показателях, сравнимых с человеческими, распознаватели должны стать устойчивыми и к перечисленным источникам вариаций.

Контекст

Можно заметить, что количество ошибок, которые люди делают на тестах в записях с телефонной станции, довольно высоко. Если бы вы беседовали с другом, который не понимал бы 1 слово из 20, вам бы было очень сложно общаться.

Одна из причин этого – распознавание без учёта контекста. В реальной жизни мы используем множество разных дополнительных признаков, помогающих нам понимать, что говорит другой человек. Некоторые примеры контекста, используемые людьми, и игнорируемые распознавателями речи:

История беседы и обсуждаемая тема.
Визуальные подсказки о говорящем – выражения лица, движение губ.
Совокупность знаний о человеке, с которым мы говорим.

Сейчас у распознавателя речи в Android есть список ваших контактов, поэтому он умеет распознавать имена ваших друзей . Голосовой поиск на картах использует геолокацию , чтобы сузить количество возможных вариантов, до которых вы хотите построить маршрут.

Точность систем распознавания увеличивается с включением в данные подобных сигналов. Но мы только начинаем углубляться в тип контекста, который мы могли бы включить в обработку и в методы его использования.

Развёртывание

Последние достижения в распознавании разговорной речи невозможно развернуть. Представляя себе развёртывание алгоритма распознавания речи, нужно помнить о задержках и вычислительных мощностях. Эти параметры связаны, поскольку алгоритмы, увеличивающие требования к мощности, увеличивают и задержку. Но для простоты обсудим их по отдельности.

Задержка: время от окончания речи пользователя и до окончания получения транскрипции. Небольшая задержка – типичное требование для распознавания. Она сильно влияет на ощущения пользователя от работы с продуктом. Часто встречается ограничение в десятки миллисекунд. Это может показаться слишком строгим, но вспомните, что выдача расшифровки - это обычно первый шаг в серии сложных вычислений. К примеру, в случае голосового интернет-поиска после распознавания речи нужно ещё успеть выполнить поиск.

Двунаправленные рекуррентные слои – типичный пример улучшения, ухудшающего ситуацию с задержкой. Все последние результаты расшифровки высокого качества получаются с их помощью. Проблема только в том, что мы не можем ничего подсчитывать после прохода первого двунаправленного слоя до тех пор, пока человек не закончил говорить. Поэтому задержка увеличивается с длиной предложения.


Слева: прямая рекуррентность позволяет начинать расшифровку сразу. Справа: двунаправленная рекуррентность требует подождать окончания речи перед тем, как начинать расшифровку.

Хороший способ эффективно включать будущую информацию в распознавание речи пока ещё ищут.

Вычислительная мощность: на этот параметр влияют экономические ограничения. Необходимо учитывать стоимость банкета для каждого улучшения точности распознавателя. Если улучшение не достигает экономического порога, развернуть его не получится.

Классический пример постоянного улучшения, которое никогда не развёртывают – совместное глубинное обучение . Уменьшение количества ошибок на 1-2% редко оправдывает увеличение вычислительных мощностей в 2-8 раз. Современные модели рекуррентных сетей тоже попадают в эту категорию, поскольку их очень невыгодно использовать в поиску по пучку траекторий, хотя, думаю, в будущем ситуация поменяется.

Хочу уточнить – я не говорю, что улучшение точности распознавания с серьёзным увеличением вычислительных затрат бесполезно. Мы уже видели, как в прошлом работает принцип «сначала медленно, но точно, а затем быстро». Смысл в том, что до тех пор, пока улучшение не станет достаточно быстрым, использовать его нельзя.

В следующие пять лет

В области распознавания речи остаётся ещё немало нерешённых и сложных проблем. Среди них:

Расширение возможностей новых систем хранения данных, распознавания акцентов, речи на фоне сильного шума.
Включение контекста в процесс распознавания.
Диаризация и разделение источников.
Количество семантических ошибок и инновационные методы оценки распознавателей.
Очень малая задержка.

С нетерпением жду прогресса, который будет достигнут в следующие пять лет по этим и другим фронтам.

Теги: Добавить метки

Управление с помощью сенсорного экрана — это уже стандарт. Новейшие системы, такие как Windows 8 «понимают» голосовые команды.Распознавание речи должно привести к тому, что наша связь с компьютером будет еще проще, интуитивнее и… естественнее. Я расскажу как это выглядит на сегодняшний момент.

Немного истории — как развивалось общение с машиной

Способы общения с компьютером развивались на протяжении многих лет. Первым интерфейсом, через который человек мог давать команды были перфокарты, которые восходят к 1832 году. Они использовались в машинах для производства ткани. Клавиатуру же начали использовать в 1960 году. Два десятилетия спустя присоединилась стандартная мышь и используется по сей день. Хотя мышь поделилась полномочиями с трекпадом, но она все еще самый популярный вид управления. Благодаря смарфонам и планшетам стал очень популярным сенсорный интерфейс и жесты, которые используются, в частности,для управление Xbox 360 Kinect. После сенсорных экранов и жестов, идет голосовое управление, но это решение до сих пор было так слаборазвито, что порой о ней и не услышишь.

Настройка распознавания речи в Windows 8

К сожалению, голосовое управление пока не доступно на русском языке. Поддерживаются пока английский, французский, немецкий, японский, корейский, китайсий и испанский языки. Microsoft решила сосредоточиться на крупнейших и наиболее развитых странах, но не исключено, что в течение некоторого времени он добавит эту функции и для нашей страны. Если попробовать запустить, вот так ругается

Если вы все еще хотите протестировать это решение, необходимо настроить систему(изменить язык) и выучить пару слов на английском. Чтобы сделать это, необходимо перейти в панель управления, и выбрать пункт Язык. Если у вас нет другого языка, кроме русского, необходимо нажать кнопку «Добавить язык», а затем выбрать один из поддерживаемых языков. В нашем случае это «Английский (США)». Видим, что доступна только раскладка на этом языке, два раза кликаем, пойдет проверка доступности языка для интерфейса, после проверки нажимаем «Загрузить и установить языковой пакет», и пойдет процесс, терпеливо ждем когда загрузится. Как только этот процесс завершится, установите английский языком по умолчанию

Теперь нужно перейти на начальный экран Windows 8 (плиточный), в поиск ввести «Windows Speech Recognition» и нажать Enter.

Таким образом, вы можете запустить инструмент распознавания голоса. При первом запуске он предложит настроить микрофон, после выбора, что нибудь скажите, чтобы проверить.

Далее предложить пройти обучающие уроки. Они длятся до 15-20 минут, но очень полезны и содержат основные сведения об использовании функций. Но если вы в английском не сильны, я думаю не стоит тратить время, трудно будет что-либо разобрать, сразу в бой

Как работать

Для того чтобы компьютер начал распознавать вашу речь необходимо сказать «start listening» (что означает начать слушать), или нажмите кнопку микрофона для запуска режима прослушивания. Теперь можно открыть приложение или просто диктовать слова в текстовый редактор, строку браузера или поиска

Что мы можем делать

В принципе возможности огромны, кроме стандартных слов можно создавать свои команды. Основные возможности приведены в таблице

Действие Что сказать
Выберите любой элемент по его имени Click File,Start,View
Выберите любой элемент или значок Click Recycle Bin,Click Computer,Click(название файла)
Дважды нажмите или дважды щелкните любой элемент Double-clickRecycle Bin,Double-click Computer
Переключение между открытыми приложениями Switch to Paint,Switch to WordPad

Прокрутка

Scroll up; Scroll down;
Scroll left; Scroll right

Включить новый пункт или новую строку в документе

New paragraph; New line

Выберите слово в документе

Корректировка слова

Correct word

Выберите и удалите определенные слова

Показать перечень применимых команд

Refresh speech commands

Включите режим прослушивания

Отключите режим прослушивания

Свернуть микрофон

Minimize speech recognition

Посмотреть Windows, справки и поддержку

How do I do something?
Например:How do I install a printer?

Если вы не знаете, как произносится фраза, я предлагаю вам использовать Google Translate или http://училочка.рф (этого сайта он лучше понимал)

Было у меня желание записать свои команды состоящих из простых буржуйских слов. Которые я могу выговорить. Так он мне и не дал этого сделать, не сумел запустить редактор команд. В итоге он отлично понимал мое произношение слов One, Two и Open. Этим набором можно запустить приложение по номеру в начальном экране. Сначала сказать номер, потом сказать OPEN. Не густо конечно, но я считаю эксперимент удавшимся. Было бы не плохо, если бы Microsoft ввел русский язык, хорошая замена пульту дистанционного управления.

Управление с помощью сенсорного экрана - это уже стандарт. Новейшие системы, такие как Windows 8 «понимают» голосовые команды.Распознавание речи должно привести к тому, что наша связь с компьютером будет еще проще, интуитивнее и… естественнее. Я расскажу как это выглядит на сегодняшний момент.

НЕМНОГО ИСТОРИИ - КАК РАЗВИВАЛОСЬ ОБЩЕНИЕ С МАШИНОЙ

Способы общения с компьютером развивались на протяжении многих лет. Первым интерфейсом, через который человек мог давать команды были перфокарты, которые восходят к 1832 году. Они использовались в машинах для производства ткани. Клавиатуру же начали использовать в 1960 году. Два десятилетия спустя присоединилась стандартная мышь и используется по сей день. Хотя мышь поделилась полномочиями с трекпадом, но она все еще самый популярный вид управления. Благодаря смарфонам и планшетам стал очень популярным сенсорный интерфейс и жесты, которые используются, в частности,для управление Xbox 360 Kinect. После сенсорных экранов и жестов, идет голосовое управление, но это решение до сих пор было так слаборазвито, что порой о ней и не услышишь.

НАСТРОЙКА РАСПОЗНАВАНИЯ РЕЧИ В WINDOWS 8

К сожалению, голосовое управление пока не доступно на русском языке. Поддерживаются пока английский, французский, немецкий, японский, корейский, китайсий и испанский языки. Microsoft решила сосредоточиться на крупнейших и наиболее развитых странах, но не исключено, что в течение некоторого времени он добавит эту функции и для нашей страны. Если попробовать запустить, вот так ругается

Если вы все еще хотите протестировать это решение, необходимо настроить систему(изменить язык) и выучить пару слов на английском. Чтобы сделать это, необходимо перейти в панель управления, и выбрать пункт Язык. Если у вас нет другого языка, кроме русского, необходимо нажать кнопку «Добавить язык», а затем выбрать один из поддерживаемых языков. В нашем случае это «Английский (США)». Видим, что доступна только раскладка на этом языке, два раза кликаем, пойдет проверка доступности языка для интерфейса, после проверки нажимаем «Загрузить и установить языковой пакет», и пойдет процесс, терпеливо ждем когда загрузится. Как только этот процесс завершится, установите английский языком по умолчанию

Теперь нужно перейти на начальный экран Windows 8 (плиточный), в поиск ввести «Windows Speech Recognition» и нажать Enter.

Таким образом, вы можете запустить инструмент распознавания голоса. При первом запуске он предложит настроить микрофон, после выбора, что нибудь скажите, чтобы проверить.

Далее предложить пройти обучающие уроки. Они длятся до 15-20 минут, но очень полезны и содержат основные сведения об использовании функций. Но если вы в английском не сильны, я думаю не стоит тратить время, трудно будет что-либо разобрать, сразу в бой

КАК РАБОТАТЬ

Для того чтобы компьютер начал распознавать вашу речь необходимо сказать «start listening» (что означает начать слушать), или нажмите кнопку микрофона для запуска режима прослушивания. Теперь можно открыть приложение или просто диктовать слова в текстовый редактор, строку браузера или поиска

ЧТО МЫ МОЖЕМ ДЕЛАТЬ

В принципе возможности огромны, кроме стандартных слов можно создавать свои команды. Основные возможности приведены в таблице

Действие Что сказать
Выберите любой элемент по его имени Click File,Start,View
Выберите любой элемент или значок Click Recycle Bin,Click Computer,Click(название файла)
Дважды нажмите или дважды щелкните любой элемент Double-clickRecycle Bin,Double-click Computer
Переключение между открытыми приложениями Switch to Paint,Switch to WordPad

Прокрутка

Scroll up; Scroll down;
Scroll left; Scroll right

Включить новый пункт или новую строку в документе

New paragraph; New line

Выберите слово в документе

Корректировка слова

Correct word

Выберите и удалите определенные слова

Показать перечень применимых команд

Refresh speech commands

Включите режим прослушивания

Отключите режим прослушивания

Свернуть микрофон

Minimize speech recognition

Посмотреть Windows, справки и поддержку

How do I do something?
Например:How do I install a printer?

Если вы не знаете, как произносится фраза, я предлагаю вам использовать Google Translate или http://училочка.рф (этого сайта он лучше понимал)

Было у меня желание записать свои команды состоящих из простых буржуйских слов. Которые я могу выговорить. Так он мне и не дал этого сделать, не сумел запустить редактор команд. В итоге он отлично понимал мое произношение слов One, Two и Open. Этим набором можно запустить приложение по номеру в начальном экране. Сначала сказать номер, потом сказать OPEN. Не густо конечно, но я считаю эксперимент удавшимся. Было бы не плохо, если бы Microsoft ввел русский язык, хорошая замена пульту дистанционного управления.

Windows Vista - первая ОС от Microsoft, в котороую встроена возможность распознавания речи. Используя эту функцию, Вы можете выполнять голосом различные задачи, такие как запуск программ, закрытия, сохранения и удаления файлов, диктовать текст, который будет дословно записан, а также его редактировать. Деб Шиндер (Deb Shinder), IT консультант, подробно расскажет вам, как пользоваться этой функцией.

Ещё со времён выхода фильма Стар Трек (Star Trek) многие компьютерные пользователи мечтали выкинуть клавиатуры, мышки и голосом контролировать свой компьютер. Программы, которые позволяли говорить разные команды, диктовать текст компьютеру - делали в течение многих лет и были очень полезны тем, кто физически не был в состоянии использовать другие методы ввода. Но почему-то эти программы не были популярны.

Windows Vista - первая операционная система от Microsoft, которая может распознавать речь. Ранее функция распознавания речи присутствовала в Microsoft Office XP и Office 2003, также можно было использовать программы других разработчиков, например Dragon NaturallySpeaking. Ещё Microsoft добавила функцию распознавание речи в Windows Mobile.

Чтобы начать разговаривать с компьютером, вам не придётся ничего дополнительно покупать, в Vista уже всё есть для этого. По умолчанию функция выключена, но вы без труда сможете её запустить в Панели управления (Control Panel), как показано на Рисунке A.

Также вы можете запустить эту функцию в меню, выбрав Все Программы | Стандартные | Специальные Возможности (All Programs | Accessories | Ease Of Access), как показано на Рисунке B.

Как это работает

Вы можете выбрать один из двух режимов работы распознавания речи:

  • Для управления программами: Запускать и закрывать программы, переключаться между ними, сохранять и удалять файлы, и так далее.
  • Чтобы диктовать текст, который дословно будет записан, а также редактировать его.

Разработчики софта могут добавлять поддержку этой функции в свои программы. Досадно, что на данный момент распознавание речи поддерживает всего несколько языков: Английский (США и Соединенное Королевство), Немецкий, Французский, Испанский, Японский и Китайский (традиционный и упрощенный).

Настройка распознавания речи

Прежде чем вы сможете использовать распознавание речи, вам придётся выполнить следующие шаги:

  • Включите распознавание речи.
  • Настроить микрофон.
  • Прочитать руководство (не обязательно).
  • Потренироваться четко, говорить (тоже не обязательно).

После двойного щелчка на Распознавание Речи (Speech Recognition) в Панеле управления (Control Panel) или выбора Распознавание Речи в меню, перед вами откроется окно настройки, которое показано на рисунке Рисунке C.


Когда вы кликните на Start Speech Recognition, на верху вашего экрана появится панель управления голосом, она показана на Рисунке D.


Если у вас уже настроено эта функция, то панелька пропишется в автостарт и будет запускаться при каждой загрузке Windows. Ещё в трее появится синенькая иконка управления голосом.
Вы сможете вызвать контекстное меню для настройки, кликнув правой кнопкой мыши на иконку в трее, либо на панель управления голосом, как показано на Рисунке E.


В меню вы увидите следующие настройки:

  • Включение речи (Turn Speech On): Компьютер будет слушать всё, что вы говорите, и будет выполнять команды, которые распознает.
  • Ждущий режим (Sleep): Компьютер будет следить за вашей речью, но не станет реагировать ни на одну команду, пока вы не скажете "Начать слушать (Start listening)".
  • Выключено (Off): Компьютер вас не слушает, что бы вы ему не говорили.
  • Открыть шпаргалку по распознаванию речи (Open Speech Reference Card): Удобная шпаргалка с основными командами и дополнительной информацией.
  • Начать курс обучения (Start Speech Tutorial): Видеоурок, где вам всё расскажут и покажут.
  • Помощь (Help): Открывает справку, хелп фаил об этой функции.
  • Опции (Options): Здесь вы можете настроить загрузку программы вместе с Windows, автоматическую корректировку текста и т. д.
  • Настройка (Configuration): Здесь вы сможете настроить свой микрофон, улучшить распознавание речи и открыть панель управления.
  • Открыть голосовой словарь (Open The Speech Dictionary): Вы можете добавить новые слова (очень пригодится для имён и слов, сложных для распознавания), также можно будет исключит слова, которые вы никогда не произносите.
  • Тема диктанта (Dictation Topic): Здесь можно выбрать только повествование (Narrative).
  • Посетить сайт (Go To The Speech Recognition Web site).
  • Получить информацию (Get Information About Speech Recognition): Это привычное нам диалоговое окно Windows, в котором написана версия, номер лицензии и название программы.
  • Открыть распознавание речи (Open Speech Recognition).
  • Выйти (Exit): Полностью закрывает программу.