Журнал РАДИОЛОЦМАН, октябрь 2011
David Coode, ON Semiconductor
Стремление сэкономить время и деньги приводит к тому, что встречи и беседы с глазу на глаз становятся в нашей деловой и личной жизни все более редкими. Эти существенные перемены в способах общения были принесены с собой мобильными телефонами и технологиями передачи голоса через Интернет (Voice over Internet Technology – VoIP). Новые формы общения стали выдвигать на передний план вопросы качества звука и подавления шумов.
Очень редки дни, когда нас окружала бы настоящая тишина, но мы настолько привыкли к шуму, что большинство из нас даже перестало его замечать. Человеческий мозг обладает выдающейся способностью фильтрации шумов, благодаря которой, мы можем слушать все, но слышать только то, что нас интересует. Но, по мере того, как окружающий мир становится все более зашумленным, а интенсивность коммуникаций через мобильные телефоны, ноутбуки и веб-камеры возрастает, фильтровать эти шумы становится все сложнее.
Быстро развивающиеся электронные технологии предлагают несколько подходов к проблемам обработки шумов и увеличения чистоты звука. Новаторские идеи исследователей в последние годы стали быстро превращаться в рыночные продукты. Теперь мы достигли этапа, когда стал реальным выбор из множества возможных решений, но их эффективность может значительно различаться, и, в большинстве случаев, впечатление от средства коммуникаций является контекстным и субъективным. Трудно получить ясную картину того, как сравнить одно решение с другим, и которое из них лучше или хуже.
Ценность того или иного технологического решения, направленного на улучшение коммуникационных возможностей, скажем, ноутбука, напрямую связана с предполагаемыми условиями его использования. Пользователь ноутбука при вызове через Skype нуждается в том, чтобы компьютер выделял только его голос, и подавлял фоновый шум, в то время как студент, использующий тот же ноутбук для записи лекции, захочет эффективно извлекать звук из шума в любой точке лекционной аудитории. То есть, одно и то же решение может быть эффективным для одного сценария использования, и неудачным для другого. Компромиссное решение будет не вполне оптимальным, но полезным для обоих пользователей.
Сопоставление технических решений в контексте области их использования достаточно сложно, но, может быть, еще сложнее разъяснить это потребителю на уровне розничной торговли, когда все товары на полках могут быть снабжены одинаковой банальной надписью «великолепные аудио характеристики». Иногда, правда, хотя бы предоставляется возможность увидеть демонстрацию товара в магазине, но, чаще всего, покупатель полагается на волю случая.
Сравнение технологий подавления шумов
Технологии шумоподавления делятся на три больших класса:
- электроакустическая,
- аналоговая,
- цифровая.
Электроакустические решения
Электроакустические решения основаны на разработке микрофона, выборе места для размещения микрофонов в изделии и конструировании для них посадочных мест и креплений, учитывающих требования акустического взаимодействия. Шумоподавляющие микрофоны и микрофоны-приемники градиента давления – простейшие примеры недорогих решений, которые могут оказаться полезными в определенных ситуациях. Грамотная электроакустическая конструкция важна для получения хороших характеристик от любого устройства, предназначенного для голосовой связи, но основные параметры можно значительно улучшить использованием современных цифровых и аналоговых схем.
Аналоговые решения
Аналоговые решения предполагают прямое манипулирование электрическими сигналами, поступающими от микрофона или группы микрофонов. Простые решения, такие как компрессия или прямая обработка «времени прибытия», в аналоговой форме могут оказаться более эффективными, сокращая количество преобразований сигнала в цифровую форму. Однако, на характеристики аналоговых решений, в определенной степени, непосредственно влияет производственный разброс параметров полупроводниковых приборов, в то время как для цифровых схем этот разброс никакого значения не имеет.
Недостатком аналоговых решений является, также, отсутствие функциональной гибкости, так как в их основе лежат процессы внутри кремниевого кристалла, в то время как основу цифровых технологий составляют гибкие и легко модифицируемые программы.
Цифровые решения
Цифровые способы основаны на дискретизации принятого микрофоном электрического сигнала, позволяющей компьютеру использовать для обработки стандартные повторяющиеся алгоритмы. Далее, сигнал либо передается в цифровой форме, либо восстанавливается в аналоговом представлении с улучшенным, по сравнению с исходным сигналом, качеством. Поскольку цифровым технологиям присущи многие преимущества, неудивительно, что большинство решений относится именно к этому классу.
Цифровая обработка позволяет реализовать абсолютно любой алгоритм шумопонижения или улучшения качества принятого микрофоном речевого сигнала. Как правило, цифровые алгоритмы реализуют функции пространственной селекции (откуда приходит звук?), временнóй селекции (когда это речь, а когда не речь?) и частотной (уровень звука выше или ниже уровня шума?)
Некоторые решения сфокусированы лишь на одном из перечисленных аспектов, но наилучшие результаты дает комбинация решений. Дополнительное улучшение звука может быть получено за счет управления коэффициентом усиления, современного моделирования и иных методов.
Пространственная селекция
Технология, опирающаяся, в первую очередь, на пространственную селекцию, известная также, как направленная обработка, хорошо подходит для приложений, в которых заранее известно взаимное расположение громкоговорителя и микрофонов. Такие подходы можно использовать в ноутбуках и мобильных телефонах, но вместе с преимуществами они несут с собой и недостатки.
Подобный сценарий вполне пригоден для видеопереговоров за ноутбуком, когда распространение звука ограничивается направлением камеры, но не позволяет использовать тот же компьютер в качестве конференц-телефона для нескольких людей, расположившихся вокруг стола. Мобильные телефоны, как правило, сконструированы так, чтобы снизить восприимчивость к окружающему шуму, и они, действительно, способны очень сильно подавлять шумы, но стоит приложить телефон к уху неаккуратно, не так, как предусматривали разработчики, голос слабеет тоже.
Напротив, область применения решений, использующих статистические характеристики человеческой речи, чтобы в реальном времени принимать решения относительно того, что должно быть оставлено как речь, а что отфильтровано как шум, может быть намного шире. Но, к сожалению, эти технологии никогда не дают полной уверенности, что был сделан правильный выбор между сигналом и шумом, и чем более агрессивно они настроены, тем больше искажений услышит пользователь из-за того, что какие-то фрагменты речи были приняты за шум.
Как правило, разборчивость речи эта технология повышает, но естественность при этом ухудшается. Если в мобильных телефонах, где звук изначально испорчен беспроводной сетью, это не имеет особого значения, то в таких приложениях, как голосовой рекордер, естественность звучания имеет первостепенное значение.
Смешанные алгоритмы
Самые совершенные цифровые технологии используют смешанные алгоритмы, интеллектуально комбинирующие фрагменты всех известных решений. Эти технологии часто могут адаптироваться к различной обстановке, и даже, брать на себя функции настройки и модификации более сложных алгоритмов под каждую конкретную конструкцию.
Например, фирма ON Semiconductor выпускает однокристальный цифровой процессор шумоподавления BelaSigna R261, воплотивший самые последние достижения в технологии получения чистого звучания речи. Сверхминиатюрные размеры этой системы на кристалле и низкая потребляемая мощность полностью отвечают требованиям современных портативных устройств ввода/вывода речевых сигналов.
В BelaSigna R261 используется усовершенствованный алгоритм подавления шумов от двух микрофонов, улучшающий разборчивость речи, и сохраняющий естественность ее звучания. Поставляемый с набором средств поддержки разработки, процессор является примером решения, обеспечивающего минимальное время конструирования и внедрения в производство современной бытовой техники.
Такие цифровые решения, как BelaSigna R261, позволяют реализовать любые алгоритмы подавления шумов или улучшения качества звука, принятого микрофоном – алгоритмы пространственной, временнóй и частотной селекции.
Выбирая техническое решение для улучшения качества звучания голоса в своем изделии, инженеры должны учитывать воздействие на конечный результат и факторов, лежащих вне аудио характеристик создаваемых продуктов. Может потребоваться выбор определенного типа микрофона, поиск места его расположения и, даже, пересмотр акустических характеристик корпуса, для нахождения приемлемого компромисса. Некоторые решения могут оказаться непригодными с точки зрения недопустимо большой мощности потребления, или попросту не вписываться в свободное место на печатной плате. И, практически для любой конструкции, стоимость также будет решающим фактором при разработке.
В настоящее время не существует универсального стандарта, позволяющего сравнивать достоинства и недостатки различных технологий. Перед разработчиками изделий стоит сложная задача интерпретации характеристик, наиболее востребованных современным рынком, и трансляции этих характеристик в наилучшее техническое решение для своего продукта. Однако, последние достижения в области цифрового шумоподавления, предлагающие малогабаритные экономичные кристаллы и усовершенствованные алгоритмы, дают конструкторам богатые возможности выбора при создании изделий для четкой высококачественной передачи речи.