Статьи о работе со звуком

Перекодирование звука через Winamp
Редактирование цифровых фонограмм
Улучшение качества звукозаписи
Запись и обработка голоса
Запись голоса
Монтаж звука
Рассинхронизация звука

Запись голоса

Выбор формата сигнала

Прежде всего необходимо правильно выбрать формат сигнала — разрядность отсчета и частоту дискретизации. С первым проще, ибо в большинстве звуковых адаптеров поддерживается только два значения: 8 и 16, хотя с каждым годом появляется все больше адаптеров с поддержкой 20-, 22- и 24-разрядного звука. 8-разрядные отсчеты следует использовать лишь в том случае, когда записывается некачественная речь (качество сигнала хуже, чем в телефонной линии) и необходима предельная экономия пространства. 16-разрядные отсчеты подходят для большинства случаев, а большую разрядность имеет смысл использовать лишь для музыки хорошего качества, когда не ставится задача экономии пространства.
Частота дискретизации должна быть как минимум вдвое выше максимальной частоты полезного сигнала. Для получения разборчивой речи вполне достаточно 8 кГц, для речи хорошего качества на фоне второстепенных звуков — 22, для музыки — минимум 44 кГц. Если максимальная частота дискретизации вашего адаптера 48 кГц, попробуйте записать красивую негромкую музыку на 44 и 48 кГц и сравнить результаты. Может оказаться, что качество входного усилителя не позволяет записывать сигналы с частотами выше 20-22 кГц, а частота 48 кГц введена просто для совместимости.
Имейте в виду, что формат звука с 16-разрядными отсчетами на частоте 44 кГц является стандартным, поскольку используется для записи компакт-дисков и поддерживается всеми звуковыми программами. Формат звука с 16-разрядными отсчетами на частоте 48 кГц является стандартным для DVD дисков. Выбрав другой формат — как с менее, так и с более высоким качеством, вы рискуете встретиться с затруднениями при работе с записанным звуком, так как далеко не все программы хорошо воспринимают, например, частоту дискретизации 64 кГц или 20-разрядные отсчеты.

Запись посредством компьютерного звукового адаптера

Поскольку линейный вход звукового адаптера является основным приемником внешнего сигнала при записи, каждый производитель стремится обеспечить на этом входе достаточное качество усиления сигнала. Чувствительность линейных входов большинства звуковых адаптеров примерно одинакова, а параметры качества пропорциональны общему качеству плат. Совершенно иначе обстоит дело с микрофонными входами: плата стоимостью 100 долл. может иметь гораздо худший по чувствительности и качеству вход, нежели ширпотребовская за 8 долл. Причина здесь в том, что микрофонный вход для звукового адаптера является второстепенным и его функциональность чаще всего ограничивается подключением простейшего дешевого микрофона для подачи голосовых команд, где уровень шума и АЧХ не столь критичны.
Микрофонные входы современных адаптеров рассчитаны, как правило, на подключение электретных микрофонов со встроенным усилителем, получающим питание от адаптера. Такой микрофон имеет высокое выходное сопротивление и развивает на выходе до 50-100 мВ, поэтому для усиления сигнала до уровня линейного входа (около 500 мВ) достаточно простейшего предусилителя. Некоторые адаптеры, согласно документации, позволяют подключать и динамические микрофоны, не нуждающиеся в питании, однако такой микрофон развивает на выходе всего 1-3 мВ и требует достаточно чувствительного и малошумящего усилителя, который на звуковых платах встречается довольно редко. Поэтому типовая плата в лучшем случае позволяет получить с такого микрофона недостаточно громкий, глуховатый звук, изобилующий шумами и наводками, а в худшем случае от динамического микрофона вы вообще не добьетесь звука. Предпочтение электретным микрофонам отдается вследствие того, что компьютер является источником множества электромагнитных излучений, создающих на чувствительном микрофонном входе ощутимые помехи, справиться с которыми довольно сложно. Создание малошумящего усилителя потребовало бы специальной компоновки платы, тщательной фильтрации питающих напряжений, экранирования области входных цепей и прочих сложных и дорогих ухищрений.
Разъем микрофонного входа большинства адаптеров — монофонический; в нем для передачи сигнала используется только концевой контакт (TIP) штекера, который в стереофоническом разъеме отвечает за сигнал левого канала. Средний контакт (RING), который в стереофоническом разъеме отвечает за правый канал, в микрофонном разъеме либо вообще не используется, либо служит для передачи питающего напряжения +5 В для электретного микрофона. Когда отдельный контакт для питания микрофона отсутствует, питающее напряжение подается прямо на сигнальный вход, а усилители в этом случае должны иметь емкостную развязку входа и выхода.

Микрофон

Как мы выяснили, для непосредственного подключения к адаптеру лучше всего подойдут электретные микрофоны, которые обычно выпускаются в достаточно миниатюрном исполнении: в виде «карандашей» с подставками либо «клипс», прикрепляемых к одежде или к корпусу монитора. Они недороги и продаются в магазинах компьютерных аксессуаров; если не требуется высокого качества записи, близкого к профессиональному, — таким микрофоном вполне можно обойтись. В противном случае необходим качественный профессиональный микрофон, за которым придется идти в магазин музыкальной аппаратуры, и цена его будет примерно на порядок выше.
С подключением профессионального микрофона обязательно возникнет некоторое количество проблем. Такие микрофоны чаще всего являются динамическими и выдают сигнал амплитудой в единицы милливольт, а микрофонный вход большинства звуковых адаптеров, как уже говорилось, не способен нормально воспринимать столь слабые сигналы. Выходов может быть два: либо купить в том же музыкальном магазине микрофонный предусилитель (который может оказаться довольно дорогой игрушкой) и подключить его выход уже не к микрофонному, а к линейному входу адаптера; либо использовать микрофон со встроенными предусилителем и питанием (батарейкой). При наличии радиотехнических навыков можно собрать несложный усилитель самостоятельно — варианты схем довольно часто встречаются в книгах и в Интернете.
Кроме того, профессиональные микрофоны обычно имеют разъемы типа XLR, а компьютерные звуковые адаптеры — mini-DIN, так что потребуется переходник; иногда такие переходники продаются в музыкальных магазинах, однако может статься, что придется паять его самостоятельно.
И наконец, вполне может так случиться, что любой профессиональный микрофон будет намного превосходить ваш звуковой адаптер по качественным параметрам и звук, который вы получите с помощью такого микрофона, в итоге будет не лучше того, что может обеспечить простой электретный. Поэтому если у вас есть сомнения в высоком качестве своего адаптера (а простые адаптеры ценой порядка 10 долл., тем более встроенные, имеют весьма посредственные параметры), то вам имеет смысл договориться в магазине о возможном возврате купленного микрофона, если не удастся получить с его помощью достаточно качественный звук.

Технология записи

В отличие от источников фиксированного сигнала, микрофон имеет ряд особенностей, которые необходимо учитывать при работе с ним. Прежде всего, он любит «фонить»: если усиленный сигнал с микрофона поступает на колонки, то микрофон воспринимает его, сигнал вновь усиливается и т.д., то есть образуется так называемая положительная обратная связь, которая «раскачивает» звуковой тракт, вводит его в режим самовозбуждения, что проявляется посредством громкого свиста, звона или рокота. Даже если тракт не войдет в режим самовозбуждения, положительная связь может давать звенящий или свистящий призвук, который заметно портит сигнал. При этом чувствительный микрофон может успешно ловить сигнал даже с наушников, если звук в них достаточно громкий, а наружная звукоизоляция слаба. Поэтому необходимо экспериментальным путем определить такое положение/направление микрофона и громкость усиленного звука, при котором положительная связь проявляется меньше всего. Окончательную запись рекомендуется производить при отключенных или хотя бы максимально приглушенных колонках.
Чувствительные микрофоны, особенно простые и дешевые, отлично воспринимают посторонние звуки вроде шороха пальцев по корпусу микрофона или легкого поскрипывания самого корпуса даже от незначительного сжатия (наверняка вам приходилось слышать подобные звуки при телефонных разговорах). Чтобы избежать таких помех, микрофон лучше установить на удобной подставке либо держать его свободно, не сдавливая пальцами.
Плохая экранировка соединительного кабеля и самого капсюля облегчает проникновение в сигнальную цепь разного рода электромагнитных наводок — от частот строчной/кадровой развертки монитора до фона сети переменного тока, наводимого рукой, держащей микрофон. Первое устраняется изменением ориентации микрофона и удалением его от источника наводок, второе может потребовать переделки самого микрофона (в крайнем случае можно попробовать просто обернуть его фольгой, чтобы образовался замкнутый виток, поглощающий паразитные токи).
Еще один неприятный момент в использовании микрофона — так называемое заплевывание потоком воздуха, которое особенно ярко проявляется на взрывных согласных, таких как «п», «б», «т» и им подобных. В результате попадания на мембрану интенсивного звукового импульса образуется резкий бросок амплитуды сигнала, перегружающий усилитель и/или АЦП. Профессиональные микрофоны имеют против этого ветрозащиту — сетку или мягкую прокладку, расположенную на некотором расстоянии от капсюля, но даже она не всегда спасает, поэтому к каждому микрофону приходится приноравливаться, привыкая держать его либо под правильным углом, чтобы прямые воздушные потоки проходили мимо, либо на достаточном расстоянии, чтобы они достигали микрофона в уже ослабленном состоянии.
Экспериментируя с микрофоном, вы обнаружите, что тембр записанного голоса довольно сильно зависит от расстояния ото рта до микрофона и от угла наклона микрофона относительно лица. Это вызвано тем, что низкочастотные составляющие голоса больше всего рассеиваются и ослабляются с расстоянием, тогда как высокочастотные ослабляются меньше, зато имеют более выраженную направленность. Наиболее сочный и бархатистый тембр голоса можно получить, расположив микрофон непосредственно у рта, но тогда придется изрядно повозиться с углом наклона и немало потренироваться, чтобы избежать «заплевывания».

Запись посредством внешних устройств
В последнее время появились весьма экзотические способы записи звука с микрофона и переноса его в компьютер, например через интерфейс USB.

Удаление шумов и помех

Поскольку голосовой сигнал имеет достаточно узкий спектр (сотни герц — единицы килогерц), к нему можно применять операцию удаления шума с большей глубиной, чем в случае произвольного музыкального сигнала. При записи может также оказаться, что в наиболее удачно записанном фрагменте (с художественной точки зрения) микрофон все-таки оказался «заплеванным» в одном или в нескольких местах и попытки повторить фразу или куплет песни со столь же удачной расстановкой акцентов не дают желаемого результата. В таких случаях можно попробовать скруглить импульсы перегрузки, сохранив или уменьшив их амплитуду. При незначительном количестве импульсов это удобно делать вручную, укрупнив изображение до появления узловых точек, которые можно цеплять мышью.

Методы обработки голоса

Как мы уже говорили, сложный музыкальный сигнал содержит множество разнородных составляющих, на которые большинство методов обработки звука воздействует с различным эффектом, поэтому спектр универсальных методов обработки сигнала весьма узок. Наиболее популярен метод реверберации, имитирующий множественное отражение звуковых волн и создающий эффект пространства — комнаты, зала, стадиона, горного каньона и т.п.; реверберация позволяет придать «сухому» звуку сочность и объем. Остальные универсальные методы обработки сводятся к манипуляции АЧХ (эквалайзер), чистке фонограммы от шумов и помех.
В отношении же первичного, простого звукового сигнала может быть достаточно успешно применен весь спектр существующих методов обработки — амплитудных, частотных, фазовых, временных, формантных и т.п. Те методы, что на сложном сигнале рождают неблагозвучную какофонию, на простых сигналах нередко способны привести к созданию очень интересных и ярких эффектов, широко используемых в звуковой индустрии.

Монтаж

Компьютерный монтаж речевых фонограмм — типичное занятие журналиста после записи интервью — одновременно и прост, и сложен. Поначалу он кажется простым, благодаря удобной для визуального анализа структуре речи, наличию заметных пауз между словами, всплескам амплитуды в местах акцентов и т.п. Однако при попытке, например, переставить местами две фразы, разделенные буквально секундами, выясняется, что они не желают стыковаться — успели измениться интонация, фаза дыхания, фоновый шум, и на стыке отчетливо прослушивается сбивка. Такие сбивки легко различимы практически в любом радиоинтервью, когда записывается речь человека, не являющегося профессиональным радиожурналистом и, следовательно, не умеющего говорить только то, что должно пойти в эфир. Из речи вырезают лишнее, некоторые фрагменты переставляют местами для большего соответствия смыслу, в результате чего слух постоянно «удивляется», поскольку в потоке естественной человеческой речи таких интонационных и динамических переходов не бывает.
Для сглаживания эффектов перехода можно воспользоваться методом взаимоперекрытия (crossfade), хотя он позволит состыковать фрагменты речи лишь по амплитуде, но не по интонации и фоновым шумам. Поэтому считаем нужным предостеречь тех, кому компьютерный монтаж покажется удобным способом фальсификации записи, например, переговоров: экспертиза способна без труда выявить даже неразличимые ухом места склейки, как и в случае с подделкой документов при помощи сканера и принтера.

Амплитудная обработка

Простейший вид динамической амплитудной обработки голоса — модуляция его периодическим сигналом, когда амплитуды сигналов перемножаются и голос приобретает амплитудные характеристики модулирующего сигнала. Модулируя низкочастотным (единицы герц) синусоидальным сигналом, получаем «булькающий» голос, повышая частоту сигнала — вибрирующий. Используя вместо синусоидальной формы прямоугольную, треугольную или пилообразную, можно придать голосу металлические, искаженные, «роботизированные» интонации.
Последовательные модуляция и демодуляция с одним и тем же сигналом восстанавливают исходный сигнал (возможно, с измененным общим уровнем). Эксперименты с различными сочетаниями параметров порой дают весьма забавные и неожиданные результаты.

Временная обработка

Этот вид обработки основан на сдвиге исходного сигнала во времени и смешивании результата с исходным сигналом, после чего снова могут применяться сдвиг и смешивание. При сдвигах на малые промежутки времени, сравнимые с длительностью периода исходного сигнала, возникают фазовые эффекты типа интерференции, отчего звук приобретает специфическую окраску; этот эффект получил название фленжера (flanger) и используется как с фиксированной величиной сдвига, так и с периодически изменяющейся или даже вовсе со случайной. При сдвигах на интервалы, превышающие длительность периода, но не более 20 мс, возникает хоровой эффект (chorus). Благодаря общности технологии, эти два эффекта нередко реализуются одним программным блоком с различными параметрами.
При множественных сдвигах с интервалами 20...50 мс возникает эффект реверберации (reverb) — гулкости, объема, оттого что слуховой аппарат трактует задержанные копии сигнала как отражения от окружающих предметов. При интервалах свыше 50 мс ухо перестает четко связывать отдельные копии между собой, вследствие чего возникает эффект эха (echo).
Набор пресетов позволяет наглядно изучить особенности операции. Попробуйте выбрать несколько пресетов, меняя в каждом из них предустановленные параметры и не забывая всякий раз «откатываться» (Undo), чтобы сравнить влияние на звук различных комбинаций параметров.
Эффект реверберации например, в Cool Edit 2000 может быть реализован двумя способами: с помощью Echo Chamber — имитатора комнаты с заданными размерами и акустическими свойствами, и Reverb — генератора эффекта объема на основе встроенного в редактор алгоритма имитации множественных отражений в пространстве.
Эффект эха реализуется операцией Echo и добавляет к сигналу его постепенно затухающие копии, сдвинутые на равные промежутки времени. Регулятор Decay задает величину затухания — уровень каждой очередной копии в процентах от уровня предыдущей.
Поскольку эффект является «продолжающимся» во времени, он может создать звуковой фрагмент, по длительности превышающий исходный. Для этого предусмотрен пункт Continue echo beyond selection — разрешение подмешивать эхо-сигнал к участку фонограммы, продолжающемуся за границей выделенного фрагмента. При этом в качестве исходного сигнала будет взят только выделенный фрагмент, а оставшаяся часть фонограммы будет использована исключительно для размещения «хвоста». Если в фонограмме не хватает места для «хвоста» — будет выдано сообщение об ошибке и придется добавить в конец фонограммы участок тишины операцией Generate g Silence.
Эффект лучше всего воспринимается на относительно коротких звуках. На длинных словах или фразах, чтобы исключить возникновение «тарабарщины» — множественных повторений различных слогов или слов, перебивающих друг друга, эффект лучше делать «концевым», выбирая для повторения только короткий завершающий фрагмент фразы или даже последний ударный слог слова. Попробуйте поэкспериментировать с различными словами и фразами, чтобы почувствовать, какую завершающую часть лучше использовать для «размножения» в каждом конкретном случае.

Спектральная обработка

Наиболее ярким и интересным эффектом из этого класса, является изменение высоты и скорости. Всем известен эффект повышения или понижения высоты сигнала при изменении скорости протяжки ленты в магнитофоне или вращения пластинки. С развитием цифровых методов обработки сигналов стало возможным правдоподобно реализовать каждый из этих эффектов по отдельности — изменение высоты при сохранении временных характеристик либо наоборот.