Abstract: This article provides an overview of innovative developments and technologies used to assess video quality. Objective and subjective assessment methods are described. Objective methods include PSNR, SSIM, VMAF and others. A comparison of these methods is given.
Keywords: PSNR, SSIM, VMAF, video quality, codecs, algorithms, subjective methods.
В современном мире, мире информационных технологий, большое влияние на жизнь человека оказывают технологии, связанные с созданием, обработкой и представлением видеосигнала. Каждый день миллиарды людей смотрят телевизоры, фильмы в кинотеатрах, просматривают тысячи видео с youtube и других сервисов. Сегодня мы можем в реальном времени присутствовать на событии, которое происходит на другом конце земли. И все это доступно нам благодаря развитию видеотехнологий.
Над созданием и совершенствованием технологий передачи видеоинформации трудятся тысячи больших компаний и миллионы энтузиастов по всему миру. Одной из главных целей, которую они перед собой ставят, является снижение размера информации, передаваемой по каналам связи, с сохранением качества контента. Для этого разрабатываются сложные алгоритмы сжатия, которые в разы уменьшают передаваемые данные, но вот с сохранением качества у таких алгоритмов бывают определенные проблемы.
В процессе сжатия часть информации может теряться, и при отображении на мониторе потребителя появляются различные артефакты. Компании, которые занимаются производством и поставкой видеоконтента, дорожат своей репутацией, поэтому для них важно предотвращать такие инциденты и не допускать бракованный контент до потребителя. Самым надежным способом является просмотр всего выпускаемого или получаемого контента людьми. Но такой способ очень дорогостоящий, и, как и везде, здесь присутствует человеческий фактор. На человека во время просмотра влияет множество различных факторов, таких как время проведения тестирования, место тестирования, и даже время года. Поэтому, компании зачастую отказываются от данного способа, в пользу оценки контента компьютерами, с помощью специальных алгоритмов. Разработка таких алгоритмов является очень важной составляющей в процессе производства видеоконтента. Поэтому данная тема является очень актуальной в данный период времени, и в реализации новых алгоритмов оценки качества заинтересовано множество компаний.
Цели и задачи:
- Провести сравнение методов и средств по оценке качества видеоконтента.
- Провести сравнение объективных алгоритмов оценки качества кадров.
- Рассмотреть субъективный метод оценки качества.
- Сделать вывод о том, какой алгоритм лучше всего работает.
Методы оценки качества видеоконтента
Проблемы возникающие при оценке качества работы кодеков
В научных статьях и на просторах интернета достаточно часто встречаются сравнения кодеков. Не редко, авторы проводимых сравнений, забывают о некоторых очень важных факторах:
- кодеки проектируются и настраиваются только под определенный тип фильма;
- кодеки, для разных кадров одного видеоролика, могут давать разное качество итоговой картинки;
- качество материала, полученного после сжатия сильно зависит от настроек с которыми осуществлялось кодирование.
Существует множество других, более тонких способов получения как реального преимущества, так и псевдо-преимущества. Но даже исходя из этих трех факторов можно сделать вывод, чтобы провести качественную оценку работы кодеков, необходимо проведение объемного тестирования:
- сравнение разных по характеру фильмов с разными настройками битрейта;
- сравнение характеристик качества, с использованием различных объективных и субъективных методов оценки.
Объективные способы оценки качества видеоконтента
Объективные методы измерений – это математические модели, которые с достаточно хорошей точностью могут моделировать результаты субъективной оценки качества, они основаны на критериях и метриках, которые могут быть измерены объективно. К объективным способам оценки относятся следующие алгоритмы: PSNR, SSIM, VQM, VMAF и др. Далее будут рассмотрены некоторые из них.
PSNR (Peak signal-to-noise ratio – пиковое отношение сигнала к шуму)
PSNR – метрика, обозначает соотношение между максимумом возможного значения сигнала и мощностью шума, который искажает значения сигнала. Так как многие сигналы имеют широкий динамический диапазон, PSNR обычно измеряется в логарифмической шкале в децибелах. Метрика PSNR чаще всего используется для измерения уровня искажений при сжатии изображений. Наиболее просто метрика PSNR высчитывается через среднюю квадратичную ошибку или показателя MSE [5].
Метрику PSNR можно посчитать по следующей формуле:
где
– среднее квадратическое различие между оцененными значениями и фактическим значением, MAXI — максимальное значение, которое может принимать пиксель изображения. Например, если пиксель имеет разрядность 8 бит, то MAXI будет равно 255. Если обобщить, то в случае, если значения сигнала представлены линейно (B бит на значение), то значение MAXI будет 2B-1.
Чем больше разница между сравниваемыми изображениями, тем больше значение метрики [4][5].
В случае, если мы работаем с RGB изображениями, то можно применить такое же определение PSNR, основное различие будет заключаться в том, что метрика MSE должна считаться по всем 3 компонентам, после чего ее необходимо поделить на утроенный размер изображения.
Данную метрику используют во многих научных статьях и сравнениях в качестве меры потерь качества, поэтому она очень популярна. Главным минусом данной метрики является то, что метод несовместим с физиологией человеческого восприятия.
SSIM – метрика структурного сходства. Является альтернативой PSNR, которая может коррелировать с ощущаемым качеством сжатого изображения [7]. Данный метод является развитием традиционных методов (PSNR и MSE), которые оказались несовместимы с физиологией человеческого восприятия. Благодаря учёту структурного изменения информации, метод учитывает «восприятие ошибки», это является отличительной особенностью метода. Пиксели имеют сильную взаимосвязь, особенно когда они близки пространственно, и эти зависимости несут важную информацию о структуре объектов и о сцене в целом. Ниже, представлена формула подсчета метрики SSIM (для окон x и y с одинаковым размером N×N):
Оценка качества происходит по яркостной компоненте изображения. Значение, полученное на выходе, находится в пределах от −1 до +1. Значение +1 возможно только в случае полного совпадения анализируемых окон. Оптимальный размер окна 8×8 пикселей [6].
VMAF (Video Multimethod Assessment Fusion)
VMAF – это объективная метрика оценки качества видео, разработанная компанией Netflix в сотрудничестве с Университетом Южной Калифорнии и лабораторией видео – и графической инженерии Техасского университета в Остине. Она предсказывает субъективное качество видео на основе эталонной и искаженной видеопоследовательности. Метрику можно использовать для оценки качества различных видеокодеков, кодеров, настроек кодирования или вариантов передачи.
Для разработки алгоритма VMAF использовалась модель машинного обучения, основанная на разработке метрики, которая стремится отразить человеческое восприятие качества видео. За основу был взят такой факт, что каждая элементарная метрика может иметь свои сильные и слабые стороны в отношении характеристик исходного содержимого. Элементарные метрики были объединены в одну конечную метрику, с помощью алгоритма машинного обучения. В данном случае был использован метод Support Vector Machine (SVM) regressor, который присваивает веса каждой элементарной метрике. За счет этого конечная метрика может сохранить все сильные стороны отдельных метрик, и обеспечивать более точную итоговую оценку.
Модель обучалась и тестировалась на собственном наборе данных Netflix (NFLX Video Dataset).
VMAF состоит из набора существующих показателей качества изображения и некоторых других функций для прогнозирования качества видео:
- VIF – визуальная точность информации, учитывает потерю точности информации в четырех различных пространственных масштабах.
- DLM – метрика потери деталей, измеряет потерю деталей и ухудшения, которые отвлекают внимание зрителя.
- MCPD – средняя совместно расположенная разница пикселей, измеряет временную разницу между кадрами на компоненте яркости.
- AN-SNR – противошумное отношение сигнал-шум.
Эти функции объединяются с помощью регрессии на основе SVM, обеспечивая один выходной балл в диапазоне 0-100 на кадр видео, значение 100 является качеством эталонного видео. Затем эти оценки временно объединяются по всей видеопоследовательности, используя среднее арифметическое, чтобы обеспечить общий дифференциальный средний балл мнения (DMOS).
Данная метрика является одной из самых точных на данный момент. Она лучше всего соответствует результатам субъективного тестирования, о котором пойдет речь дальше.
Главное достоинство объективного подхода – это возможность автоматизировать процесс тестирования, что позволяет измерить качество работы какого-либо кодека, при различных сценариях, таких как разная конфигурация настроек кодека, разные типы фильмов. Также в результате тестирования с использованием объективного подхода, мы получаем точные и четко воспроизводимые данные. Но у данного подхода есть и свои минусы. И самый главный минус – это то, что автоматические метрики PSNR, MSE, SSIM не во всех случаях могут корректно отражать субъективно воспринимаемое качество (за исключением VMAF, который дает достаточно хорошие результаты). Этот минус обычно приводит к неправильному выводу о превосходстве одного кодека над другим. Для таких сценариев существует альтернативный способ – субъективное тестирование [3][8].
Субъективные методы оценки качества видеоконтента
При субъективном методе тестирования итоговая оценка результата кодирования получается непосредственно от зрителя (приглашенные эксперты).
Для проведения субъективного тестирования нужны дополнительные ресурсы:
- Выборка видеопоследовательностей. Для того чтобы предотвратить рассеивание внимания экспертов, и снизить время на проведение экспериментов, выбираются короткие видео-фрагменты длительностью 8-10 секунд.
- Метод тестирования.
- Эксперты, которые будут проводить оценки. Необходимо не менее 15 экспертов.
- Выборка кодеков, и их настроек, которые планируется сравнивать
Проведение субъективного тестирования можно разделить на следующие этапы:
- Идентификация эксперта (ввод имени в систему тестирования).
- Оценка цветовосприятия эксперта (используются таблицы Ишихары).
- Оценка тестируемых фрагментов (просмотр исходного ролика, просмотр кодированных роликов, выставление оценок).
Результат субъективного тестирования может искажаться за счет следующих факторов:
- расстояние до монитора;
- профессия эксперта;
- пол эксперта;
- время проведения испытания
Путем усреднения оценок, получается итоговый результат — MOS (Mean Opinion Score) [7].
Из минусов субъективного тестирования можно отметить высокую стоимость, в сравнении с объективными методами, а также невозможность четкого воспроизведения данных, то есть если провести тестирование на этих данных еще раз, то результаты могут в корне отличаться от первоначальных. Но, если при проведении сравнения, учесть эти факторы, субъективное тестирование может дать надежные и ценные результаты. Из этого можно сделать вывод, что субъективный метод оценки, хотя и имеет свои минусы, является единственным способом оценить реальное качество кодирования.
Заключение
Процесс оценки качества видеоконтента очень важен в современных реалиях телевещания. Во всех компаниях, производящих видеоконтент, есть свои подразделения, в которых выполняется оценка качества производимого материала, как объективными, так и субъективными методами.
Субъективный метод тестирования бесспорно точнее объективных методов, но он и в разы дороже, а кроме того, не имеет 100% — воспроизводимости результатов. Поэтому компании стремятся использовать объективные методы.
Алгоритмы SSIM и PSNR являются одними из самых распространённых алгоритмов, используемых в качестве меры оценки потери качества при кодировании материала. Самый главный минус данных методов заключается в том, что они не могут оценить, субъективное восприятие ведеоконтента человеком. В некоторых случаях, они могут давать хорошие результаты, а в некоторых нет. Здесь им на помощь приходит алгоритм VMAF. Его преимущество заключается в том, что он обучен нейросетью, на основе комбинации различных объективных метрик. Тем самым он показывает хорошие результаты на разном типе контента, и может давать оценку, приближенную к субъективному восприятию контента человеком.
References
1 Zhi Li, Anne Aaron, Ioannis Katsavounidis, Anush Moorthy and Megha Manohara. Toward A Practical Perceptual Video Quality Metric [Электронный ресурс]. URL https://medium.com/netflix-techblog/toward-a-practical-perceptual-video-quality-metric-653f208b96522 Zhi Li, Christos Bampis, Julie Novak, Anne Aaron, Kyle Swanson, Anush Moorthy and Jan De Cock. VMAF: The Journey Continues [Электронный ресурс]. URL https://medium.com/netflix-techblog/vmaf-the-journey-continues-44b51ee9ed12
3 Александр Паршин, Олег Петров. Субъективное сравнение современных видеокодеков [Электронный ресурс]. compression.ru – все о сжатии данных, изображений и видео. URL http://www.compression.ru/video/codec_comparison/subjective_codecs_comparison.html?utm_source=ixbtcom
4 Сергей Гришин, Дмитрий Ватолин. Сравнение видеокодеков при помощи метрики PSNR [Электронный ресурс]. URL https://www.ixbt.com/divideo/codex-psnr.shtml
5 Peak signal-to-noise ratio [Электронный ресурс]. URL https://en.wikipedia.org/wiki/Peak_signal-to-noise_ratio
6 Structural similarity [Электронный ресурс]. URL https://en.wikipedia.org /wiki/Structural_similarity
7 Mean opinion score [Электронный ресурс]. URL https://en.wikipedia.org/ wiki/Mean_opinion_score
8 Оценка качества видео. Субъективная оценка качества видео [Электронный ресурс]. URL https://www.ixbt.com/divideo/estimate1.shtml