авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 |

Разработка и исследование методов и алгоритмов устранения избыточности видеопоследовательностей на основе сегментации видеоданных

-- [ Страница 1 ] --

На правах рукописи

Рубина Ирина Семеновна

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ И АЛГОРИТМОВ устранения избыточности видеопоследовательностей НА ОСНОВЕ СЕГМЕНТАЦИИ видеоДАННЫХ

Специальность: 05.13.11 – Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Автореферат

диссертации на соискание ученой степени

кандидата технических наук

Санкт-Петербург 2013

Работа выполнена в Национальном Исследовательском университете информационных технологий, механики и оптики.

Научный руководитель: Тропченко Александр Ювенальевич,

доктор технических наук, профессор.

Официальные оппоненты: Потапов Алексей Сергеевич,

доктор технических наук, доцент, лаборатория интеллектуальных систем компьютерного видения ФГУП «Научно-производственная корпорация «Государственный оптический институт им. С.И. Вавилова» (г. Санкт-Петербург), начальник.

Меженин Александр Владимирович,

кандидат технических наук, доцент, кафедра инженерной и компьютерной графики НИУ ИТМО, доцент.

Ведущая организация: Филиал ФГУП Центральный научно-исследовательский институт связи – Ленинградское отделение ЦНИИС.

Защита диссертации состоится «23» мая 2013 г. в 15 часов 30 минут на заседании диссертационного совета Д 212.227.06 при Национальном исследовательском университете информационных технологий, механики и оптики по адресу: 197101, Санкт-Петербург, Кронверкский пр., д. 49, конференц-зал центра интернет-образования.

С диссертацией можно ознакомиться в библиотеке Национального исследовательского университета информационных технологий, механики и оптики.

Автореферат разослан «22» апреля 2013 г.

Ученый секретарь

диссертационного совета Лобанов И.С.

Общая характеристика работы

Актуальность работы

Современный этап развития информационно-вычислительных систем характеризуется широким внедрением технологий мультимедиа, в связи с чем возникает потребность в разработке методов и алгоритмов сжатия цифровых видеоизображений и видеопотоков, основанных на обработке групп изображений, имеющих информационную избыточность. Постоянно растущая вычислительная сложность алгоритмов обработки видеопоследовательностей и высокие затраты на хранение данных требуют значительных вычислительных ресурсов.

Видеокомпрессия не только дает возможность использования цифрового видео в среде передачи, не поддерживающей исходных (несжатых) видеоизображений, но и повышает эффективность использования высокоскоростных каналов связи для передачи видеопотоков высокого разрешения, в том числе при одновременной передаче множества потоков видеоданных высокого уровня качества.

Существенный вклад в теорию сжатия видеоданных внесли Ватолин Д., Сэломон Д., Гонсалес Р., Ричардсон Я. и многие другие видные ученые и специалисты.

Существующие системы обработки видеоданных используют методы сжатия с потерями за счет передачи опорных (I- кадров), сжатых по пространственным координатам, а также ссылочных (P- и B- кадров), сжатых по пространственно-временным координатам, от количества которых зависит степень сжатия видеопоследовательности. При этом учитываются особенности восприятия подобного типа данных человеком. На сегодняшний день в определенной степени решена задача устранения избыточности опорных кадров, тогда как для ссылочных кадров данная задача является актуальной.



Основой кодирования ссылочных кадров является построение векторов движения отдельных пикселов или их групп. Также эффективность работы алгоритмов устранения временной избыточности улучшают путем повышения эффективности алгоритмов кодирования преобразованием и интерполяции. Этим проблемам посвящена данная диссертационная работа.

Цель работы – совершенствование существующих и создание новых методов устранения информационной избыточности видеопоследовательностей, отличающихся пониженными вычислительными затратами при высоких показателях коэффициента сжатия и качества восстановленного видеоряда.

Задачи исследования

В рамках диссертационного исследования решались следующие задачи:

  1. Анализ алгоритмов построения траектории движущихся объектов на основе сегментации видеоданных.
  2. Разработка методов повышения эффективности существующих алгоритмов сжатия, использующих адаптивную сегментацию, на основе нового алгоритма классификации сегментов по маске, получаемой на основе алгоритма выделения опорных пикселов.
  3. Разработка алгоритмов сжатия на основе быстрых трехмерных алгоритмов кодирования преобразованием.
  4. Разработка методов сжатия за счет новых алгоритмов интерполяции отсчетов сигнала и исследование их эффективности.
  5. Построение модели кодека и программная реализация алгоритмов сжатия на основе предложенных подходов.

Методы исследования

Диссертационное исследование основано на ряде теоретических и экспериментальных методов. В рамках теоретической части исследования использовались методы теории информации (RD-теории и устранения избыточности данных), методы распознавания образов и цифровой обработки сигналов, а также методы теории вероятностей. В рамках экспериментального исследования была проведена программная реализация алгоритмов сжатия с последующим сравнением реализованных алгоритмов с уже существующими алгоритмами. Экспериментальные методы подразумевают моделирование и реализацию алгоритмов на языке высокого уровня C++.

На защиту выносятся следующие положения:

  1. Алгоритм выделения объектов видеопоследовательности, основанный на определении опорных пикселов видеокадра.
  2. Алгоритм сжатия на основе классификации сегментов кадра видеопоследовательности адаптивного размера с использованием маски, полученной путем выделения опорных пикселов.
  3. Быстрый трехмерный алгоритм нисходящего кодирования преобразованием с неразделимым ядром, основанный на дискретном преобразовании Хартли с переменным размером матрицы преобразования.
  4. Быстрый трехмерный алгоритм кодирования преобразованием, основанный на дискретном косинусном преобразовании с переменным размером матрицы преобразования.
  5. Алгоритм интерполяции отсчетов видеосигнала с переменным размером ядра.
  6. Метод сжатия видеоданных, основанный на сочетании предложенных алгоритмов.

Научная новизна работы

  1. Разработан алгоритм выделения объектов видеопоследовательности, основанный на определении опорных пикселов видеокадра, отличающийся эффективностью работы для последовательностей с различной динамикой перемещения объектов.
  2. Разработан алгоритм построения траектории движущихся объектов на основе классификации сегментов кадра видеопоследовательности адаптивного размера с использованием маски, полученной путем выделения опорных пикселов, позволяющий сократить временную избыточность при допустимом уровне вычислительных затрат и высоком уровне качества.
  3. Разработан быстрый трехмерный алгоритм нисходящего кодирования преобразованием с неразделимым ядром, основанный на дискретном преобразовании Хартли с переменным размером матрицы преобразования.
  4. Разработан быстрый трехмерный алгоритм кодирования преобразованием, основанный на дискретном косинусном преобразовании с переменным размером матрицы преобразования.
  5. Разработан алгоритм интерполяции отсчетов видеосигнала с переменным размером ядра.
  6. Предложен метод сжатия видеоданных, основанный на сочетании предложенных алгоритмов, позволяющий повысить эффективность сжатия видеоданных.

Практическая ценность результатов работы заключается в следующем:

  1. Предложенный метод, как показали результаты исследования его эффективности, обеспечивает хорошее качество восстановленной видеопоследовательности при более высоком значении коэффициента сжатия по сравнению с существующими методами.
  2. Разработанные быстрые алгоритмы многомерных преобразований Хартли и ДКП позволили сократить объем вычислительных затрат.
  3. Разработаны программно-алгоритмические средства, реализующие предложенную модель кодека, обеспечивающие кодирование и декодирование видео файлов с возможностью изменения параметров кодирования, а также иллюстрирующие процесс функционирования кодека в виде промежуточных результатов его работы в сочетании с дружественным пользователю интерфейсом.

Внедрение результатов работы

Основные результаты работы внедрены в учебном процессе НИУ ИТМО и проведенных в НИУ ИТМО НИР №610481 «Разработка методов и средств системотехнического проектирования информационных и управляющих вычислительных систем с распределенной архитектурой» кафедры ВТ и НИР №211115 «Исследование и разработка методов искусственного интеллекта применительно к задаче построения обобщенного решения мультимодальной биометрической идентификации» кафедры РИС. Программное обеспечение, реализующее предложенные методы и алгоритмы прошло государственную регистрацию пакетов программ для ЭВМ (свидетельство №2013612402). Результаты исследования поддержаны грантами Правительства Санкт-Петербурга в 2010 и 2011 гг.

Апробация результатов работы

Результаты выполненных исследований были представлены на конференциях:

  • XXXIX научной и учебно-методической конференции СПбГУ ИТМО (2010 г.).
  • VII Всероссийской межвузовской конференции молодых ученых (2010 г.).
  • XL научной и учебно-методической конференции СПбГУ ИТМО (2011 г.).
  • VIII Всероссийской межвузовской конференции молодых ученых (2011 г.).
  • XLI научной и учебно-методической конференции НИУ ИТМО (2012 г.).
  • I Всероссийском конгрессе молодых ученых (2012 г.).
  • Международной научно-практической конференции «Научные исследования и их практическое применение. Современное состояние и пути развития’ 2012» (2012 г.).

Публикации

Основные результаты диссертационного исследования опубликованы в 13-ти научных публикациях общим объемом 42 страницы: в том числе в 4-х статьях в изданиях, включенных в Перечень ВАК, 10 работ опубликовано без соавторов.

Структура и объем работы

Диссертационная работа состоит из введения, основной части, содержащей 5 разделов, заключения, списка литературы и 2 приложений. В приложениях представлены порядок тестирования, характер тестовых последовательностей, а также документы, подтверждающие использование диссертационной работы. Основной объем работы – 118 страниц. Объем приложений 26 страниц. Работа содержит 27 иллюстраций и 1 таблицу. Список литературы включает 78 библиографических источников.

Содержание работы

Введение содержит обоснование актуальности рассматриваемых в диссертации вопросов. Формулируются цель, задачи и методы исследования.

В первом разделе рассматриваются общие вопросы сжатия видеопоследовательностей. Определяются существенные особенности такого типа данных, а также возможности по устранению существующей избыточности.

Также определяются основные этапы сжатия и выделяются основные функциональные единицы видеокомпрессора, а именно пространственная и временная модели. Рассматриваются существующие критерии оценки качества восстановленной видеопоследовательности.

Проведен обзор существующих алгоритмов в рамках пространственной и временной модели видеокомпрессора. Выявлены основные недостатки существующих методов сжатия видеопоследовательностей и определены основные подходы к их устранению. В конце раздела формулируются цель и задачи исследования.

Во втором разделе исследуются алгоритмы оценки и компенсации движения на основе сегментации видеоданных.

Подход к устранению временной избыточности видеопоследовательности на основе блоков можно реализовать двумя способами – на основе сегментов фиксированного (FSBM) и переменного размера (VSBM). При этом выбор размера блока всегда является компромиссом между коэффициентом сжатия и уровнем вносимых искажений.





В основу разработанных алгоритмов выбора и классификации блоков положен алгоритм VSBM, поскольку он обеспечивает сокращение потока векторов движения на 60 % по сравнению с алгоритмом FSBM.

Для предложенного алгоритма ортогональной пирамиды (MPO) выбора блоков был использован иерархический поиск алгоритм усредненной пирамиды (MP), а также алгоритм ортогонального поиска (OSA).

В разработанном алгоритме предлагается добавлять к множеству кандидатов на проверку для блока вектор, полученный по алгоритму поиска по шаблону OSA, на уровне 2 иерархического поиска (рисунок 1). В случае если прогноз OSA оказывается лучшим из четырех, то осуществляется поиск для одного окна конечного кадра, иначе осуществляется поиск в рамках трех окон и далее в одном окне конечного кадра.

Для оценки эффективности предложенного алгоритма было выполнено его сравнение со следующими алгоритмами: полного перебора (FS), поиска по принципу «один за раз» (OTA), ортогонального (OSA), трехшагового (TSS), двухмерного логарифмического (TDL), четырехшагового (FSS), иерархического (MP) поиска.

В ходе анализа результатов, представленных на рисунках 2 и 3, было выявлено, что единственный подход, сравнимый по качеству с FS, но снижающий его вычислительную сложность алгоритм иерархического поиска.

 хема отбора блоков по-4

Рисунок 1 Схема отбора блоков по алгоритму MPO

При этом в алгоритме MPO поиск вектора движения для каждого блока не зависит от результатов поиска на более ранних итерациях алгоритма, что делает разработанный алгоритм наиболее эффективным для сложных траекторий движения.

В целях сокращения передаваемой информации о движении, было выработано требование объединения блоков в соответствии с выбранным критерием принадлежности локальной области. При этом рассматриваются два случая, приводящих к снижению качества: потеря областей малого движения и небольшое количество пикселов для блоков малого размера. Для первого случая выбрано ограничение размеров блока до 64х64 пиксела, а для второго случая предложено разделение сравниваемых блоков по различным их типам.

 а б начения количества базовых-5 а б начения количества базовых-6

а б

Рисунок 2 Значения количества базовых операций (N) для ряда кадров последовательности «Береговая охрана» для перечня рассматриваемых алгоритмов: (а) TSS; TDL; FSS; OTA;OSA; (б) FS; MP; MPO

 начения PSNR для тестовых-15

Рисунок 3 Значения PSNR для тестовых последовательностей: «Дети»; «Погода»; «Береговая охрана»;«Акийо»; «Телефон в машине»

Для сокращения передаваемой информации о движении, как комбинация блочного и объектного подхода, были проанализированы следующие алгоритмы разделения блоков:

  1. разделение по направлению движения в соответствии с алгоритмом (VJ – Vectors Joint based), который выполняется в три этапа:
  • сортировка векторов движения по принципу увеличения параметров движения;
  • разделение векторов движения в соответствие с допустимым уровнем отклонения параметров движения на группы;
  • выравнивание поля векторов за счет значений векторов локальной окрестности.
  1. разработанный алгоритм разделения в соответствии с маской классификации по мажоритарному признаку (PoI Points of Interest based). При этом маска формируется в соответствии с этапами, приведенными на рисунке 4.

Выбор алгоритма выделения опорных точек основан на исследовании следующих алгоритмов: алгоритм ADC (Absolute Difference Criteria), алгоритм Харриса, а также алгоритм SIFT (Scale Invariant Feature Transform). По результатам проведенного анализа алгоритм SIFT с размером ядра Гаусса 5x5 был выбран в качестве основы для расчета маски классификации.

 оследовательность этапов-21

Рисунок 4 Последовательность этапов алгоритма PoI



Pages:   || 2 |
 

Похожие работы:







 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.