авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:   || 2 | 3 |

Алгоритмическое и программное обеспечение региональной системы контекстной рекламы в среде интернет

-- [ Страница 1 ] --

На правах рукописи

Силич Василий Викторович

Алгоритмическое и программное обеспечение

региональной системы контекстной рекламы

в среде Интернет

Специальность 05.13.11 – Математическое и программное обеспечение

вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Томск – 2008

Работа выполнена в Томском государственном университете систем управления и радиоэлектроники (ТУСУР)

Научный руководитель: доктор технических наук, профессор

Ехлаков Юрий Поликарпович

Официальные оппоненты: доктор технических наук, профессор

Цапко Геннадий Павлович

доктор технических наук, профессор

Тарасенко Владимир Феликсович

Ведущая организация: Иркутский государственный технический

университет, г. Иркутск.

Защита состоится «24» декабря 2008 г. в 14.30 на заседании совета по защите докторских и кандидатских диссертаций Д 212.269.06 при Томском политехническом университете по адресу: 634034, г. Томск, ул. Советская, 84.

С диссертацией можно ознакомиться в библиотеке Томского политехнического университета

Автореферат разослан «19» ноября 2008 г.

Ученый секретарь

совета по защите докторских

и кандидатских диссертаций

к.т.н., доцент М.А. Сонькин

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Системы контекстной рекламы (СКР) в настоящее время широко используются как в зарубежном, так и в российском сегментах Интернета. Свою популярность они заработали за счёт того, что позволяют эффективно продвигать рекламодателю сайты в Интернете даже при сравнительно небольшом бюджете. При этом рекламодатель получает гарантированное количество целевых посетителей на свой сайт, а владельцы сайтов и поисковых систем, на которых размещены рекламные объявления – стабильный доход. Для пользователя СКР является источником дополнительной информации, соответствующей контексту просматриваемой им страницы.

Системы контекстной рекламы, как правило, создаются при поисковых системах ввиду их широкой аудитории, наличию явно сформулированного интереса пользователя, выраженного в поисковом запросе, высокому уровню доверия к поисковым системам. При этом СКР интегрируются не только с крупными Интернет-порталами, но и с региональными поисковыми системами (РПС), причем рекламодатели в большинстве случаев заинтересованы именно в последних, т.к. их целевой аудиторией являются преимущественно региональные посетители. Пользователи, в свою очередь, также все больше предпочитают РПС по той причине, что они позволяют искать информацию, актуальную именно для данного региона. В пользу ограничения поиска только региональными ресурсами выступает и наличие в ряде регионов бесплатного доступа к ним. Таким образом, создание системы контекстной рекламы, интегрированной с региональной поисковой системой, является актуальной задачей.

При организации систем контекстной рекламы разработчики используют методы, относящиеся к таким областям, как информационный поиск (Information Retrieval), машинное обучение (Machine Learning), интеллектуальный анализ текстов (Text Mining) и извлечение знаний из Internet (Web mining). Основными задачами при проектировании СКР являются: выбор рекламных объявлений, соответствующих контексту действий пользователя; выделение ключевых фраз из текстов страниц; рекомендация и сравнение ключевых фраз. При решении этих задач, как правило, применяются подходы, основанные на различных обучающих (Murdock V., Zhang W. и др.) и классификационных (Broder A., Josifovski V., Anagnostopoulos A. и др.) алгоритмах. Помимо этого широко распространены методы байесовской сети (Ribeiro-Neto B., Cristo M., Golgher P. и др.), генетического программирования (Lacerda A., Cristo M., Ribeiro-Neto B. и др.), а также метод анализа текстов TF-IDF (Baeza-Yates R., Ribeiro-Neto B., Yih W., Goodman J. и др.). Необходимо отметить, что отечественных разработок, посвященных организации СКР, крайне мало, однако ведутся исследования в смежных областях, таких как информационный поиск и компьютерная лингвистика. Наиболее авторитетными источниками информации в данных областях являются материалы международных конференций ДИАЛОГ и РОМИП.

Использование существующих методов применительно к развивающимся региональным СКР зачастую вызывает трудности. Дело в том, что большинство подходов основывается на различных видах статистического анализа и машинного обучения. При этом необходимо предварительно обучить модель на некотором объёме исходных данных. Такие обучающие выборки отсутствуют как таковые в открытом доступе, поэтому эти данные необходимо накапливать в самой системе контекстной рекламы или поисковой системе. А поскольку на этапе разработки и в первое время существования СКР статистических данных в необходимых объёмах просто нет, то соответственно эффективность применения упомянутых методов крайне мала.

Ряд методов основан на принципах полного перебора: каждое объявление сравнивается с содержанием страницы или поисковым запросом. Учитывая, что количество объявлений может достигать тысяч, а запросов и текстов страниц – сотен тысяч, использование подобных методов в режиме реального времени невозможно из-за высоких требований к вычислительным мощностям.

Одним из наиболее важных является вопрос о том, какие факторы и с какой степенью должны учитываться при выборе и ранжировании объявлений. Подавляющее большинство систем контекстной рекламы при выборе руководствуется, прежде всего, стоимостью объявлений, стремясь показать наиболее дорогие объявления. При этом такие факторы, как интересы пользователя или, например, степень соответствия ключевых фраз объявления контексту страницы играют второстепенную роль либо не учитываются вовсе. В условиях большого количества пользователей и рекламных объявлений такой подход вполне оправдан, однако он оказывается не эффективным для развивающихся региональных СКР, конкуренция рекламодателей в которых мала, а количество пользователей невелико. Дело в том, что прибыль зависит не только от ставки за переход по объявлению, но и от количества переходов, а значит, от релевантности показываемых объявлений. Таким образом, более перспективным для региональной СКР представляется подход, ориентированный на выбор рекламных объявлений, наиболее релевантных интересам пользователей. При этом предлагается учитывать множество различных факторов, характеризующих как интересы пользователей и контекст страницы, так и само объявление. Вопросы одновременного использования в рамках систем контекстной рекламы нескольких факторов, влияющих на ранжирование объявлений, недостаточно проработаны в научных исследованиях.

Ввиду отсутствия точных количественных оценок релевантности1 рекламных объявлений представляется целесообразным при их выборе и ранжировании использовать аппарат нечетких множеств. При этом определение степени релевантности объявлений как по отдельным факторам, так и по их совокупности не должно опираться на методы обработки больших объемов статистических данных и машинного обучения, а также на методы полного перебора.

Цель работы. Разработка алгоритмов и программных средств организации системы контекстной рекламы, интегрированной с региональной поисковой системой, обеспечивающих высокую релевантность рекламных объявлений информационным потребностям пользователя.

Задачи для достижения поставленной цели

  1. Анализ и сравнение существующих систем контекстной рекламы, а также методов их организации.
  2. Разработка алгоритмов, не использующих большой объём накопленных данных, для выбора релевантных объявлений по отдельным факторам (поисковому запросу; тегам, характеризующим страницу; навигационной истории и истории поисковых запросов пользователя; качеству и эффективности объявлений) и по совокупности факторов, а также алгоритма выделения тегов из текста страницы.
  3. Проведение экспериментальных исследований разработанных алгоритмов.
  4. Создание программного комплекса, реализующего разработанные алгоритмы, включающего СКР и региональную поисковую систему.

Методы исследования. В ходе диссертационного исследования были использованы модели и методы теории нечетких множеств, статистического и морфологического анализа, а также методы, относящиеся к областям знаний Information Retrieval, Text Mining и Web Mining. При реализации программного комплекса был применён ряд методов объектно-ориентированного проектирования и программирования.

Научная новизна

1. Впервые предложен алгоритм выбора рекламных объявлений, основанный на формировании нечеткого множества релевантных объявлений по множеству факторов, характеризующих как сами рекламные объявления и контекст страницы, так и личные предпочтения пользователей.

2. Разработан новый алгоритм выбора рекламных объявлений в соответствии с поисковым запросом пользователя, позволяющий учитывать как степень совпадения, так и порядок слов запроса и ключевой фразы объявления с использованием коэффициента Джаккарда и наибольшей общей подпоследовательности фраз.

3. Предложен новый алгоритм выбора рекламных объявлений по тегам текущей страницы, учитывающий релевантность тегов по отношению к тексту страницы и степень их совпадения с ключевыми фразами объявлений. Для выделения тегов из текстов страниц и определения их релевантности разработан алгоритм, модифицирующий метод «ко-появлений» для выделения термов.

4. Разработаны новые алгоритмы выбора рекламных объявлений в соответствии с поисковой и навигационной историями пользователя. Первый учитывает не только степень релевантности ключевых фраз объявления наиболее популярным поисковым запросам пользователя, но и частоту встречаемости запросов в истории, второй – частоту встречаемости категорий, к которым принадлежит сайт объявления, в истории посещенных пользователем сайтов.

5. Предложены новые алгоритмы выбора объявлений в соответствии с их эффективностью и качеством. Первый, основанный на расчете показателя CTR (Click-Through Rate), отличается тем, что учитывает лишь «гарантированные» просмотры объявления пользователями. Второй, основанный на расчете показателя качества объявления, учитывает не только количество значимых слов объявления, находящихся в тексте целевой страницы, но и их наличие в различных html-тегах.

Основные положения, выносимые на защиту

1. Разработанные алгоритмы выбора релевантных рекламных объявлений, позволяющие учитывать контекст страницы, характеризуемый текущим поисковым запросом или тегами страницы, прошлые интересы пользователя, характеризуемые поисковой и навигационной историями пользователя, а также характеристики объявлений.

2. Результаты экспериментов, показавшие превосходство разработанных алгоритмов по сравнению с аналогами, а также высокую степень соответствия результатов их работы оценкам экспертов.

3. Созданная система «Поисколог», реализующая предложенные алгоритмы, позволяющая пользователям осуществлять различные виды поиска по региональным ресурсам и получать в качестве дополнительной релевантной информации рекламные объявления, а рекламодателям – создавать и настраивать объявления.

Степень достоверности результатов работы. Достоверность результатов работы обеспечивается корректным применением методов рассматриваемой предметной области и теории нечетких множеств, согласованностью сформулированных выводов с результатами экспериментов. Кроме того, достоверность подтверждается внедрением разработанных алгоритмов в рамках системы контекстной рекламы, интегрированной с региональной поисковой системой.

Теоретическая значимость работы. Предложенные автором алгоритмы, базирующиеся на аппарате нечетких множеств, развивают существующие подходы к организации систем контекстной рекламы в направлении обеспечения высокого уровня релевантности объявлений информационным потребностям пользователей. Разработанные алгоритмы выделения тегов, сравнения запросов и ключевых фраз, сопоставления текстов объявлений и целевых страниц вносят вклад в развитие методов информационного поиска и анализа текста.

Реализация результатов работы. Разработанные алгоритмы использованы при создании СКР в рамках интегрированной системы «Поисколог» (свидетельство о регистрации в "Отраслевом фонде алгоритмов и программ" №10058 от 21.02.2008г. Номер госрегистрации №50200800460 от 28.02.2008 г.).

Практическая значимость работы. Разработанная в рамках диссертационной работы интегрированная поисковая система «Поисколог» используется для поиска информации в томском сегменте Интернета. С помощью данной системы возможен поиск как текстовой, так и мультимедиа-информации. Использование технологии разделения поиска на отдельные вертикали позволяет пользователям производить поиск необходимой информации лишь в интересующей их области, не просматривая множество нерелевантных результатов других тематик.

Разработанная СКР, интегрированная с поисковой системой, позволяет рекламодателям продвигать свои сайты посредством показа объявлений в результатах поиска и на информационных страницах ПС. При этом рекламные объявления, показываемые пользователю, максимально соответствуют контексту страницы и его личным предпочтениям. Кроме того, созданная технология даёт возможность использовать СКР в отрыве от поисковой системы для показа рекламных объявлений на сторонних сайтах.

Практическая ценность работы подтверждается актами внедрения в ряде коммерческих фирм г. Томска.

Личный вклад автора. Все результаты, составляющие основное содержание диссертации, получены автором самостоятельно.

Апробация работы. Основные результаты диссертационной работы докладывались на следующих конференциях: всероссийской конференции студентов, аспирантов и молодых ученых «Энергия молодых – экономике России» (Томск, 2003); всероссийских научно-технических конференциях аспирантов и молодых ученых «Научная сессия ТУСУР» (Томск, 2004, 2005, 2006, 2007); всероссийских научно-технических конференциях студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (Томск, 2004, 2006, 2007); международных научно-практических конференциях «Средства и системы автоматизации» (Томск, 2004, 2007); международной научно-практической конференции «Современные техника и технологии» (Томск, 2006).

Публикации. По теме диссертационной работы опубликовано 15 научных работ, в том числе 4 статьи (все в изданиях, рекомендованных ВАК для опубликования результатов диссертаций). Список публикаций приведен в конце автореферата.

Структура и объем работы. Диссертационная работа включает: введение, четыре главы, заключение, список литературы из 198 наименований, 7 приложений. Общий объем диссертации составляет 244 страницы машинописного текста. Работа содержит 40 рисунков, 18 таблиц.

Основное содержание работы

Во введении обосновывается актуальность работы, приводятся цель, основные положения, выносимые на защиту, задачи и методы исследования, формулируется научная новизна, теоретическая и практическая значимость полученных результатов, приводятся результаты внедрения, а также сведения о публикациях, апробации работы, объеме и структуре диссертации.

Первая глава посвящена сравнению контекстной рекламы с другими видами продвижения, а также обзору современных СКР и методов их организации.

В настоящее время системы контекстной рекламы являются одним из наиболее эффективных средств продвижения сайта в Интернете на всех стадиях его существования. Этот единственный способ, который, в отличие от других видов рекламы, может дать сайту в сжатые сроки гарантированную и при этом целевую аудиторию. Именно по этой причине контекстная реклама уверенно лидирует среди баннерной, e-mail и прочих видов рекламы.

Проведенный анализ как мирового, так и российского рынка контекстной рекламы показал, что, несмотря на ее высокую удельную долю в общем объёме Интернет-рекламы, в данном сегменте существует всего лишь несколько крупных игроков, занимающих более 95% рынка. Лидирующие позиции занимают компании, имеющие в распоряжении крупные поисковые системы и предоставляющие наиболее инновационные на сегодняшний момент достижения в области функциональности и интерфейса системы.

На основе анализа лидирующих СКР был сформирован набор ключевых факторов, используемых ими для подбора объявлений. Большинство систем в качестве основного используют фактор стоимости перехода по объявлению (ставку), а также широко используется значение CTR объявления. Факторы, основанные на качестве целевой страницы и объявления, имеют совсем небольшой вес при вычислении релевантности объявлений и используются, как правило, лишь для новых объявлений, CTR которых ещё не определен или нестабилен. При выборе по фактору соответствия ключевых фраз объявления поисковому запросу никак не учитывается количество совпавших слов, их порядок и словоформы. При вычислении качества целевой страницы не учитывается различная важность слов, которая зависит от их нахождения в заголовке или тексте объявления и от их местоположения в различных html-тегах целевой страницы. Также недостаточное распространение имеют поведенческие технологии, особенно учитывающие историю посещенных пользователем сайтов.

Был проведен обзор методов, используемых для решения таких задач, как максимизация прибыли СКР, выбор релевантных объявлений, организация таргетинга, выделение и рекомендация ключевых слов и др. Анализ методов показывает, что наибольшее внимание исследователей уделяется, как правило, вопросам максимизации прибыли системы при сохранении должного уровня релевантности рекламных объявлений. Большая часть используемых методов основывается на принципах машинного обучения или статистической обработки больших объёмов накопленной информации.

Во второй главе предлагается новый подход к организации системы контекстной рекламы, интегрированной с РПС, включающий ряд новых алгоритмов.

Региональная поисковая система представляет собой набор поисковых модулей, каждый из которых осуществляет поиск в определенных источниках или по определённому типу информации. В качестве региона, сайты которого будут донорами информации, в данной работе рассматривается Томск и Томская область. Основными модулями поиска являются (рис. 1): «Мета-поиск по Web», «Поиск по новостям», «Поиск по каталогу сайтов», а также модули поиска по различным видам мультимедиа-информации.



Pages:   || 2 | 3 |
 





 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.