авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 |

Развитие метода точной массово-временной метки и его практическое применение при исследовании протеомов

-- [ Страница 1 ] --

на правах рукописи

АВТОНОМОВ ДМИТРИЙ МИХАЙЛОВИЧ

Развитие метода точной массово-временной метки и его практическое применение при исследовании протеомов

01.04.17 – химическая физика, горение и взрыв, физика экстремальных состояний вещества

автореферат диссертации на соискание ученой степени

кандидата физико-математических наук

Москва 2011

Работа выполнена в Учреждении Российской академии наук Институте энергетических проблем химической физики РАН

Научный руководитель:

доктор физико-математических наук, профессор

Николаев Евгений Николаевич

Официальные оппоненты:

доктор физико-математических наук

Горшков Александр Владимирович

доктор биологических наук, кандидат физико-математических наук, профессор

Поройков Владимир Васильевич

Ведущая организация:

Учреждение Российской академии наук Институт химической физики им. Н.Н. Семенова РАН

Защита состоится « 21 » сентября 2011г. В 11 час. 00 мин. на заседании диссертационного совета Д 002.112.01 при Институте энергетических проблем химической физики Российской академии наук по адресу: 119334, г. Москва, Ленинский проспект, д. 38, корп.2, ИНЭП ХФ РАН.

С диссертацией можно ознакомиться в библиотеке Института химической физики им. Н.Н. Семенова Российской академии наук.

Автореферат разослан « 19 » августа 2011 г.

Ученый секретарь

диссертационного совета Д 002.112.01

кандидат физико-математических наук Ларичев М.Н.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Введение. Актуальность работы

Современная масс-спектрометрия это мощный физический метод исследования, позволяющий не просто измерять массы, но также исследовать структуру вещества, благодаря чему она нашла широкое применение в биологических и медицинских исследования, в частности в таком их направлении, как протеомика, занимающемся изучением структуры и функций белков, их взаимодействием в живых организмах. Если раньше на идентификацию одного белка могли уходить дни и недели, то с приходом высокопроизводительных методик анализа при помощи масс-спектрометрии, исследователи получили возможность обнаруживать сотни белков за несколько часов. Это стало возможным не только благодаря успехам масс-спектрометрии, но и во многом благодаря успешной реализации проектов по расшифровке геномов различных организмов, в том числе и человека. В протеомике масс-спектрометрия выполняет следующие задачи: 1) высокоточное измерение отношений масс к заряду целых белков и пептидов, 2) измерение масс-спектров фрагментации белков и пептидов.

Высокая точности измерения масс достигается за счет того, что измеряемой величиной является частота (частота колебаний ионов в ловушках типа Кингдона (Orbitrap) и циклотронных частот в масс-спектрометрах ионного циклотронного резонанса с преобразованием Фурье). Фрагментация производится различными физическими методами:

  • столкновительная диссоциация - фрагментация путем столкновения с молекулами остаточного газа
  • многофотонная инфракрасная диссоциация – фрагментация молекул при поглощении длинноволнового излучения
  • диссоциация путем передачи электрона – разрыв связи осуществляется при передаче электрона иона донора с выделением энергии
  • диссоциация при захвате медленных электронов

Атомный состав молекул с массами до 500 Дальтон можно определить, как правило, путем точного измерения их масс с помощью масс-спектрометра. Разнообразие белков в организмах не позволяет однозначно идентифицировать любой белок лишь по его измеренной массе, даже если геном организма известен и известен набор белков, которые могут экспрессироваться, это сопряжено с целым рядом проблем. Во-первых, само по себе измерение масс таких тяжелых молекул, как целые белки, с высокой точностью является непростой задачей, а с понижением точности падает вероятность однозначной идентификации белка. Во-вторых, белки – это последовательности аминокислотных остатков и в них велика вероятность одиночных замен в этих последовательностях, что, в свою очередь, меняет массу всего белка. В самой распространенной методике идентификации белков в протеомике – по восходящей (bottom up), их предварительно гидролизуют (“разрезают” на куски) каким-либо ферментом, как правило, сайт специфичным (разрывающим связи лишь в определенных местах молекулы, например, между определенными аминокислотами), получая пептиды, смесь которых затем разделяют на жидкостном хроматографе и измеряют массы продуктов хроматографии при помощи масс-спектрометра. При обнаружении сигнала в масс-спектре, соответствующий ион изолируют, фрагментируют, измеряют масс-спектр фрагментов, который затем сравнивают с теоретическими масс-спектрами всех возможных пептидов белков из белковых баз данных (с учетом сайт-специфичности использованного фермента) для исследуемого организма. Основная цель, в данном случае, идентификация пептидов. Имея набор идентифицированных пептидов можно с некоторой вероятностью установить, каким белкам мог принадлежать данный набор. Но на стадии изоляции и фрагментации пептидов в масс-спектрометре может теряться значительная часть ионов, что ведет к ухудшению измеряемых спектров (или просто к недостаточности количества ионов для проведения фрагментации, в принципе), так как часть малоинтенсивных ионов может теряться в шуме. На измерение спектров фрагментации тратится дополнительное время, из-за чего некоторые пики могут быть пропущены, так как пептиды, присутствующие в смеси в малых количествах могут смываться с хроматографической колонки в течение нескольких секунд.

В протеомных исследованиях (связанных с идентификацией или обнаружением большого количества белков) среди прочих применяется подход точной массово-временной метки. При его использовании шаг фрагментации ионов пептидов пропускается (что дает повышение чувствительности, так как нет дополнительных потерь ионов при проведении шага измерения спектров фрагментации), измеряются лишь их точные массы (зависящие лишь от физических параметров молекулы) и времена удержания в хроматографической колонке (также называемые временами элюирования или временами выхода из колонки), которые зависят от множества физико-химических свойств пептида и могут считаться постоянными при заданных хроматографических условиях (составе неподвижной фазы и элюента, температуре, pH и т.д.). Время – это дополнительное измерение, которое позволяет убрать неоднозначность при идентификации пептида. Имеется ряд ограничений, создающих трудности на пути более широкого распространения и применения данного метода.

При его использовании сначала составляется база данных, содержащая массы и времена удержания пептидов в хроматографической колонке, затем, при исследовании протеома интересующего образца, с ним проводят хромато-масс-спектрометрический эксперимент, в ходе которого измеряются массы и времена, которые затем сопоставляются с записями в заранее созданной базе данных. Одной из трудностей является сопоставление времен удержания пептидов, так как отсутствуют реперные точки, по которым мы могли бы связать времена в базе с временами в эксперименте, а временные шкалы могут сильно отличаться, если эксперименты по созданию базы и по последующему исследованию протеома проводились в различных хроматографических условиях. В диссертации предложен метод по нахождению таких реперных точек без использования каких-либо внешних калибрантов, не вносящий необходимость проведения каких-либо дополнительных экспериментов. Также предложена новая методика позволяющая идентифицировать элементный состав ионов, изотопные кластеры которых были обнаружены в ходе проведения эксперимента, что, как было также показано, позволяет повысить уровень идентификации пептидов в белковых базах данных, даже если элементный состав определен с некоторой ошибкой, при условии высокой точности измерения масс.

Цель работы

Первоочередной целью настоящей работы является решение проблемы сопоставления хроматографических времен удержания пептидов, занесенных в базу данных точных массово-временных меток, с временами, получаемыми в экспериментах по протеомному скринингу. Также ставилась задача улучшения алгоритмов определения точной моноизотопной массы и элементного состава молекул по их масс-спектрам высокого и сверхвысокого разрешения. Требовалось создание с применением развитых методов базы точных массово-временных меток для протеома физиологических жидкостей человека, по которой можно осуществлять белковый скрининг.

Научная новизна работы

Разработана и запатентована новая методика надежного выравнивания хроматограмм, позволяющая нормировать времена даже при малом количестве доступных точек. Методика устойчива к шуму - большому количеству совпадающих по массам, но химически различных, ионов в нормируемых хроматограммах.

Предложен и обоснован метод расчета изотопных распределений молекул для случаев, когда количество атомов не является целым числом (например, становится возможным расчет интенсивности пиков изотопного кластера реально не существующей молекулы С12.3S25.5), что позволяет, например, использовать существующие методы расчета изотопных кластеров в алгоритмах оптимизации, требующих непрерывных функций. Данный метод был применен для создания алгоритма деизотопирования масс-спектров и определения элементного состава обнаруженных в нём изотопных кластеров.

В ходе работы была создана уникальная база данных для протеома мочи здоровых людей, а также пакет программного обеспечения, позволяющий хранить содержащуюся в базе информацию эффективным образом, производить по ней поиск и сравнительный анализ.

Практическая значимость работы

Новая методика нормировки хроматограмм может быть применена во всех случаях, когда полная хроматограмма недоступна (например, данные из статьи в журнале, или опубликованные списки белков и пептидов, обнаруженных разными исследовательскими группами). Также преимуществом является отсутствие привязки к какой-либо конкретной функции нормировки - может быть выбрана любая монотонная функция.

Определение элементного состава иона позволяет лишь по массе и даже неточно определенному составу однозначно идентифицировать значительное количество пептидов даже в сложных организмах с большим протеомом (сравнимым по размеру с человеческим). Определение формы изотопного распределения для нецелого числа атомов позволяет применять существующие методы расчета изотопных распределений в новом круге задач.

Созданная база данных точных массово-временных меток мочи здоровых людей и может быть использована для высокопроизводительного анализа протеома мочи человека.

На защиту выносятся:

  • метод фильтрации данных для надежного выравнивания хромаотограмм
  • методика расчета интенсивностей пиков изотопных распределений виртуальных молекул, содержащих нецелочисленное количество атомов
  • база точных массово-временных меток протеома мочи человека

Личный вклад автора

Автор является создателем программного пакета, позволяющего хранить и использовать созданную базу точных массово-временных меток. База точных массово-временных меток мочи человека создавалась при непосредственном участии автора в проведении спектрометрических экспериментов, обработке и анализе хромато-масс-спектрограмм совместно с И.А. Агроном (ИБХФ РАН, Москва), А.С. Кононихиным (ИНЭП ХФ РАН, Москва) и И.А. Поповым (ИНЭП ХФ РАН, Москва). Пробоподготовка для данных экспериментов осуществлялась совместно с С.А. Мошковским (ГУ НИИ БМХ РАМН, Москва). Методика нормировки хроматограмм разработана лично автором. Методика вычисления формы изотопных кластеров в случае нецелого числа атомов разработана совместно с А.Роквудом (ARUP Lab, Salt Lake City, Utah, USA) и И.А. Болдиным (ИНЭП ХФ РАН, Москва).

Апробация работы

Результаты работы докладывались на следующих Российских и международных конференциях: 58-ая ежегодная конференция американского масс-спектрометрического общества «масс-спектрометрия и смежные темы» в Солт Лейк Сити, США, 23-27 мая 2010; Четвертая Всероссийская конференция «Фундаментальные вопросы масс-спектрометрии и ее аналитические применения», Звенигород, Россия, 10 -14 октября 2010; 8-ая международная конференция организации “Протеом Человека” (HUPO) в Торонто, Канада, 26-30 сентября 2009; 57-ая ежегодная конференция американского масс-спектрометрического общества «масс-спектрометрия и смежные темы» в Филадельфии, США, июнь 2009.





Публикации

По материалам диссертации опубликовано 4 статьи в рецензируемых журналах и 11 тезисов конференций.

Структура и объем диссертации

Работа изложена на 107 страницах, содержит 27 рисунков, 4 таблицы. Диссертация состоит из введения, четырех глав, выводов, списка цитируемой литературы из 101 наименования и пяти приложений.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

В первой главе содержится литературный обзор, в котором описываются распространенные на данный момент подходы к идентификации белков при помощи масс-спектрометрии, приводится изложение сути метода точных массово-временных меток (АМТ меток). Выделяются и описываются сложности, возникающие при реализации данного метода.

В современной протеомике с применением масс-спектрометрии имеется 5 основных способов идентификации пептидов:

  1. Секвенирование de novo
  2. Top-down подход
  3. Bottom-up подход
  4. Peptide Mass Fingerprint (PMF)
  5. Подход точных массово-временных меток (АМТ)

Все они, за исключением последних двух, имеют в своей основе использование тандемной масс-спектрометрии (МС/МС). Тандемным называют масс-спектрометр, имеющий два масс-анализатора. Первый масс-анализатор измеряет спектры молекулярных ионов. Покидая первый масс-анализатор, молекулярные ионы фрагментируются под действием соударений с молекулами инертного газа или излучения лазера, после чего спектры их фрагментов измеряются вторым масс-анализатором. Применение такой методики является недостатком в определенных типах исследований, из-за дополнительных потерь ионов и времени, требуемого на измерение спектров фрагментации, например, когда требуется высокая скорость анализа либо когда количество исследуемого вещества очень мало.

Peptide mass fingerprint (PMF) – был разработан одним из первых и похож на подход Bottom-up, только в нём отсутствует шаг измерения спектров фрагментации пептидов. Белки гидролизуют, полученные пептиды разделяют на хроматографе и измеряют спектры продуктов хроматографии в реальном времени. Но массы пептидов, будучи измеренными даже с высокой точностью, не обладают достаточной уникальностью для идентификации таким способом белков, когда их количество в исходной смеси велико, метод применяют, когда требуется идентификация предварительно выделенного белка или небольшого набора белков.

Метод точных массово-временных меток – логическое продолжение методики Peptide mass fingerprint, позволяющее расширить границы её применимости. Изначальной проблемой метода PMF является неуникальность масс пептидов, но добавление еще одного измерения - времени удержания пептида в хроматографической колонке, делает идентификацию, как правило, однозначной. Но в имеющихся на данный момент белковых базах данных не содержится такого параметра как время, в них записаны аминокислотные последовательности, по которым можно рассчитать массу. Поэтому требуется создание баз данных на основе хромато-масс-спектрометрических экспериментов, в которых каждому сиквенсу сопоставлялось бы экспериментально измеренное хроматографическое время.

Рис. 1. Схема процедуры идентификации белков в смесях с применением Bottom-up подхода в протеомике.

Создание такой базы данных для протеома мочи человека было проведено в диссертации (далее в тексте упоминается также как просто “база”). Таким образом, применение метода точных массово-временных меток разделяется на два этапа: создание базы данных и её использование при последующем поиске (см. Рис. 1). Когда такая новая база данных создана, возникают следующие вопросы:

  1. Как привести времена, записанные в базе данных для одной и той же аминокислотной последовательности, обнаруженной в разных экспериментах, к единому масштабу? (нормировка времен в базе данных)
  2. При поиске по такой базе данных, как сравнить времена из эксперимента с временами в базе? (нормировка времен при поиске) Так как масштабы времен могут не совпадать.
  3. Как выбрать критерии совпадения массы и времени из эксперимента с массой и временем в базе данных? (поиск по базе данных)

Ответам на которые посвящены последующие главы.

Во второй главе описывается структура созданной базы данных, предложенный метод нормировки хроматографических времен в ней и метод фильтрации данных, позволяющий выбрать опорные точки для нормировки времен из проведенного эксперимента к временам, хранящимся в базе данных. Также описана схема проведения поиска по вышеупомянутой базе.

Так как создаваемая база данных призвана содержать информацию о протеомах сложных объектов, объем данных может быть огромен. Важно эффективное хранение информации в компактном виде, но при этом без потери данных, и с сохранением возможности быстрого доступа, для проведения поиска по ней. В качестве основы была выбрана реляционная Система Управления Базами Данных (СУБД) MySQL версии 5, с открытым исходным кодом и распространяемая свободно под лицензией GNU GPL (General Public License). Общая структура данных и схема использования базы данных представлена на рисунке 2.

Рис. 2. Схематичное представление структуры хранения данных в базе АМТ и её применения для поиска белков.

Нормировка времен хроматографического удержания в базе данных, производится одновременно для всех экспериментов, находящихся в ней. То есть при добавлении нового эксперимента будет проведена перекалибровка нормировочных коэффициентов для всех экспериментов. Проведенные тесты показали, что при проведении экспериментов на одной и той же хроматографической системе но при разных хроматографических условиях, мы наблюдаем лишь изменение масштаба шкалы времен (например, при изменении скорости потока мобильной фазы) и сдвиг этой шкалы. Поэтому для нормировки времен, хранящихся в базе данных, было выбрано простое линейное уравнение. Нормировка производится методом наименьших квадратов. Нам известно, какие пептиды должны совпадать по времени во всех экспериментах, так как мы знаем их аминокислотные последовательности (на этапе создании базы мы идентифицируем все пептиды при помощи белковых баз данных).



Pages:   || 2 |
 

Похожие работы:










 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.