Сравнительно-геномный анализ и реконструкция

Сравнительно-геномный анализ и реконструкция метаболических
регулонов для транскрипционных факторов из семейства LacI
Матвей Хорошкин1, Дмитрий Андреевич Равчеев2,
Дмитрий Александрович Родионов2
1
Биологический факультет МГУ, 119234, Москва,
Ленинские горы, д. 1, стр. 12,.
2
Институт Проблем Передачи Информации им. А.А.
Харкевича РАН, 127994, Москва.
[email protected]
[email protected]
[email protected]
Аннотация
аллостерической регуляции и химической
модификации белков). Экспрессия генов может
регулироваться как на уровне транскрипции, так
и на уровне трансляции. При этом транскрипция
генов, как правило, регулируется на стадии
инициации. Поэтому в регуляции транскрипции
может участвовать либо непосредственно
комплекс РНК-полимеразы, либо специальные
белки,
называемые
транскрипционными
факторами. Изучение регуляторных систем
бактерий имеет важное научное значение,
поскольку именно они позволяют бактериям
эффективно использовать свой набор генов
сообразно с потребностями организма.
Традиционно регуляция экспрессии генов
бактерий
изучалась
экспериментальными
методами. Первоначально эти методы были
направлены на анализ экспрессии единичных
генов. В качестве примера можно привести такие
методы, как направленный мутагенез, метод
изменения электрофоретической подвижности в
геле (Electrophoretic mobility shift assay, EMSA)
или
ДНК-футпринтинг.
Однако
высокая
трудоёмкость и очень низкая производительность
таких
методов
сильно
ограничивают
возможности их применения. Относительно
недавно всё же появились методы с высокой
производительностью, такие, например, как
иммунопреципитация
хроматина
или
использование чипов и микрочипов. Однако и эти
методы не
лишены
своих недостатков:
результаты, полученные с их помощью, имеют
высокий уровень шума; кроме того, упомянутые
методы являются весьма дорогостоящими.
Бурное развитие вычислительной техники в
последние десятилетия дало принципиально
Целью данной работы было изучение регуляции
экспрессии генов регуляторами LacI семейства в
бактериях класса Alphaproteobacteria. Для этого
в геномах 50 бактерий класса Alphaproteobacteria
проводили
полногеномную
метаболическую
реконструкцию регулонов и определение сайтов
связывания транскрипционных факторов из
белкового семейства LacI. Также была проведена
работа по созданию функциональных аннотаций
для новых генов и уточнению аннотаций - для
малоизученных. В ходе работы было изучено 22
регулона, для 15 из них – предсказана функция
контролируемого метаболического пути.
1. Введение
Бактериям необходимо уметь быстро отвечать на
изменения
условий
окружающей
среды.
Доступность тех или иных питательных веществ
может постоянно меняться, и выживаемость в
этом случае будет зависеть от способности
переключать метаболизм с одного субстрата на
другой. Экономичность тоже имеет большое
значение: бактерия, которая в ответ на изменения
окружающей среды использует пути, требующие
больших энергетических затрат, может оказаться
в невыгодном
положении. Бактерия
не
синтезирует ферментов того или иного пути в
отсутствие соответствующего субстрата, но
способна в любой момент начать синтез при его
появлении
[1].
Такая
приспособляемость
обеспечивается
многоуровневой
регуляцией
метаболизма: контролируется как концентрация
метаболических ферментов в клетке (на уровне
экспрессии генов), так и их активность (на уровне
238
новые инструменты для исследования многих
биологических процессов и явлений. Накоплению
больших объёмов данных, доступных для
компьютерного анализа, способствует развитие
техники
секвенирования
генетической
информации.
Если
первая
полная
последовательность бактериального генома была
опубликована в 1995 году (для паразита
Haemophilus influenzae Rd KW20 [2]), то на
начало 2013 года в базе данных KEGG [3]
насчитывается более 2500 полных геномных
последовательностей. Количество известных
геномов растёт экспоненциально. При этом
растёт и количество известных геномов
близкородственных друг другу организмов. Так,
на данный момент известны полные геномные
последовательности более чем 50 штаммов
Escherichia coli.
Поскольку в данной работе изучались
сайты связывания транскрипционных факторов,
будет уместно рассказать о методах их поиска.
Последовательность сайтов, узнаваемых
одним транскрипционным фактором, может
довольно сильно варьировать.
Это делает сложной задачу описания сайтов и
оценки их качества, т.е. сродства к ним
регулятора. Первым найденным решением этой
задачи было применение «консенсусных»
последовательностей для описания выборок
сайтов. Под консенсусом подразумевается такая
последовательность, в которой каждая позиция
представлена буквой нуклеотида, наиболее часто
встречаемого в данной позиции в сайтах выборки.
Точность консенсуса может быть повышена
использованием дополнительных букв: например,
Y – пиримидиновое основание, R – пуриновое
основание, W – A или Т, S – C или G.
Более эффективным способом описания выборки
сайтов
является
построение
позиционной
матрицы весов, или PWM. Данный способ
подразумевает не только учёт вероятности
встречаемости каждого нуклеотида на каждой
позиции, но и оценку консервативности каждой
позиции. Методы, основанные на построении
PWM, используется повсеместно, в т.ч. в таких
популярных программах, как PSI-BLAST [4],
MEME [5], Gibbs sampler [6] и т.д. Удобство этого
метода заключается в том, что качество любого
сайта можно количественно охарактеризовать с
помощью т.н. PWM score [7]. С помощью
статистических методов было показано, что этот
параметр при правильном построении матрицы
может коррелировать со сродством регулятора к
сайту, то есть может использоваться как
количественный показатель сродства [8].
Удобным методом визуализации паттерна
является построение логотипа [9]. Эта форма
графического
изображения,
где
частота
встречаемости нуклеотида в данной позиции
показывается высотой соответствующей буквы.
Для поиска сайтов связывания транскрипционных
факторов
были
созданы
программы,
использующие в качестве распознающих правил
как PWM, так и консенсусы. Первый способ
более популярен, т.к. PWM позволяет более
точно моделировать специфичность регулятора.
Методы, основанные на построении PWM, можно
разделить на 2 группы в зависимости от
используемых алгоритмов. В качестве примеров
из
одной
группы
(используется
метод
максимизации ожидания) можно привести такие
программы, как MEME [5], RegPredict [10], а в
качестве
второй
(используется
алгоритм
вероятностной оптимизации) - AlignACE [11],
Gibbs Sampler [6], SeSiMCMC [12]. Однако при
поиске сайтов в 1 геноме очень труден верный
выбор порога поиска. Кроме того, построение
надёжных обучающих выборок регуляторных
сайтов
ограничивается
отсутствием
экспериментальных данных для большинства
регуляторов. Однако большие возможности при
поиске регуляторных сайтов открывают методы
сравнительной геномики.
Метод проверки соответствия основан на
допущении, что регулоны имеют тенденцию к
консервативности среди геномов, содержащих
ортологичные
транскрипционные
факторы.
Соответственно, наличие консервативных сайтов
перед ортологичными генами указывает на
правильность
этих
сайтов
(т.е.
на
принадлежность к ортологичным регуляторам), а
неконсервативность найденных сайтов указывает
на то, что эти сайты перепредсказаны.
С
помощью
этого
метода
были
успешно
предсказаны и проверены сайты связывания
многих транскрипционных факторов в различных
таксономических группах бактерий и архей [1324]. Основной сложностью этого метода является
выбор исследуемых геномов: если родство между
организмами
слишком
близкое,
то
консервативными могут оказаться не только
функциональные сайты, но и все регуляторные
области генов; если же родство слишком далёкое,
то транскрипционные факторы и их сайты могут
слишком сильно друг от друга отличаться.
Другая
проблема,
с
которой
регулярно
сталкиваются исследователи, заключается в
недостаточности
известных
сайтов
для
построения надёжной выборки. Эту проблему
также
упрощают
методы
сравнительной
геномики. Самым распространенным методом
поиска регуляторных сайтов
без
обучающей
выборки
является
филогенетический футпринтинг. Этот метод
основан на допущении, что функциональные
участки ДНК (в т.ч. – цис-активные) более
консервативны, чем нефункциональные. Метод
состоит в поиске консервативных участков в
239
выравниваниях
регуляторных
областей
ортологичных генов из разных геномов; он
реализован в таких программах, как FootPrinter
[25] и VISTA [26].
Однако возможности
применения данного метода сильно ограничены:
во-первых, для его применения необходимо
достаточно
высокое
сходство
последовательностей
для
построения
множественного выравнивания; во-вторых, метод
неприменим для анализа корегулируемых, но не
ортологичных генов. Кроме того, даже в том
случае, если найден консервативный сайт, не
всегда возможно однозначно установить его
соответствие какому-либо транскрипционному
фактору.
Свою эффективность неоднократно доказали
программы, совмещающие подходы поиска
сайтов с помощью PWM и филогенетический
футпринтинг. В качестве примера можно
привести такие программы, как PhyloGibbs [27] и
PhyME [28].
гликозидазу. Второй оперон содержит, как правило, 5
генов aglEFGAK (у 1 бактерии отсутствует ген aglA).
Гены aglEFGK кодируют субъединицы ABCтранспортера, специфичного к α-гликозидам, что
показано экспериментально [31]. Ген aglE кодирует
субстрат-связывающий домен, aglF и aglG –
трансмембранные домены, а aglK – АТФ-связывающий
домен. aglA кодирует фермент α-гликозидазу. AglR
является типичным примером локального регулятора:
регулон представлен дивергоном, регулируемые гены
кодируют транспортную систему для переноса
метаболита внутрь клетки и метаболические ферменты,
необходимые для преобразования метаболита в одно из
промежуточных веществцентрального метаболизма.
Метаболический путь, контролируемый AglR, отвечает
за утилизацию α-гликозидов: у бактерий порядка
Rhizobiales единственный фермент после транспорта
веществ внутрь клетки расщепляет их до простых
сахаров, в т.ч. глюкозы, а у бактерий порядка
Rhodobacterales присутствует также глюкокиназа,
фосфорилирующая получаемую глюкозу. Кроме того, у
последних в этот метаболический путь могут
включаться и β-гликозиды за счёт наличия в регулоне
β-гликозидазы; однако транспортная система для них
отсутствует.
2. Материалы и методы
3.2. AduR регулон
Поиск ортологичных генов в бактериальных
геномах осуществлялся при помощи сервера
MicrobesOnline [29], а также при помощи
программы BLAST [4]. Для функциональной
аннотации новых генов использовали базы
данных UniProt [30] и KEGG [3]. Для построения
логотипов Logo в качестве графического
описания регуляторных сайтов использовали
программу WebLogo [9].
Распространение: 4 бактерии порядка Rhizobiales.
Регулон состоит из 1 консервативного оперона. В
состав оперона входят гены aduRABCDH и ade (у 1
бактерии ген aduD отсутствует, а гены aduH и ade не
входят в состав регулона). Ген ade кодирует деаминазу
аденина. Ген aduH кодирует гидролазу нуклеозидов
(более точная специфичность неизвестна), а гены
aduABCD кодируют субъединицы ABC-транспортера,
гомологичного
специфичным
к
различным
азотсодержащим производным углеводов, в т.ч. к
нуклеозидам. Совокупность этих фактов, а также факт
корегуляции этих генов позволяет предположить, что
регулон кодирует путь утилизации аденозина, т.е.
транспортер и гидролаза специфичны к аденозину.
Добавляет уверенности тот факт, что у бактерий
порядка Rhizobiales до сих пор не найдена
транспортная система, специфичная к аденозину.
Для конструирования распознающего правила
для палиндромных ДНК-сигналов применялась
программа, реализованная в интернет-сервере
RegPredict [10].
Были использованы полные геномы исследуемых
бактерий, доступные на серверах MicrobesOnline
и RegPredict.
Для определения достоверности найденных
потенциальных сайтов использовали метод
проверки соответствия (см. 1.3.3).
3.3. ThuR регулон
Распространение: 5 бактерий порядка Rhizobiales.
Регулон представляет собой дивергон; первый оперон
состоит из гена регулятора thuR, второй – из генов
thuEFGKAB. Гены thuEFGK кодируют
ABCтранспортер с неизвестной специфичностью, гены
thuAB – неизученные метаболические ферменты. Для
данного регулога мы предполагаем функцию
утилизации трегалозы на основании гомологии генов
thuEFGK с генами изученных транспортеров трегалозы
в различных бактериях, например - Deinococcus
radiodurans [32].
3. Результаты и их обсуждение
3.1. AglR регулон
Распространение: 7 бактерий порядка Rhizobiales, 5
бактерий порядка Rhodobacterales. Регулон состоит из 2
оперонов, образующих дивергон. Оба оперона
высококонсервативны. У бактерий порядка Rhizobiales
первый оперон включает только ген, кодирующий
транскрипционный
фактор
(aglR);
для
Rhodobacterales характерно наличие 2 дополнительных
генов в этом опероне (хотя у отдельных
представителей некоторые гены могут отсутствовать):
glk (кодирует глюкокиназу) и bgl, кодирующий β-
3.4. SocR регулон
Распространение: 3 бактерии порядка Rhizobiales, 1
бактерия порядка Rhodobacterales.
У бактерий порядка Rhizobiales регулон представляет
собой дивергон; помимо гена регулятора (socR),
240
контролируются гены socAB (кодирующие ABCтранспорер,
гомологичный
транспортерам,
специфичным к различным аминокислотам, в т.ч. глутамину), в некоторых организмах – ген socC
(функция неизвестна) и socD, котирующий фруктозиламинокислотную оксидазу. Поскольку именно такой
активностью обладает фермент, расщепляющий
сантофин на фруктозу и глутамин, высока вероятность
того, что эти гены образуют путь утилизации
сантофина, содержащий (в большинстве организмов)
транспортную систему и ферменты, преобразующие
его до фруктозы и глутамина.
У единственной бактерии порядка Rhodobacterales,
у которой был найден этот регулон, количество
входящих в него ферментов значительно больше.
Регулон состоит из генов socLONMEKDQ, из которых
socMNOQ кодируют транспортную ABC-систему, socD
гомологичен таковому у Rhizobiales, функциональные
роли остальных генов пока не ясны.
транспортер (psiABCD), регулируются во всех 4
бактерий, где был найден данный регулятор. Кроме
того, все 4 генома содержат ген psiE, гомологичный
группе
ферментов,
экспериментально
охарактеризованных как 3’-эпимеразы с различной
специфичностью. 2 генома содержат ген psiK,
отдалённо
гомологичный
генам,
кодирующим
фруктокиназы семейства FGGY. В 3-м геноме этот ген
замещён геном frcK, кодирующем фруктокиназу
(высокогомологичную экспериментально изученным),
что подтверждает функцию гена psiK.
Объяснить
особенности
функционирования
продукта гена psiE помог найденный в геноме
Agrobacterium tumefaciens и входящий в состав
регулона паралог этого гена - dpe. Его продукт был
изучен экспериментально [33]. Этот фермент также
функционирует как 3’-эпимераза, т.е. 2 фермента в
клетке данной бактерии работают параллельно. Было
найдено,
что
он
может
осуществлять
взаимопревращения фруктозы и псикозы, а также
тагатозы и сорбозы. Наличие фруктокиназы в
метаболическом пути означает наличие фруктозы в
качестве одного из промежуточных продуктов. Таким
образом, факты указывают на то, что продукты генов
psiE и
dpe преобразуют псикозу во фруктозу.
Обратный процесс маловероятен во-первых потому,
что система утилизации фруктозы у данных бактерий
уже открыта, а существование альтернативной системы
утилизации метаболита нетипично для бактерий; вовторых,
из-за
наличия в
составе
регулона
фруктокиназы и альдолазы (fucA).
Соответственно, мы предполагаем, что регулон
контролирует путь утилизации псикозы. Данные о
бактериях,
способных
утилизировать
псикозу,
отсутствуют. Это связано с тем, что данный сахар
считается редко встречающимся в природе – возможно,
его продуктивные источники ещё будут открыты. В
дальнейшем предполагается провести эксперимент для
проверки нашей гипотезы.
•
RbsR. Распространение: 2 бактерии порядка
Rhizobiales, 1 бактерия порядка Rhodobacterales.
Поскольку регулятор был найден всего в 3
бактериях, трудно судить о консервативности
регулона. В геномах одной из бактерий порядка
Rhizobiales и в бактерии порядка Rhodobacterales
регулон включает 7 генов, из числа которых 3
кодируют ABC-транспортер (rbsABC), 1 – регулятор
(rbsR), а 3 других – метаболические ферменты,
функции которых не вполне ясны (один из ферментов
не контролируется RbsR в геноме бактерии порядка
Rhizobiales).
ABC-транспортер
имеет
высокую
гомологию с экспериментально изученными системами
транспорта рибозы, что позволяет предсказать
транскрипционного
фактора
как
функцию
регулятора утилизации рибозы. Дополнительным
подтверждением этой гипотезы является следующий
факт: в геноме Rhizobium leguminosarum регулон
содержит 3 дополнительных гена, причём один из них
(rbk) кодирует рибокиназу.
3.7. RtlR регулон
3.5. RhiR регулон
Распространение:
1
бактерия
порядка
Rhodobacterales.
В состав регулона входит 6 генов: rtlR (ген
регулятора), rtlABC (кодируют ABC-транспортер,
специфичный к рибитолу), rtlD (кодирует Dрибулокиназу),
rtlK
(кодирует
рибитол-2дегидрогеназу). Поэтому RtlR можно с уверенностью
считать регулятором утилизации рибитола.
Распространение: 4 бактерии порядка Rhizobiales.
Регулон представляет собой консервативный дивергон.
Один оперон, как и в случае большинства дивергонов,
состоит из гена, кодирующего регулятор (rhiR). Другой
оперон составляют гены rhiX (функция неизвестна),
rhiD
(кодирует
гидролазу
ненасыщенных
рамногалактуронидов),
rhiP
(кодирует
полигалактуроназу),
rhiLMN
(кодируют
ABCтранспортер,
специфичный,
по-видимому,
к
рамногалактуронидам). Функции этих генов указывают
на регуляцию пути утилизации рамногалактуронидов,
однако не дают чёткой картины последовательных
реакций этого пути.
3.8. SmoR регулон
Распространение: 4 бактерии порядка Rhizobiales, 6
бактерий порядка Rhodobacterales.
У бактерий порядка Rhodobacterales помимо гена
регулятора (smoR) в дивергон входят гены ABCтранспортера smoEFGK, проявляющего специфичность
к маннитолу и сорбитолу, а также 3 гена
метаболических ферментов (в некоторых геномах
отсутствуют те или иные ферменты): smoS (кодирует
дегидрогеназу
сорбитола),
mtlK
(кодирует
дегидрогеназу
маннитола)
и
mtlZ
(кодирует
фруктокиназу). Таким образом, такой набор генов
позволяет транспортировать маннитол и сорбитол в
клетку, превращать их во фруктозу и далее – в
фруктозо-6-фосфат. Предполагаемая функция регулога
– утилизация маннитола и сорбитола.
3.6. PsiR регулон
Распространение: 4 бактерии порядка Rhizobiales.
Опять же, регулон представляет собой дивергон, один
из оперонов которого включает лишь ген регулятора
(psiR).
Данный регулог является особенным, т.к. здесь мы
предполагаем
регуляцию
ещё
не
открытого
экспериментально метаболического пути – пути
утилизации псикозы. Гены, кодирующие ABC-
241
У бактерий порядка Rhizobiales (всех, кроме одной)
SmoR не регулирует гены smoEFGKS и
mtlKZ,
позволяющие утилизировать маннитол и сорбитол. В
геномах этих бактерий в регулон входят гены
регулятора, а также гены, кодирующие фруктокиназу и
6-фосфофруктокиназу (scrK и pfkZ).
14. Gerasimova A. V., Gelfand M. S. Evolution of
the NadR regulon in Enterobacteriaceae // J Bioinform
Comput Biol. 2005. T. 3, № 4. C. 1007-19.
15. Rodionov D. A., Mironov A. A., Gelfand M. S.
Conservation of the biotin regulon and the BirA regulatory
signal in Eubacteria and Archaea // Genome Res. 2002. T.
12, № 10. C. 1507-16.
16. Rodionov D. A., Mironov A. A., Rakhmaninova
A. B., Gelfand M. S. Transcriptional regulation of transport
and utilization systems for hexuronides, hexuronates and
hexonates in gamma purple bacteria // Mol Microbiol.
2000. T. 38, № 4. C. 673-83.
17. Laikova O. N., Mironov A. A., Gelfand M. S.
Computational analysis of the transcriptional regulation of
pentose utilization systems in the gamma subdivision of
Proteobacteria // FEMS Microbiol Lett. 2001. T. 205, №
2. C. 315-22.
18. Rodionov D. A., Mironov A. A., Gelfand M. S.
Transcriptional regulation of pentose utilisation systems in
the Bacillus/Clostridium group of bacteria // FEMS
Microbiol Lett. 2001. T. 205, № 2. C. 305-14.
19. Permina E. A., Gelfand M. S. Heat shock
(sigma32 and HrcA/CIRCE) regulons in beta-, gamma- and
epsilon-proteobacteria // J Mol Microbiol Biotechnol.
2003. T. 6, № 3-4. C. 174-81.
20. Panina E. M., Mironov A. A., Gelfand M. S.
Comparative analysis of FUR regulons in gammaproteobacteria // Nucleic Acids Res. 2001. T. 29, № 24.
C. 5195-206.
21. Panina E. M., Mironov A. A., Gelfand M. S.
Comparative genomics of bacterial zinc regulons:
enhanced ion transport, pathogenesis, and rearrangement of
ribosomal proteins // Proc Natl Acad Sci U S A. 2003. T.
100, № 17. C. 9912-7.
22. Panina E. M., Vitreschak A. G., Mironov A. A.,
Gelfand M. S. Regulation of aromatic amino acid
biosynthesis in gamma-proteobacteria // J Mol Microbiol
Biotechnol. 2001. T. 3, № 4. C. 529-43.
23. Ravcheev D. A., Rakhmaninova A. B., Mironov
A. A., Gel'fand M. S. [Comparative genomics analysis of
nitrate and nitrite respiration in gamma proteobacteria] //
Mol Biol (Mosk). 2005. T. 39, № 5. C. 832-46.
24. Doroshchuk N. A., Gel'fand M. S., Rodionov D.
A. [Regulation of nitrogen metabolism in gram-positive
bacteria] // Mol Biol (Mosk). 2006. T. 40, № 5. C. 91926.
25. Blanchette M., Tompa M. FootPrinter: A
program designed for phylogenetic footprinting // Nucleic
Acids Res. 2003. T. 31, № 13. C. 3840-2.
26. Dubchak I., Ryaboy D. V. VISTA family of
computational tools for comparative analysis of DNA
sequences and whole genomes // Methods Mol Biol. 2006.
T. 338. C. 69-89.
27. Siddharthan R., Siggia E. D., van Nimwegen E.
PhyloGibbs: a Gibbs sampling motif finder that
incorporates phylogeny // PLoS Comput Biol. 2005. T. 1,
№ 7. C. e67.
28. Sinha S., Blanchette M., Tompa M. PhyME: a
probabilistic algorithm for finding motifs in sets of
orthologous sequences // BMC Bioinformatics. 2004. T.
5. C. 170.
29. Alm E. J., Huang K. H., Price M. N., Koche R.
P., Keller K., Dubchak I. L., Arkin A. P. The
MicrobesOnline Web site for comparative genomics //
Genome Res. 2005. T. 15, № 7. C. 1015-22.
4. Литература
1.
Льюин Б. (2012) Гены / пер. с англ. Кофиади
И.А., Усман Н.Ю., Турчанинова М.А., Савилова А.М.,
ред. Ребрикова Д.В. – 9-е изд. - БИНОМ. Лаборатория
знаний, Москва.
2.
Fleischmann R. D., Adams M. D., White O.,
Clayton R. A., Kirkness E. F., Kerlavage A. R., Bult C. J.,
Tomb J. F., Dougherty B. A., Merrick J. M., et al. Wholegenome random sequencing and assembly of Haemophilus
influenzae Rd // Science. 1995. T. 269, № 5223. C. 496512.
3.
Kanehisa M., Goto S. KEGG: kyoto
encyclopedia of genes and genomes // Nucleic Acids Res.
2000. T. 28, № 1. C. 27-30.
4.
Altschul S. F., Madden T. L., Schaffer A. A.,
Zhang J., Zhang Z., Miller W., Lipman D. J. Gapped
BLAST and PSI-BLAST: a new generation of protein
database search programs // Nucleic Acids Res. 1997. T.
25, № 17. C. 3389-402.
5.
Bailey T. L., Elkan C. Fitting a mixture model by
expectation maximization to discover motifs in
biopolymers // Proc Int Conf Intell Syst Mol Biol. 1994.
T. 2. C. 28-36.
6.
Lawrence C. E., Altschul S. F., Boguski M. S.,
Liu J. S., Neuwald A. F., Wootton J. C. Detecting subtle
sequence signals: a Gibbs sampling strategy for multiple
alignment // Science. 1993. T. 262, № 5131. C. 208-14.
7.
Xuhua Xia. Position Weight Matrix, Gibbs
Sampler, and the Associated Significance Tests in Motif
Characterization and Prediction // Scientifica. - vol. 2012.
8.
Berg O. G., von Hippel P. H. Selection of DNA
binding sites by regulatory proteins. Statistical-mechanical
theory and application to operators and promoters // J Mol
Biol. 1987. T. 193, № 4. C. 723-50.
9.
Crooks G. E., Hon G., Chandonia J. M., Brenner
S. E. WebLogo: a sequence logo generator // Genome Res.
2004. T. 14, № 6. C. 1188-90.
10. Novichkov P. S., Rodionov D. A., Stavrovskaya
E. D., Novichkova E. S., Kazakov A. E., Gelfand M. S.,
Arkin A. P., Mironov A. A., Dubchak I. RegPredict: an
integrated system for regulon inference in prokaryotes by
comparative genomics approach // Nucleic Acids Res.
2010. T. 38, № Web Server issue. C. W299-307.
11. Chen X., Jiang T. An improved Gibbs sampling
method for motif discovery via sequence weighting //
Comput Syst Bioinformatics Conf. 2006. C. 239-47.
12. Favorov A. V., Gelfand M. S., Gerasimova A. V.,
Ravcheev D. A., Mironov A. A., Makeev V. J. A Gibbs
sampler for identification of symmetrically structured,
spaced DNA motifs with improved estimation of the signal
length // Bioinformatics. 2005. T. 21, № 10. C. 2240-5.
13. Makarova K. S., Mironov A. A., Gelfand M. S.
Conservation of the binding site for the arginine repressor
in all bacterial lineages // Genome Biol. 2001. T. 2, № 4.
C. RESEARCH0013.
242
30. Apweiler R., Bairoch A., Wu C. H., Barker W.
C., Boeckmann B., Ferro S., Gasteiger E., Huang H., Lopez
R., Magrane M., Martin M. J., Natale D. A., O'Donovan C.,
Redaschi N., Yeh L. S. UniProt: the Universal Protein
knowledgebase // Nucleic Acids Res. 2004. T. 32, №
Database issue. C. D115-9.
31. Willis L. B., Walker G. C. A novel
Sinorhizobium meliloti operon encodes an alphaglucosidase and a periplasmic-binding-protein-dependent
transport system for alpha-glucosides // J Bacteriol. 1999.
T. 181, № 14. C. 4176-84.
32. White O., Eisen J. A., Heidelberg J. F., Hickey E.
K., Peterson J. D., Dodson R. J., Haft D. H., Gwinn M. L.,
Nelson W. C., Richardson D. L., Moffat K. S., Qin H.,
Jiang L., Pamphile W., Crosby M., Shen M., Vamathevan
J. J., Lam P., McDonald L., Utterback T., Zalewski C.,
Makarova K. S., Aravind L., Daly M. J., Minton K. W.,
Fleischmann R. D., Ketchum K. A., Nelson K. E., Salzberg
S., Smith H. O., Venter J. C., Fraser C. M. Genome
sequence of the radioresistant bacterium Deinococcus
radiodurans R1 // Science. 1999. T. 286, № 5444. C.
1571-7.
33.
Zhang L., Mu W., Jiang B., Zhang T.
Characterization
of
D-tagatose-3-epimerase
from
Rhodobacter sphaeroides that converts D-fructose into Dpsicose // Biotechnol Lett. 2009. T. 31, № 6. C. 857-62.
243