Новые технологии производства компьютеров. Генетические и клеточные биокомпьютеры

Американским учёным удалось показать, что для сложнейших расчётов не обязательно иметь суперкомпьютер – вместо этого можно обойтись пробиркой с бактериями. Предварительные результаты эксперимента по созданию прототипа биологического вычислительного устройства на основе ДНК живых микроорганизмов были опубликованы в Journal of Biological Engineering.

О способности ДНК хранить и обрабатывать информацию известно давно: генетики подсчитали, что в одной цепочке молекулы может храниться такой же объём данных, как в 1000 книгах по 500 страниц в каждой.

Естественно, перед исследователями встал вопрос о возможности использования этого уникального ресурса: соответствующие разработки проводятся более 10 лет. В частности, мы уже писали о клетках с искусственной генетической памятью и о синтетической биологии , которая занимается в том числе программированием генетических свойств микроорганизмов.

Группе учёных из колледжа Дэвидсона (Davidson College) и университета Миссури (Missouri Western State University) под руководством Кармэллы Хейнес (Karmella Haynes) впервые удалось не в теории, а на практике продемонстрировать вычислительные возможности ДНК на примере бактерий E. сoli .

Исследователи использовали уже упомянутый принцип – способность цепочки нуклеотидов обрабатывать большие массивы данных. Для большей наглядности они обратились к известной в математике и вычислительной технике задачке о подгоревших блинах, оптимальное решение которой в далёком 1979 году опубликовал – да-да – сам Билл Гейтс.

Суть задачки очень проста: в её классическом варианте необходимо за минимальное количество переворачиваний расположить блины разного диаметра в наиболее устойчивом порядке. Заметьте: только переворачивать – не перекладывать! В приведённом на иллюстрации простейшем примере оптимальное решение достигается за два «оборота». Подгоревшие блины – более «продвинутая» версия, где сортировку необходимо провести так, чтобы все блины в итоге лежали не только устойчиво, но ещё и подгоревшей стороной вниз (иллюстрация Todd Eckdahl и Jeff Poet).

Итак, смысл задачи о подгоревших блинах состоит в поиске минимального числа перестановок. На самом деле эта «незатейливая» головоломка из комбинаторики демонстрирует одну из основных функций, которую выполняют компьютеры, – обработку больших массивов информации с помощью перестановки (транспонирования) порций данных (chunks of data).

Аналогичный эффект удалось реализовать доктору Хейнес и её коллегам – путём комбинирования различных генов и их перестановки. В ходе эксперимента отдельные участки ДНК играли роль блинов. С помощью специально добавленного фермента экспериментаторы добились возможности влиять на перестановку этих участков в зависимости от реакции на антибиотик тетрациклин.


Бактерии E.сoli не обладают собственной системой рекомбинации генов, но являются детально изученными и хорошо понятными объектами для наблюдения. В связи с этим исследователи сделали им upgrade, снабдив клеточным механизмом управления ДНК – ферментом Hin рекомбиназа. При определённом расположении и ориентации «включалась» устойчивость к раздражителю (иллюстрация Todd Eckdahl и Jeff Poet).

Но самое главное: учёным удалось расположить «вставки» таким образом, что активность гена, ответственного за устойчивость к антибиотику, проявлялась только тогда, когда все блоки ДНК выстраивались в заданной последовательности.

При этом количество рекомбинаций, необходимых бактериям для формирования устойчивости, равнозначно минимальному числу переворотов подгоревших блинов, которые необходимо сделать согласно условию приведённой выше задачки.

По словам авторов исследования, аналогичные вычисления в чашке Петри, содержащей миллиарды микроорганизмов, теоретически позволят запустить настоящий вычислительный симбиоз: ведь каждая бактерия в данном случае – прототип биологического компьютера.

Естественный интерес ряда исследовательских групп (среди них Оксфордский и Техасский университеты, Массачусетский технологический институт, лаборатории Беркли, Санди и Рокфеллера) вызвали природные способы хранения и обработки информации в биологических системах. Итогом их изысканий явился гибрид информационных и молекулярных технологий, а также достижений биохимии – биологический компьютер.

Идут разработки нескольких типов биокомпьютеров, которые базируются на различных биологических процессах. Это, в первую очередь, находящиеся в стадии разработки ДНК-компьютеры и клеточные биокомпьютеры.

ДНК-компьютеры. В живых клетках генетическая информация закодирована в молекуле ДНК (дезоксирибонуклеиновой кислоты). ДНК – это полимер, состоящий из субъединиц, называемых нуклеотидами. Нуклеотид представляет собой комбинацию сахара (дезоксирибозы), фосфата и одного из четырех входящих в состав ДНК азотистых оснований: аденина (А), тимина (Т), гуанина (G) и цитозина (C). Молекула ДНК образует спираль, состоящую из двух цепей, объединенных водородными связями. При этом основание А одной цепи может соединяться водородными связями только с основанием Т другой цепи, а основание G – только с основанием С. Имея одну из цепей ДНК, всегда можно восстановить строение второй.

Благодаря этому фундаментальному свойству ДНК, получившему название комплементарности, генетическая информация может точно копироваться и передаваться от материнских клеток к дочерним клеткам. Репликация молекулы ДНК происходит за счет работы специального фермента ДНК-полимеразы. Этот фермент скользит вдоль ДНК и синтезирует на ее основе новую молекулу, в которой все основания заменены на соответствующие парные. Причем фермент начинает работать, когда к ДНК прикрепился коротенький кусочек – «затравка» (праймер).

В клетках существует также родственная молекуле ДНК молекула матричной рибонуклеиновой кислоты (РНК). Она синтезируется специальным ферментом, использующим в качестве образца одну из цепей ДНК, и комплементарна по отношению к ней. Именно на молекуле РНК, в клетке, как на матрице, с помощью специальных ферментов и вспомогательных факторов происходит синтез белков. Молекула РНК химически устойчивее, чем ДНК, поэтому экспериментаторам с ней работать удобнее. Последовательность нуклеотидов в цепи ДНК / РНК определяет генетический код. Единицей генетического кода – кодоном – является последовательность из трех нуклеотидов. Ученые решили попытаться, по примеру природы, использовать молекулы ДНК для хранения и обработки данных в биологических компьютерах.

Первым из них был Леонард Эдлмен из университета Южной Калифорнии, сумевший решить задачу гамильтонова пути. Суть ее в том, чтобы найти маршрут движения с заданными точками старта и финиша между несколькими городами, в каждом из которых разрешается побывать только один раз. «Дорожная сеть» представляет собой однонаправленный граф. Эта задача решается прямым перебором, однако при увеличении числа городов сложность ее возрастает экспоненциально (для цепочек ДНК число таких пунктов («городов») равно семи, т.е. n = 7). Каждый такой «город» Эдлмен идентифицировал уникальной последовательностью из 20 нуклеотидов.
Тогда путь между любыми двумя городами будет состоять из второй половины кодирующей последовательности для точки старта, и первой половины кодирующей последовательности для точки финиша (молекула ДНК, как и вектор, имеет направление).

Синтезировать такие последовательности современная молекулярная аппаратура позволяет очень быстро. В итоге последовательность ДНК с решением составит 140 нуклеотидов (7x20). Остается только синтезировать и выделить такую молекулу ДНК. Для этого в пробирку помещается около 100 триллионов молекул ДНК, содержащих все возможные 20-нуклеотидные последовательности, кодирующие города и пути между ними. Далее за счет взаимного притяжения нуклеотидов А–Т и G–C отдельные цепочки ДНК сцепляются друг с другом случайным образом, а специальный фермент лигаза сшивает образующиеся короткие молекулы в более крупные образования. При этом синтезируются молекулы ДНК, воспроизводящие все возможные маршруты между городами. Нужно лишь выделить из них те, что соответствуют искомому решению. Эдлмен решил эту задачу биохимическими методами, последовательно удалив сначала цепочки, которые не начинались с первого города – точки старта – и не заканчивались местом финиша, затем те, что содержали более семи городов или не содержали хотя бы один. Легко понять, что любая из оставшихся после такого отбора молекула ДНК представляет собой решение задачи.

Вслед за работой Эдлмена последовали и другие. Ллойд Смит из университета Висконсин решил с помощью ДНК задачу доставки четырех сортов пиццы по четырем адресам, которая подразумевала 16 вариантов ответа. Ученые из Принстонского университета решили комбинаторную шахматную задачу: при помощи РНК нашли правильный ход шахматного коня на доске из девяти клеток (всего их 512 вариантов).

Ричард Липтон из Принстона впервые показал, как, используя ДНК, кодировать двоичные числа и решать логические выражения. Имея такое выражение, включающее n переменных, нужно найти все комбинации значений переменных, делающих выражение истинным. Задачу можно решить только перебором 2n комбинаций. Все эти комбинации легко закодировать с помощью ДНК, а дальше действовать по методике Эдлмена. Липтон предложил даже способ взлома шифра DES (американский криптографический шифр), трактуемого как своеобразное логическое выражение.

Первую модель биокомпьютера в виде механизма из пластмассы в 1999 г. создал И. Шапиро из института естественных наук Вейсмана.
Модель имитировала работу молекулярной машины в живой клетке, собирающей белковые молекулы по информации с ДНК, используя РНК
в качестве посредника между ДНК и белком. В 2001 г. Шапиро удалось реализовать модель в реальном биокомпьютере, который состоял из молекул ДНК, РНК и специальных ферментов. Молекулы фермента выполняли роль аппаратного, а молекулы ДНК – программного обеспечения. В одной пробирке помещалось около триллиона элементарных вычислительных модулей. В результате скорость вычислений достигала миллиарда операций в секунду, а точность – 99,8 %.

Пока биокомпьютер Шапиро может применяться лишь для решения самых простых задач, выдавая всего два типа ответов: «истина» или «ложь». В проведенных экспериментах за один цикл все молекулы ДНК параллельно решали единственную задачу. Однако потенциально они могут трудиться одновременно над разными задачами, в то время как традиционные ПК являются, по сути, однозадачными.

В 2002 г. фирма Olympus Optical объявила о создании ДНК–компьютера, предназначенного для генетического анализа. Машина создана в сотрудничестве с биологом Акирой Тояма из Токийского университета. Компьютер имеет молекулярную и электронную составляющие. Первая осуществляет химические реакции между молекулами ДНК, обеспечивает поиск и выделение результата вычислений. Вторая – обрабатывает информацию и анализирует полученные результаты. Сейчас анализ генов выполняется вручную и требует много времени: при этом формируются многочисленные фрагменты ДНК и контролируется ход химических реакций. Когда ДНК-компьютинг будет использоваться для генетического анализа, то задачи, которые ранее выполнялись в течение трех дней, будут решаться за шесть часов. Технология генетического анализа на основе ДНК–компьютера находит применение в медицине и фармацевтике. Ученые планируют внедрять молекулярные наноустройства в тело человека для мониторинга состояния его здоровья и синтеза необходимых ему лекарств.

Возможностями биокомпьютеров заинтересовались и военные. Американское агентство по исследованиям в области обороны DARPA выполняет проект под названием BioComp. Его цель – создание мощных вычислительных систем на основе ДНК. Попутно исследователи надеются научиться управлять процессами взаимодействия белков и генов. Для этого планируется создать мощный симулятор BioSPICE, способный средствами машинной графики визуализировать биомолекулярные процессы.

Клеточные компьютеры. Еще одним перспективным направлением биокомпьютинга является создание клеточных компьютеров. Для этой цели идеально подходят бактерии, если бы в их геном удалось включить некую логическую схему, которая могла бы активизироваться в присутствии определенного вещества. Такие компьютеры очень дешевы в производстве. Им не нужна столь стерильная атмосфера, как при производстве полупроводников. И единожды запрограммировав клетку, можно легко и быстро вырастить тысячи клеток с такой же программой.

В 2001 г. в США были созданы трансгенные микроорганизмы (микроорганизмы с искусственно измененными генами), клетки которых могут выполнять логические операции И и ИЛИ. Учёные использовали способность генов синтезировать тот или иной белок под воздействием определенной группы химических раздражителей. Генетический код бактерий Pseudomonas putida был изменён таким образом, что их клетки обрели способность выполнять простые логические операции. Например, при выполнении операции И в клетку подаются два вещества (входные операнды), под влиянием которых ген вырабатывает определенный белок. Ученые создают на базе этих клеток более сложные логические элементы, а также ищут возможности создания клетки, выполняющей параллельно несколько логических операций.

Элементная база биологических компьютеров. Для разработки таких компьютеров нужно получить базовые элементы. Предложений поступает очень много. Так, исследователи израильского института «Технион» создали самособирающийся нанотранзистор, для разработки которого они использовали особенности структуры ДНК и электронных свойств углеродных нанотрубок. Сначала частицы молекулы ДНК покрыли белками бактерии «E. Coli», после этого связали с ДНК покрытые антителами нанотрубки, затем в процессе создания устройства использовали ионы золота и серебра. Получившаяся в результате конструкция работает как транзистор.

В 2004 году исследователи разработали микроскопические устройства, которые можно внедрять в кровоток. Они могут диагностировать онкологические заболевания и выпускать в нужном месте необходимую дозу лекарства. Устройства построены на базе синтетических ДНК, часть цепи служит для определения высокой концентрации РНК определенного вида, которые вырабатываются раковыми клетками, другая часть молекулярной цепи является хранилищем и управляющей структурой для еще одной нуклеотидной последовательности лекарства. Этот фрагмент ДНК, выпущенный в нужном месте, подавляет активность гена, вовлеченного в процесс развития рака. Ученые продемонстрировали несколько деталей биологической молекулярной машины, которая успешно идентифицировала в пробирке клетки, соответствующие раку простаты и раку легких. До полноценного устройства, которое можно было бы применять в борьбе с раковыми заболеваниями, еще далеко, однако ученые сделали важный шаг на пути создания молекулярных медицинских ДНК-роботов.

В том же году профессор Ричард Киль и его коллеги из университета штата Миннесота, США, разработали экспериментальные биоэлектронные схемы. Американские ученые использовали цепочки ДНК для создания плоской ткани, напоминающей застежку-липучку на уровне наноструктур. Проводимые опыты продемонстрировали, как искусственные фрагменты ДНК самостоятельно собрались в заранее рассчитанную наноструктуру. С регулярным шагом на этой структуре образовались липучки, которые способны принять другие сложные органические молекулы или различные металлы. Авторы проекта закрепляли такие молекулы на ткани, сформированной ДНК, будто радиодетали на пластмассовой плате.

Нанокомпоненты, собранные на основе ДНК, теоретически могут создать схему с характерным расстоянием между деталями в одну треть нанометра. А поскольку такие компоненты могут сохранять электрические или магнитные заряды, испытываемая в Миннесоте технология – это прообраз будущей технологии создания сверхбыстродействующих электронных схем с высокой плотностью упаковки информации. Они будут совмещать органические и неорганические компоненты.

В 2005 г. Юнсэон Чой из университета штата Мичиган, США, применил молекулы ДНК для построения наночастиц с заданными свойствами. Использовались так называемые дендримеры (крошечные разветвленные полимеры), концы которых могут содержать различные молекулы. Сначала были синтезированы отдельные звенья дендримеров, причём каждое звено снабжалось молекулой лекарства и небольшим фрагментом половинки ДНК. При смешивании всех этих ингредиентов, ДНК соединялись с дополнительными парами оснований. Короткие звенья полимера автоматически сшивались в длинные комплексы. Дендримеры могут избирательно поставлять пять отдельных лекарств пяти видам клеток. Синтез молекулы по методике Чоя занимает 10 шагов вместо 25, при использовании прежних технологий. Недостаток технологии состоит в том, что синтез нужных цепочек может занимать по несколько месяцев.

Исследователь Нью-Йоркского университета Нэд Симэн создал наномашину, производящую единственный полимер, повторяющий структуру самого устройства, с размерами 110x30x2 нм. Аппарат состоит из ДНК-машин, которые работают на основе определенных комбинаций цепочек молекул ДНК. У исследователя есть уверенность в том, что ему удастся создать ДНК-машину, работающую подобно молекуле РНК. Свое применение будущая искусственная рибосома найдет в синтезе новых материалов по заданной последовательности, закодированной в ДНК. В конце концов, можно научиться делать полимеры и новые материалы в больших количествах и за малый промежуток времени благодаря ДНК-машинам, уверен Симэн.

Билл Дитто из Технологического института штата Джорджия, США, провел эксперимент, подсоединив микродатчики к нескольким нейронам пиявки. Он обнаружил, что в зависимости от входного сигнала нейроны образуют новые взаимосвязи. Отсюда можно сделать вывод, что биологические компьютеры, состоящие из нейронно-подобных элементов (нейроэлементов), в отличие от кремниевых устройств, смогут самостоятельно искать нужные решения, посредством самопрограммирования. Исследователь намерен использовать результаты своей работы для создания искусственного мозга роботов будущего.

В настоящее время область ДНК-вычислений пребывает на этапе подтверждения концепции, когда возможность реального применения уже доказана. Можно утверждать, что в ближайшие десятилетия технология продемонстрирует свои реальные возможности. Сейчас происходит оценка того, насколько полезны или вредны ДНК-компьютеры для человечества. Применение в вычислительной технике биологических материалов позволит со временем уменьшить компьютеры до размеров живой клетки. Пока это выглядит как чашка Петри, наполненная спиралями ДНК, или как нейроны, взятые у пиявки и подсоединенные к электрическим проводам.

По существу, наши собственные клетки – это не что иное, как биологические машины молекулярного размера, а примером биокомпьютера служит наш мозг.

Если бы модель биологического компьютера Ихуда Шапиро, упоминавшаяся ранее, состояла из настоящих биологических молекул, то его размер был бы равен величине одного из компонентов клетки – 0,000 025 мм. По мнению исследователя, современные достижения в области сборки молекул позволяют создавать устройства клеточного размера, которое можно применять для биомониторинга. Более традиционные ДНК-компьютеры в настоящее время используются для расшифровки генома живых существ. Пробы ДНК применяются для определения характеристик другого генетического материала: благодаря правилам спаривания спиралей ДНК, можно определить возможное расположение четырех базовых аминокислот (A, C, T и G).

Потенциал биокомпьютеров очень велик. По сравнению с обычными вычислительными устройствами они имеют ряд уникальных особенностей. Во-первых, они используют не бинарный, а тернарный код (так как информация в них кодируется тройками нуклеотидов). Во-вторых, поскольку вычисления производятся путем одновременного вступления в реакцию триллионов молекул ДНК, они могут выполнять до 1015 операций в секунду. Правда, извлечение результатов вычислений предусматривает несколько этапов очень тщательного биохимического
анализа и осуществляется гораздо медленнее. В-третьих, вычислительные устройства на основе ДНК хранят данные с плотностью, в триллионы раз превышающей показатели оптических дисков. И, главное, ДНК-компьютеры имеют исключительно низкое энергопотребление.

Однако при разработке биологических компьютеров многие ученые столкнулись с целым рядом серьезных проблем. Первая связана со считыванием результатов вычислений – современные способы секвенирования (распознавания кодирующей последовательности) пока несовершенны: невозможно за один раз распознать цепочки длиной более нескольких тысяч оснований – это весьма дорогостоящая, сложная и трудоемкая операция. Вторая проблема – ошибки в вычислениях. Для химиков и биологов точность при синтезе и секвенировании оснований в 1 % считается очень хорошей. Но для информационных технологий она неприемлема: решения задачи могут потеряться, когда молекулы просто прилипают к стенкам сосудов; кроме того, нет никаких гарантий, что в ДНК не возникнут точечные мутации, и т.п.

Кроме того, молекулы ДНК с течением времени могут распадаться, и тогда результаты вычислений просто исчезают на глазах! Клеточные компьютеры, по сравнению с другими, работают довольно медленно, и их легко «сбить с толку», намеренно или ненамеренно нарушив вычислительный процесс. С этими проблемами ученые активно борются, но насколько им удастся преуспеть – покажет ближайшее время. В любом случае, для специалистов – биоинформатиков открываются большие перспективы. Однако биокомпьютеры на широкие массы пользователей не рассчитаны.

В перспективе нанокомпьютеры на основе ДНК смогут взаимодействовать с клетками человека, осуществлять наблюдение за потенциальными болезнетворными изменениями и синтезировать лекарства для борьбы с ними. С помощью клеточных компьютеров станет возможным объединение информационных технологий с биотехнологиями. Они смогут управлять биохимическими процессами, регулировать биологические реакции внутри человеческого организма, производить гормоны и лекарственные вещества, а также доставлять к определенному больному органу пациента необходимую дозу лекарств, и др.

Биокомпьютеры

Применение в вычислительной технике биологических материалов позволит со временем уменьшить компьютеры до размеров живой клетки. Пока эта чашка Петри, наполненная спиралями ДНК, или нейроны, взятые у пиявки и подсоединенные к электрическим проводам. По существу, наши собственные клетки - это не что иное, как биомашины молекулярного размера, а примером биокомпьютера, конечно, служит наш мозг.

Ихуд Шапиро (Ehud Shapiro) из Вейцманоского института естественных наук соорудил пластмассовую модель биологического компьютера высотой 30 см. Если бы это устройство состояло из настоящих биологических молекул, его размер был бы равен размеру одного из компонентов клетки - 0,000025 мм. По мнению Шапиро, современные достижения в области сборки молекул позволяют создавать устройства клеточного размера, которое можно применять для биомониторинга.

Более традиционные ДНК-компьютеры в настоящее время используются для расшифровки генома живых существ. Пробы ДНК применяются для определения характеристик другого генетического материала: благодаря правилам спаривания спиралей ДНК, можно определить возможное расположение четырех базовых аминокислот (A, C, T и G).

Чтобы давать полезную информацию, цепочки ДНК должны содержать по одному базовому элементу. Это достигается при помощи луча света и маски. Для получения ответа на тот или иной вопрос, относящийся к геному, может потребоваться до 80 масок, при помощи которых создается специальный чип стоимостью более 12 тыс. дол. Здесь-то и пригодилась микросхема DMD от Texas Instruments: ее микрозеркала, направляя свет, исключают потребность в масках.

Билл Дитто (Bill Ditto) из Технологического института штата Джорджия провел интересный эксперимент, подсоединив микродатчики к нескольким нейронам пиявки. Он обнаружил, что в зависимости от входного сигнала нейроны образуют новые взаимосвязи. Вероятно, биологические компьютеры, состоящие из нейроподобных элементов, в отличие от кремниевых устройств, смогут искать нужные решения посредством самопрограммирования. Дитто намерен использовать результаты своей работы для создания мозга роботов будущего.

Оптические компьютеры

По сравнению с тем, что обещают молекулярные или биологические компьютеры, оптические ПК могут показаться не очень впечатляющими. Однако ввиду того, что оптоволокно стало предпочтительным материалом для широкополосной связи, всем традиционным кремниевым устройствам, чтобы передать информацию на расстояние нескольких миль, приходится каждый раз преобразовывать электрические сигналы в световые и обратно.

Эти операции можно упростить, если заменить электронные компоненты чисто оптическими. Первыми станут оптические повторители и усилители оптоволоконных линий дальней связи, которые позволят сохранять сигнал в световой форме при передаче через все океаны и континенты. Со временем и сами компьютеры перейдут на оптическую основу, хотя первые модели, по-видимому, будут представлять собой гибриды с применением света и электричества. Оптический компьютер может быть меньше электрического, так как оптоволокно значительно тоньше (и быстрее) по сравнению с сопоставимыми по ширине полосы пропускания электрическими проводниками. По существу, применение электронных коммутаторов ограничивает быстродействие сетей примерно 50 Гбит/с. Чтобы достичь терабитных скоростей потребуются оптические коммутаторы (уже есть опытные образцы). Это объясняет, почему в телекоммуникациях побеждает оптоволокно: оно дает тысячекратное увеличение пропускной способности, причем мультиплексирование позволяет повысить ее еще больше. Инженеры пропускают по оптоволокну все больше и больше коротковолновых световых лучей. В последнее время для управления ими применяются чипы типа TI DMD с сотнями тысяч микрозеркал. Если первые трансатлантические медные кабели позволяли передавать всего 2500 Кбит/с, то первое поколение оптоволоконных кабелей - уже 280 Мбит/с. Кабель, проложенный сейчас, имеет теоретический предел пропускной способности в 10 Гбит/с на один световой луч определенной длины волны в одном оптическом волокне.

Недавно компания Quest Communications проложила оптический кабель с 96 волокнами (48 из них она зарезервировала для собственных нужд), причем по каждому волокну может пропускаться до восьми световых лучей с разной длиной волны. Возможно, что при дальнейшем развитии технологии мультиплексирования число лучей увеличится еще больше, что позволит расширять полосу пропускания без замены кабеля.

Целиком оптические компьютеры появятся через десятилетия, но работа в этом направлении идет сразу на нескольких фронтах. Например, ученые из университета Торонто создали молекулы жидких кристаллов, управляющие светом в фотонном кристалле на базе кремния. Они считают возможным создание оптических ключей и проводников, способных выполнять все функции электронных компьютеров.

Однако прежде чем оптические компьютеры станут массовым продуктом, на оптические компоненты, вероятно, перейдет вся система связи - вплоть до «последней мили» на участке до дома или офиса. В ближайшие 15 лет оптические коммутаторы, повторители, усилители и кабели заменят электрические компоненты.

Квантовые компьютеры

Квантовый компьютер будет состоять из компонентов субатомного размера и работать по принципам квантовой механики. Квантовый мир - очень странное место, в котором объекты могут занимать два разных положения одновременно. Но именно эта странность и открывает новые возможности.

Например, один квантовый бит может принимать несколько значений одновременно, то есть находиться сразу в состояниях «включено», «выключено» и в переходном состоянии. 32 таких бита, называемых q-битами, могут образовать свыше 4 млрд комбинаций - вот истинный пример массово-параллельного компьютера. Однако, чтобы q-биты работали в квантовом устройстве, они должны взаимодействовать между собой. Пока ученым удалось связать друг с другом только три электрона.

Уже есть несколько действующих квантовых компонентов - как запоминающих, так и логических. Теоретически квантовые компьютеры могут состоять из атомов, молекул, атомных частиц или «псевдоатомов». Последний представляет собой четыре квантовых ячейки на кремниевой подложке, образующих квадрат, причем в каждой такой ячейке может находиться по электрону. Когда присутствуют два электрона, силы отталкивания заставляют их размещаться по диагонали. Одна диагональ соответствует логической «1», а вторая - «0». Ряд таких ячеек может служить проводником электронов, так как новые электроны будут выталкивать предыдущие в соседние ячейки. Компьютеру, построенному из таких элементов, не потребуется непрерывная подача энергии. Однажды занесенные в него электроны больше не покинут систему.

Теоретики утверждают, что компьютер, построенный на принципах квантовой механики, будет давать точные ответы, исключая возможность ошибки. Так как в основе квантовых вычислений лежат вероятностные законы, каждый q-бит на самом деле представляет собой и «1», и «0» с разной степенью вероятности. В результате действия этих законов менее вероятные (неправильные) значения практически исключаются.

Насколько близко мы подошли к действующему квантовому компьютеру? Прежде всего необходимо создать элементы проводников, памяти и логики. Кроме того, эти простые элементы нужно заставить взаимодействовать друг с другом. Наконец, нужно встроить узлы в полноценные функциональные чипы и научиться тиражировать их. По оценкам ученных, прототипы таких компьютеров могут появиться уже в 2005 году, а в 2010-2020 годах должно начаться их массовое производство.

НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ
ЯДЕРНЫЙ УНИВЕРСИТЕТ
МОСКОВСКИЙ ИНЖИНЕРНО ФИЗИЧЕСКИЙ ИНСТИТУТ
(НИЯУ МИФИ)
Факультет автоматики и электроники, группа А4-11


Биокомпьютеры

Выполнила:
Студент группы А4-11
Потемкина Т.С.
Преподаватель:
Доцент Лапшинский В.А.


Москва 2011

Глава 1. Биоинформатика
Глава 2. Введение в историю биокомпьютеров
2.1. Биокомпьютеры – что это?
2.2. Истоки. Расцвет биотехнологии
2.3. Потенциальные возможности
Глава 3. Строение биокомпьютера

3.3. Живая память
3.4. Начинка
Глава 4. Виды биокомпьютеров
4.1. ДНК-компьютеры
4.2. Клеточные компьютеры
Глава 5. Аргументы за и против введения новой технологии
Заключение
Список литературы

Глава 1
Биоинформатика

История развития биоинформатики как отдельной науки очень интересна. До нее существовали две других науки: геномика и протеомика.
Геномика - отрасль биологии, изучающая гены человека. Десять лет назад никто не мог поверить, что возможно расшифровать гены человека. В наше время геном человека полностью расшифрован, поэтому геномика практически утратила свое значение.
Из геномики плавно вытекает протеомика - наука, которая изучает белки, содержащиеся в живых организмах. Именно протеомика положила начало биоинформатике, так как электронный анализ вещества без “интеллектуального сравнения” занял бы десятки, а то и сотни лет. Наука, надо сказать, не для средних умов.
Итак, биоинформатика. Сама наука появилась недавно, в конце 90-х годов. Изначально она занималась поиском лекарств при помощи изучения белковых ферментов. Если полвека назад ученые тратили всю жизнь, чтобы изучить структуру одного белка, то теперь всего за несколько часов реально оценить 2,5 тысячи ферментов.
Значение этой науки очень велико. К примеру, вакцина от вируса гепатита была найдена благодаря биоинформатике. С помощью быстрого обследования можно практически на 100% быть уверенным в правильности диагноза или за несколько секунд определить отсутствие или наличие в организме заданного гена.
Кстати, белок в качестве живого вещества был выбран не случайно. Выяснилось, что для синтеза аминокислот (а биоинформатика изначально и предназначалась для этих целей) белок лучше всего расшифровывает искомую комбинацию генов. К тому же, некоторые белки совершенно неприхотливы к внешним воздействиям, хотя и реагируют на любое соприкосновение даже с отдельной молекулой инородного вещества.


Рис 1. «Модель биокомпьютера»

Глава 2
Введение в историю биокомпьютеров

2.1. Биокомпьютеры - что это?


Биокомпьютеры представляют собой гибрид информационных технологий и биохимии. Исследователи из различных областей науки (биологии, физики, химии, генетики, информатики) пытаются использовать реальные биологические процессы для создания искусственных вычислительных схем. Существует несколько принципиально различных типов биологических компьютеров, основанных на различных биологических процессах: искусственные нейронные цепи, эволюционное программирование, генные алгоритмы, ДНК-компьютеры и клеточные компьютеры. Первые два стали исследоваться еще в начале 40-х годов, но до сих пор эти исследования, ни к чему реально работающему не привели. Последние три, основанные на методах генной инженерии, имеют гораздо большие перспективы, но работа в этих областях началась только пять лет назад (особенно продвинулись в этом вопросе Массачусетский технологический институт, лаборатории Беркли, лаборатории Рокфеллера, а также Техасский университет).

2.2. Истоки. Расцвет биотехнологии


В конце 90-х годов японцы публикуют сногсшибательную новость: впервые в мире ведутся работы по созданию биокомпьютера, принцип действия которого основан на биологических датчиках. Раньше никто и подумать не мог о такой технологии, так как для нормального функционирования живых организмов требуется постоянное поддержание необходимых условий (температуры, обмена веществ и т.д.). Казалось бы, искусственно создать такой организм невозможно, поэтому новость вызвала большое удивление.
После многочисленных исследований ученые решили использовать в качестве биодатчиков белковые соединения. Несмотря на то, что поддержать их “живучесть” крайне сложно, был найден выход из положения. Как показали эксперименты, сферическая молекула белка способна выдерживать невероятные нагрузки и быть неприхотливой к любым внешним раздражениям (в том числе и химическим). Особенность такого датчика - упругость, которая различна во всех направлениях.


Рис 2. «Белковые соединения»

2.3. Потенциальные возможности


Если сравнивать потенциальные возможности биокомпьютера и обычного компьютера, то первый значительно опережает своего теперешнего собрата. Плотность хранения информации в ДНК составляет 1 бит/нм2 - в триллион раз меньше, чем у видеопленки. ДНК может параллельно выполнять до 1020 операций в секунду - сравнимо с современными терафлоповыми суперкомпьютерами. Кроме ДНК (хотя ДНК-компьютер наиболее популярен среди разработчиков), в качестве компьютерной биопамяти могут выступать другие биологически активные молекулы, например, бактериородопсин, обладающий превосходными голографическими свойствами и способный выдерживать высокие температуры. На его основе уже создан вариант трехмерного запоминающего устройства. Молекулы бактериородопсина фиксируются в гидрогелевой матрице и облучаются двумя лазерами (см. рис 1).


Рис 3. «Устройство компьютерной биопамяти»


Первый лазер (направленный аксиально на гидрогелевый образец) инициирует фотохимические реакции в молекуле и записывает информацию. Второй же, направленный перпендикулярно, считывает информацию, записанную на молекулах бактероиродопсина, находящегося в объеме гидрогеля.
Парадоксально, но по подсчетам, производительность аналогового биопроцессора невелика. Скорость прохождения сигнала по нервному узлу составляет всего 20 м/c, что в пересчете на цифровой эквивалент составляет всего 10² операций в секунду. Супермощные цифровые процессоры способны обработать до 10 в 9 операций. Казалось бы, конкурировать с ними бесполезно.
Но не все так плохо. Когда речь идет, например о фиксации градуса в напитке, цифровой процессор не способен ее быстро выполнить (даже с обычными механическими датчиками). Это связано с тем, что на молекулярном уровне частицы взаимодействуют между собой, порождая новые соединения. Математические расчеты не могут предугадать исход таких реакций, поэтому время, затрачиваемое на изучение вещества, возрастает в геометрической прогрессии. Так что с математической методикой приготовления коктейля с заданным вкусом результат придется ждать неделю,а то и больше.
Вот тут и показывает себя аналоговый камешек. Если на кусочке процессорной пленки размером 1 см² будет содержаться 10 в 12 активных белковых частиц, мы получаем колоссальную производительность, намного превышающую возможности цифрового процессора. Так, например, при пропускании сигнала с датчика даже с минимальной скоростью имеем порядка 10 в 10 переключений, что во много раз превышает возможности электроники. К тому же, никаких проблем с решением задачи у процессора не возникает.
Определив наличие сладкого по вкусу вещества, датчик подает определенный сигнал. Его улавливает процессор, который трансформирует показания биосенсора в цифровой формат. Зная Фон-Неймовскую архитектуру, ты представляешь, что камень может работать напрямую только с ячейками памяти. В биокомпьютере она имеется и носит название оптической или биопамяти.
Долгое время ученые выводили такую белковую структуру, которая была способна выдерживать большие нагрузки (они были необходимы для записи данных). Когда, наконец, подходящие ферменты были найдены, стало вполне реальным создать биопамять, вмещающую в себя гораздо большие объемы информации, чем цифровые мозги.

Глава 3
Строение биокомпьютера

3.1. Архитектура биокомпьютера


Представим архитектуру самого простого биокомпьютера. Это ряд биологических сенсоров (датчиков), которые реагируют на внешнее воздействие. Остановимся на датчиках подробнее. Существует четыре вида датчиков, используемых в биокомпьютерах. Все они необходимы для того, чтобы снабдить компьютер органами чувств:

1. Химический . Аналог вкусовых рецепторов. Сродни языку, химические датчики способны улавливать состав того или иного вещества, пропускаемого через фермент. Таким образом, можно без проблем определить, какой ингредиент будет добавлен в исследуемое вещество: сладкий или горький;
2. Оптический . Подобно глазам, белок может определить вид вещества и даже его форму. Это опять-таки фиксируется дальнейшими составляющими биомашины. Благодаря такой фиксации, компьютер реагирует на раздражение должным образом;
3. Механический датчик служит для осязательных рефлексов. Благодаря такому сенсору машина может двигаться и принимать какие-либо решения после срабатывания других датчиков;
4. Электрический сенсор служит для передачи сигнала с датчика на следующий компонент биокомпьютера.

Этот компонент называется биопроцессор. Его задача обрабатывать сигнал и преобразовывать его в цифровой вид. В обратном процессе он принимает сигнал с ЭВМ и передает его датчику (в аналоговом виде). И, наконец, процессор взаимодействует с особой структурой белка - биопамятью, которая способна накапливать колоссальные объемы информации за предельно короткое время. Цифровая ЭВМ управляет механическими процессами (например, прекращает подачу того или иного ингредиента при его избытке). Правильнее сказать, цифровой компьютер посылает сигнал механическому биодатчику, после которого компьютер должным образом реагирует на раздражение.
Несмотря на всю сложность, биокомпьютеры только начали развиваться, и пик технологии намечается лишь через 30-50 лет. Уже были проведены эксперименты, результаты которых говорят о том, что создать автономный искусственный интеллект (без электроники) вполне реально.
Можно с уверенностью сказать, что в момент расцвета биоинформатики электронные ЭВМ станут вчерашним днем. Почти как ламповые суперкомпьютеры в наше время. Конечно, наряду с биотехнологиями возьмут верх квантовые и нейрокомпьютеры, которые также являются принципиально новыми разработками.

3.2. Архитектура биопроцессора

В устройстве биодатчика нет ничего сложного. Все подчиняется правилам обычного вычислительного процесса. Он состоит из трех шагов: получение входных данных, обработка результатов и исполнение какого-либо решения.
Вводить данные с клавиатуры очень долго, именно поэтому был придуман биодатчик, который занимается приемом входных данных. Как только происходит изменение формы либо цвета белка, это мгновенно фиксирует биопроцессор, который преобразует сигнал из аналогового в цифровой вид. Такой процессор состоит из специального белкового раствора, который способен непрерывно менять свое состояние. Это не что иное, как аналог транзисторного цифрового камня. Частички белка мгновенно изменяют свое состояние (как правило, цвет). Для нормального функционирования требуется быстрый обратимый процесс, то есть способность частицы вернуть свое прежнее состояние. Ученые очень долго искали подобную структуру, проводя множество долгих экспериментов. Процесс обработки информации похож на горение бикфордова шнура - он продолжается, пока вся пороховая начинка не выгорит. Представьте себе, что порох наделен способностью автоматического восстановления, а шнур замкнут в кольцо. При таком раскладе горение будет вечным, что и необходимо. Ученые долго шли к созданию такого процессора - подобрать нужный состав белка было крайне проблематично (поиск нужной реакции начался с 1956 года).


Рис 4. «Модель биопроцессора»


Биопроцессор имеет три преимущества, благодаря которым применяется в архитектуре машины.

1. Быстродействие . Как уже было сказано, аналоговый камешек мгновенно принимает решения, которые не под силу цифровому процессору.
2. Надежность . Если кремниевый процессор мог допускать ошибки при вычислениях, биопроцессор практически не ошибается в своих преобразованиях (максимальная относительная погрешность колеблется от 0,001 до 0,02%).
3. Компактность . Размеры очень малы. Благодаря тому, что производители научились наслаивать белковую структуру, габариты такого камешка могут быть сопоставимы по размеру с каплей воды.


Правда, у биопроцессора есть и недостатки. В первую очередь, это трудоемкое производство, а также высокая цена.

3.3. Живая память


Очень важной составляющей биокомпьютера является машинная память. Она также имеет белковую структуру, но уже более неприхотливую. Микролазер, который прикреплен к пленке с ферментом, прожигает белок, изменяя его свойства (опять же обратимо). Если подсчитать предельный объем такой памяти в цифровом формате, то мы получим цифру 10^64 бит/см^3, что равняется объему нескольких десятков тысяч книг. Единственный недостаток такой памяти - ее цена и трудоемкое производство.

3.4. Начинка


Весьма интересным вопросом является состав белковых соединений. В биодатчиках применяются белки из так называемых архебактерий. Этот вид давно интересовал ученых, так как микроорганизмы довольно активно реагировали на любые внешние изменения, не утрачивая своих жизненных свойств. Единственным недостатком является то, что в последнее время такие бактерии мутируют в непонятные микроорганизмы (видимо, сказывается экология). Лишь благодаря процессу клонирования, ученые добывают необходимое количество “правильного” белка для производства микродатчиков.


Рис 5. «Архебактерии»


Биопамять состоит из мельчайших частиц бактериородопсина. Этот материал не имеет склонности к разрушению при высоких температурах, поэтому без проблем прожигается лазером.

Рис 6. «Структура бактериородопсина»

Глава 4
Виды биокомпьютеров


Идут разработки нескольких типов биокомпьютеров, которые базируются на разных биологических процессах. Это, в первую очередь, находящиеся в стадии разработки ДНК- и клеточные биокомпьютеры.

4.1. ДНК-компьютеры

Как известно, в живых клетках генетическая информация закодирована в молекуле ДНК (дезоксирибонуклеиновой кислоты). ДНК - это полимер, состоящий из субъединиц, называемых нуклеотидами. Нуклеотид представляет собой комбинацию сахара (дезоксирибозы), фосфата и одного из четырех входящих в состав ДНК азотистых оснований: аденина (А), тимина (Т), гуанина (G) и цитозина. Молекула ДНК образует спираль, состоящую из двух цепей, объединенных водородными связями. При этом основание А одной цепи может соединяться водородными связями только с основанием Т другой цепи, а основание G - только с основанием С. То есть, имея одну из цепей ДНК, всегда можно восстановить строение второй. Благодаря этому фундаментальному свойству ДНК, получившему название комплементарности, генетическая информация может точно копироваться и передаваться от материнских клеток к дочерним. Репликация молекулы ДНК происходит за счет работы специального фермента ДНК-полимеразы. Этот фермент скользит вдоль ДНК и синтезирует на ее основе новую молекулу, в которой все основания заменены на соответствующие парные. Причем фермент начинает работать только если к ДНК прикрепился коротенький кусочек-затравка (праймер). В клетках существует также родственная молекуле ДНК молекула матричной рибонуклеиновой кислоты (РНК). Она синтезируется специальным ферментом, использующим в качестве образца одну из цепей ДНК, и комплементарна ей. Именно на молекуле РНК в клетке, как на матрице, с помощью специальных ферментов и вспомогательных факторов происходит синтез белков.


Рис 7. «Молекула ДНК»


Молекула РНК химически устойчивее, чем ДНК, поэтому экспериментаторам с ней работать удобнее. Последовательность нуклеотидов в цепи ДНК/РНК определяет генетический код. Единицей генетического кода - кодоном - является последовательность из трех нуклеотидов. Ученые решили попытаться по примеру природы использовать молекулы ДНК для хранения и обработки данных в биокомпьютерах.


Рис 8. «Схема ДНК-компьютера»


В конце февраля 2002 г. появилось сообщение, что фирма Olympus Optical претендует на первенство в создании коммерческой версии ДНК-компьютера, предназначенного для генетического анализа. Машина была создана в сотрудничестве с доцентом Токийского университета Акирой Тояма. Компьютер, построенный Olympus Optical, имеет молекулярную и электронную составляющие. Первая осуществляет химические реакции между молекулами ДНК, обеспечивает поиск и выделение результата вычислений. Вторая - обрабатывает информацию и анализирует полученные результаты.
Анализ генов обычно выполняется вручную и требует много времени: при этом формируются многочисленные фрагменты ДНК и контролируется ход химических реакций. “Когда ДНК-компьютинг будет использоваться для генетического анализа, задачи, которые ранее выполнялись в течение трех дней, можно будет решать за шесть часов”, - сказал сотрудник Olympus Optical Сатоши Икута. В компании надеются поставить технологию генетического анализа на основе ДНК-компьютера на коммерческую основу. Она найдет применение в медицине и фармации. Ученые планируют внедрять молекулярные наноустройства в тело человека для мониторинга состояния его здоровья и синтеза необходимых лекарств.

4.2. Клеточные компьютеры

Еще одним интересным направлением является создание клеточных компьютеров. Для этой цели идеально подошли бы бактерии, если бы в их геном удалось включить некую логическую схему, которая могла бы активизироваться в присутствии определенного вещества. Такие компьютеры очень дешевы в производстве. Им не нужна столь стерильная атмосфера, как при производстве полупроводников. И единожды запрограммировав клетку, можно легко и быстро вырастить тысячи клеток с такой же программой.
В 2001 г. американские ученые создали трансгенные микроорганизмы (т. е. микроорганизмы с искусственно измененными генами), клетки которых могут выполнять логические операции И/ИЛИ.

Рис 9. «Клетка как компьютер»


Специалисты лаборатории Оук-Ридж, штат Теннесси, использовали способность генов синтезировать тот или иной белок под воздействием определенной группы химических раздражителей. Ученые изменили генетический код бактерий Pseudomonas putida таким образом, что их клетки обрели способность выполнять простые логические операции. Например, при выполнении операции И в клетку подаются два вещества (по сути - входные операнды), под влиянием которых ген вырабатывает определенный белок. Теперь ученые пытаются создать на базе этих клеток более сложные логические элементы, а также подумывают о возможности создания клетки, выполняющей параллельно несколько логических операций.

Глава 5
Аргументы за и против введения новой технологии

Потенциал биокомпьютеров очень велик. По сравнению с обычными вычислительными устройствами они имеют ряд уникальных особенностей. Во-первых, они используют не бинарный, а тернарный код (так как информация в них кодируется тройками нуклеотидов). Во-вторых, поскольку вычисления производятся путем одновременного вступления в реакцию триллионов молекул ДНК, они могут выполнять до 1014 операций в секунду (правда, извлечение результатов вычислений предусматривает несколько этапов очень тщательного биохимического анализа и осуществляется гораздо медленнее). В-третьих, вычислительные устройства на основе ДНК хранят данные с плотностью, в триллионы раз превышающей показатели оптических дисков. И наконец, ДНК-компьютеры имеют исключительно низкое энергопотребление.
Однако в разработке биокомпьютеров ученые столкнулись с целым рядом серьезных проблем. Первая связана со считыванием результата - современные способы секвенирования (определения кодирующей последовательности) не совершенны: нельзя за один раз секвенировать цепочки длиной хотя бы в несколько тысяч оснований. Кроме того, это весьма дорогостоящая, сложная и трудоемкая операция.
Вторая проблема - ошибки в вычислениях. Для биологов точность в 1% при синтезе и секвенировании оснований считается очень хорошей. Для ИТ она неприемлема: решения задачи могут потеряться, когда молекулы просто прилипают к стенкам сосудов; нет гарантий, что не возникнут точечные мутации в ДНК, и т. п. И еще - ДНК с течением времени распадаются, и результаты вычислений исчезают на глазах! А клеточные компьютеры работают медленно, и их легко “сбить с толку”. Со всеми этими проблемами ученые активно борются. Насколько успешно - покажет время.
Биокомпьютеры не рассчитаны на широкие массы пользователей. Но ученые надеются, что они найдут свое место в медицине и фармации. Глава израильской исследовательской группы профессор Эхуд Шапиро уверен, что в перспективе ДНК-наномашины смогут взаимодействовать с клетками человека, осуществлять наблюдение за потенциальными болезнетворными изменениями и синтезировать лекарства для борьбы с ними.
Наконец, с помощью клеточных компьютеров станет возможным объединение информационных и биотехнологий. Например, они смогут управлять химическим заводом, регулировать биологические процессы внутри человеческого организма, производить гормоны и лекарственные вещества и доставлять к определенному органу необходимую дозу лекарств.

Заключение

Использование биокомпьютера уже сегодня возможно, целесообразно и необходимо: в науке, образовании, во всех системах управления, проектирования, в процессах созидания и творения.
С его помощью, например, можно получить полную информацию о состоянии здоровья каждого элемента своего организма, отклонения не от средней нормы, а от нормы данного человека в процентах и узнать причину этих отклонений. Клиент может сделать заказ пользователю биокомпьютера по телефону, факсу из любой точки земного шара и таким же способом получить распечатанный ответ.
В спорте, искусстве, шоу-бизнесе по фамилии, имени и отчеству можно получить полную информацию об успехе, возможностях, совместимости с коллективом приобретаемого кандидата в клуб или коллектив. Фактически уже открыто новое направление – геология интеллектуальных ресурсов стран, и это самое главное их богатство.
Для крупных объединений, корпораций только с помощью биокомпьютерных технологий можно разработать прогнозы их развития, выявить новые направления деятельности с учетом будущих реалий нашего мира. Очень важным обстоятельством при выполнении подобных работ является то, что биокомпьютерные технологии не требуют исходной статистической и тем более коммерчески закрытой информации.
Для решения научных проблем биокомпьютер заменит все технические средства научных проблемных лабораторий, оставив им решать незначительные прикладные задачи.
Биокомпьютерные технологии привлекательны тем, что практически все задачи решаются оперативно.
8. Кузнецов Е. Ю., Осман В. М. Персональные компьютеры и программируемые микрокалькуляторы: Учеб. пособие для ВТУЗов - М.: Высш. шк. -1991

Московская Государственная Академия Приборостроения и Информатики

ДИПЛОМНАЯ РАБОТА

по информационным экономическим системам

«Биокомпьютеры»

Выполнил: Пяров Тимур Р
ЭФ2, 2 курс, 35.14

2002
Москва
Оглавление

Полностью био. 3

В Германии создан первый в мире нейрочип, сочетающий электронные элементы и нервные клетки 4

Биология in silico. 5

Инфузорное программирование. 8

Биоалгоритмика. 11

Биочипы как пример индустриальной биологии. 17


Первый биокомпьютер

Взяв нейроны улитки, они закрепили их на кремниевом чипе при помощи микроскопических пластмассовых держателей (на фото ). В итоге каждая клетка оказалась соединена как с соседними клетками, так и с чипом. Подавая через чип на определённую клетку электрические импульсы, можно управлять всей системой.

)

Полностью био

Группа ученых из Вейцмановского Института (Weizmann Institute), Израиль, удалось создать первый в мире компьютер, все обрабатываемые данные и компоненты которого, включая "железо", программы и систему ввода-вывода, умещаются в одной стеклянной пробирке. Фокус заключается в том, что вместо традиционных кремниевых чипов и металлических проводников новый компьютер состоит из набора биомолекул - ДНК, РНК и некоторых ферментов. При этом ферменты (или, по-другому, энзимы) выступают в роли "железа", а программы и данные зашифрованы собой парами молекул, формирующих цепочки ДНК (на иллюстрации) .

По словам руководителя проекта профессора Эхуда Шапиро (Ehud Shapiro), биокомпьютер пока может решать лишь самые простые задачи, выдавая всего два типа ответов: "истина" или "ложь". При этом в одной пробирке помещается одновременно до триллиона элементарных вычислительных модулей, которые могут выполнять до миллиарда операций в секунду. Точность вычислений при этом составит 99,8%. Для проведения вычислений необходимо предварительно смешать в пробирке вещества, соответствующие "железу", "программному обеспечению" и исходным данным, при этом ферменты, ДНК и РНК провзаимодействуют таким образом, что в результате образуется молекула, в которой зашифрован результат вычислений.

Комментируя новое достижение Шапиро сообщил, что природа предоставила человеку превосходные молекулярные машины для кодирования и обработки данных, и, хотя ученые еще не научились синтезировать такие машины самостоятельно, использование достижений природы уже в скором будущем позволит решить эту проблему. В будущем молекулярные компьютеры могут быть внедрены в живые клетки, чтобы оперативно реагировать на негативные изменения в организме и запускать процессы синтеза веществ, способных противостоять таким изменениям. Кроме этого, благодаря некоторым своим особенностям, биокомпьютеры смогут вытеснить электронные машины из некоторых областей науки.

В Германии создан первый в мире нейрочип, сочетающий электронные элементы и нервные клетки

Группе учёных из мюнхенского Института биохимии имени Макса Планка удалось создать первый в мире нейрочип. Микросхема, изготовленная Питером Фромгерцом и Гюнтером Зеком, сочетает в себе электронные элементы и нервные клетки.

Главной проблемой при создании нейрочипов всегда была сложность фиксации нервных клеток на месте. Когда клетки начинают образовывать соединения друг с другом, они неизбежно смещаются. На этот раз учёным удалось избежать этого.

Взяв нейроны улитки, они закрепили их на кремниевом чипе при помощи микроскопических пластмассовых держателей. В итоге каждая клетка оказалась соединена как с соседними клетками, так и с чипом. Подавая через чип на определённую клетку электрические импульсы, можно управлять всей системой.

Сочетание биологических и компьютерных систем таит в себе огромный потенциал. По мнению специалистов, нейрочипы позволят создать более совершенные, способные к обучению компьютеры, а также протезы для замены повреждённых участков мозга и высокочувствительные биосенсоры.

Как заявил недавно знаменитый британский физик Стивен Хокинг, если мы хотим, чтобы биологические организмы по-прежнему превосходили электронные, нам придётся поискать способ объединить компьютеры и человеческий мозг, либо попытаться искусственным путём усовершенствовать собственные гены. (Подробнее об этом рассказывается здесь )

Впрочем, такие проекты пока остаются фантастикой. До их реализации пока ещё очень далеко, а пока главным предназначением устройств, подобных созданной в Мюнхене нейросхеме, является изучение механизмов работы нервной системы и человеческой памяти.

Источник:
Nature

Биология in silico

В ычислительная биология, она же биоинформатика, она же компьютерная генетика - молодая наука, возникшая в начале 80-х годов на стыке молекулярной биологии и генетики, математики (статистики и теории вероятности) и информатики, испытавшая влияние лингвистики и физики полимеров. Толчком к этому послужило появление в конце 70-х годов быстрых методов секвенирования* последовательностей ДНК*. Нарастание объема данных происходило лавинообразно (рис. 2) и довольно скоро стало ясно, что каждая полученная последовательность не только представляет интерес сама по себе (например, для целей генной инженерии и биотехнологии), но и приобретает дополнительный смысл при сравнении с другими. В 1982 году были организованы банки данных нуклеотидных последовательностей - GenBank в США и EMBL в Европе. Первоначально данные переносились в банки из статей вручную, однако, когда этот процесс начал захлебываться, все ведущие журналы стали требовать, чтобы последовательности, упоминаемые в статье, были помещены в банк самими авторами. Более того, поскольку секвенирование уже давно стало рутинным процессом, который выполняют роботы или студенты младших курсов на лабораторных работах, многие последовательности сейчас попадают в банки без публикации. Банки постоянно обмениваются данными и, в этом смысле, практически равноценны, однако средства работы с ними, разрабатываемые в Центре биотехнологической информации США и Европейском институте биоинформатики, различны. Пожалуй, первым биологически важным результатом, полученным при помощи анализа последовательностей, было обнаружение сходства вирусного онкогена v-sis и нормального гена фактора роста тромбоцитов, что привело к значительному прогрессу в понимании механизма рака. С тех пор работа с последовательностями стала необходимым элементом лабораторной практики.

В 1995 году был секвенирован первый бактериальный геном*, в 1997 - геном дрожжей. В 1998 было объявлено о завершении секвенирования генома первого многоклеточного организма - нематоды 1 . По состоянию на 1 сентября 2001 года доступны 55 геномов бактерий, геном дрожжей, практически полные геномы Arabidopsis thaliana (растения, родственного горчице), нематоды, мухи дрозофилы - все это стандартные объекты лабораторных исследований. Уже два раза (весной 2000 и зимой 2001 года) было объявлено о практическом завершении секвенирования генома человека - имеющиеся фрагменты действительно покрывают его более чем на 90%. Количество геномов, находящихся в распоряжении фармацевтических и биотехнологических компаний, оценить трудно, хотя, по-видимому, оно составляет многие десятки и даже сотни. Ясно, что подавляющее большинство генов в этих геномах никогда не будет исследовано экспериментально. Поэтому компьютерный анализ и становится основным средством изучения.

Все это привело к тому, что биоинформатика стала чрезвычайно модной областью науки, спрос на специалистов в которой очень велик. Следует отметить, что одним из неприятных последствий возникшего шума стало то, что биоинформатикой называют всё, где есть биология и компьютеры 2 . В то же время многие области уже пережили такие моменты (например, теория информации 3), и хочется надеяться, что за пеной ажиотажа не пропадет то действительно интересное, что делается в настоящей биоинформатике.

Традиционно к биоинформатике относится:

Статистический анализ последовательностей ДНК;

Предсказание функции по последовательности (распознавание генов в последовательности ДНК, поиск регуляторных сигналов, предсказание функций белков - некоторые из этих задач рассмотрены в следующей статье);

Анализ пространственной структуры белков и нуклеиновых кислот, в том числе предсказание структуры белка по последовательности, - здесь биоинформатика граничит с биофизикой и физикой полимеров;

Теория молекулярной эволюции и систематика.

Следует отметить, что многие задачи из разных областей решаются сходными алгоритмами, один из примеров этого приводится в статье М. А. Ройтберга.

В последние годы возник ряд новых задач, связанных с прогрессом в области автоматизации не только секвенирования, но и других экспериментальных методов: масс-спектрометрии, анализа белок-белковых взаимодействий, исследования работы генов в различных тканях и условиях (см. статью И. А. Григорян и В. Ю. Макеева в этом номере). При этом не только возникает необходимость создавать и заимствовать из других областей новые алгоритмы (например, для обработки результатов экспериментов в области протеомики* широко применяются методы анализа изображений), но и происходит распространение биоинформатических подходов на смежные области, например популяционную и медицинскую генетику. Существенно при этом, что роль биоинформатики не сводится к обслуживанию экспериментаторов, как это было еще несколько лет назад: у нее появились собственные задачи. Более подробно об этом можно прочитать в обзоре (М. С. Гельфанд, А. А. Миронов. Вычислительная биология на рубеже десятилетий. Молекулярная биология. 1999, т. 33, № 6, с. 969-984); можно упомянуть также сборник статей (Математические методы для анализа последовательностей ДНК. М. С. Уотермен, ред. - М.: Мир, 1999). Проект курса по биоинформатике, перечисляющий основные направления. Основные журналы по биоинформатике - «Bioinformatics», «Journal of Computational Biology» и «Briefings in Bioinformatics», конференции - ISMB (Intellectual Systems for Molecular Biology) и RECOMB (International Conference on Computational Biology).

1 (обратно к тексту) - Вопрос о том, что такое полностью секвенированный геном многоклеточного организма, нетривиален. В частности, значительную его часть (несколько процентов) составляют повторы, которые и вообще крайне сложны для секвенирования. В таких областях находится мало генов, и поэтому их обычно оставляют «на потом». Текущее же состояние генома человека напоминает рассыпанную мозаику, часть элементов которой отсутствует, а кроме того, подмешаны фрагменты других мозаик (посторонние последовательности).
2 (обратно к тексту) - В плане одного академического института на 2001 год в разделе «биоинформатика» можно было встретить, например, компьютерное моделирование сокращений сердечной мышцы - это очень интересная и уважаемая, но совершенно отдельная тема. А в университетском курсе биоинформатики предлагается изучать «Возможный механизм пунктурной терапии».
(обратно к тексту) - См. очень поучительную заметку Клода Шеннона «The Bandwagon» (Trans. IRE, 1956, ИТ-2 (1), 3, русский перевод в: К. Шеннон. Работы по теории информации и кибернетике. - М.: Изд-во иностранной литературы, 1963) . Вот цитата: «Сейчас теория информации, как модный опьяняющий напиток, кружит голову всем вокруг. Для всех, кто работает в области теории информации, такая популярность несомненно приятна и стимулирует их работу, но в то же время и настораживает… Здание нашего несколько искусственно созданного благополучия слишком легко может рухнуть, как только в один прекрасный день окажется, что при помощи нескольких магических слов, таких как информация , энтропия , избыточность … нельзя решить всех нерешенных проблем… На понятия теории информации очень большой, даже, может быть, слишком большой спрос. Поэтому мы сейчас должны обратить особое внимание на то, чтобы исследовательская работа в нашей области велась на самом высоком научном уровне, который только возможно обеспечить».

ДНК (дезоксирибонуклеиновая кислота) - полимерная молекула, элементарными единицами которой являются четыре нуклеотида : A, C, G, T. Ген - участок ДНК, кодирующий один белок. Белок - полимер, в построении которого принимают участие 20 аминокислот (на самом деле больше, но другие аминокислоты появляются в результате дополнительной химической модификации). Белки играют основную роль в жизни клетки - формируют ее скелет, катализируют химические реакции, выполняют регуляторные и транспортные функции. В живой клетке каждая молекула белка имеет сложную пространственную структуру (см. рис. 1).

Секвенирование - определение последовательности нуклеотидов во фрагменте ДНК. Именно это имеется в виду, когда в газетах пишут о «расшифровке генома человека». Исследование работы генов в масштабе целых организмов, а также эволюция геномов составляют предмет геномики , а анализ полного набора белков в клетке и их взаимодействий друг с другом - предмет протеомики 2 .

Инфузорное программирование

Во второй декаде сентября в Праге прошла 6-я «Европейская конференция по искусственной жизни» - междисциплинарный форум, на который собираются ученые, изучающие природу и перенимающие в своих исследованиях ее «творческий опыт».

Н апример, исследователи из голландского «Центра природных вычислений» при Лейденском университете полагают, что, освоив некоторые приемы генетических манипуляций, заимствованные у простейших одноклеточных организмов - ресничных инфузорий, человечество сможет воспользоваться гигантским вычислительным потенциалом, скрытым в молекулах ДНК.

Ресничные обитают на Земле, по меньшей мере, два миллиарда лет, их обнаруживают практически повсюду, даже в самых негостеприимных местах. Директор Центра Гжегож Розенберг (Grzegorz Rozenberg), называет эти инфузории «одним из наиболее успешных организмов на Земле». Ученые объясняют такую «удачливость» чрезвычайно эффективными механизмами манипуляции собственной ДНК, позволяющими инфузориям приспосабливаться практически к любой среде обитания.

Уникальность ресничных в том, что их клетка имеет два ядра - одно большое, «на каждый день», где в отдельных нитях хранятся копии индивидуальных генов; и одно маленькое, хранящее в клубке используемую при репродукции единственную длинную нить ДНК со всеми генами сразу. В ходе размножения «микроядро» используется для построения «макроядра» нового организма. В этом ключевом процессе и происходят чрезвычайно интересные для ученых «нарезание» ДНК микроядра на короткие сегменты и их перетасовка, гарантирующие то, что в макроядре непременно окажутся нити с копиями всех генов.

Розенбергом и его коллегами установлено, что способ, с помощью которого создаются эти фрагменты, удивительно напоминает технику «связных списков», издавна применяемую в программировании для поиска и фиксации связей между массивами информации. Более глубокое изучение репродуктивной стратегии ресничных инфузорий при сортировке ДНК открывает новые и интересные методы «зацикливания», сворачивания, исключения и инвертирования последовательностей.

Напомним, что в 1994 году Леонардом Эдлманом (Leonard Adleman) экспериментально было продемонстрировано, как с помощью молекул ДНК в единственной пробирке можно быстро решать классическую комбинаторную «задачу про коммивояжера» (обход вершин графа по кратчайшему маршруту), «неудобную» для компьютеров традиционной архитектуры. Результаты же экспериментов ученых из лейденского центра дают основания надеяться, что в недалеком будущем ресничные инфузории можно будет использовать для реальных ДНК-вычислений.

А вот английские исследователи из компании British Telecom пришли к выводу, что изучение поведения колоний бактерий дает ключ к решению сложнейшей задачи упорядочивания коммуникационных сетей.

Для описания ближайшего будущего компьютеров сегодня все чаще привлекают популярную концепцию «всепроникающих вычислений» - идею о гигантской совокупности микрокомпьютеров, встроенных во все предметы быта и незаметно взаимодействующих друг с другом. В этой единой беспроводной сети будет увязано все: кухонная техника, бытовая электроника, следящие за микроклиматом сенсоры в комнатах, радиомаяки на детях и домашних животных… Список этот можно увеличивать бесконечно. Но сейчас добавление каждой новой «умной штучки» отнимает массу времени, чтобы взаимно подстроить работу этого устройства и уже сформировавшейся конфигурации. В концепции же будущего, поскольку хозяева дома, по определению, не обладают ни временем, ни знаниями для настройки совместной работы всей этой армии бесчисленных «разумных вещей», изначально предполагается способность системы к самоорганизации. Поэтому достаточно естественно, что взгляд ученых устремился к природе, где подобные задачи решены давно и успешно. В частности, эксперименты исследователей British Telecom показали, что их система, имитирующая поведение колонии бактерий в строматолитах 1 , способна поддерживать работу сети из нескольких тысяч устройств, автоматически управляя большими популяциями отдельных элементов.

Для симуляции функционирования такой колонии британскими учеными была создана сеть из трех тыс. узлов. Основой самоорганизации стало присвоение различных приоритетов рассылаемым по сети пакетам данных. Например, высший приоритет получили «информационные» пакеты, доносящие послания от одного узла к другому (кроме них в системе рассылаются еще «управляющие», «конфигурирующие» и прочие пакеты), поэтому ими занимаются устройства, имеющие в данный момент наилучшие связи с максимальным числом элементов сети.

В British Telecom полагают, что воплощение экспериментальной концепции в реальных продуктах можно ожидать уже через пять-шесть лет.

Еще одна любопытная разработка была представлена на конференции бельгийскими исследователями под руководством профессора Марко Дориго (Marco Dorigo). Они продемонстрировали, что программы, имитирующие стратегию поведения муравьиного сообщества, могут успешно управлять работой сложных компьютерных сетей.

Рыская в поисках корма, муравьи-разведчики оставляют за собой меченую феромонами дорожку. При этом зачастую к одному источнику пищи прокладывается сразу несколько троп, но разведчик, открывший самую короткую тропинку, возвращается быстрее и уводит за собой соплеменников. Выделяемые ими феромоны делают тропку более пахучей, чем остальные - в результате самая выгодная тропа быстро становится самой популярной. Учёные взяли эту тактику на вооружение: созданные ими программные агенты случайным образом «прозванивают» каналы связи между различными узлами сети и метят «тропинки» цифровыми «феромонами», на основании чего определяют оптимальный маршрут для передачи пакетов данных из одной точки в другую.

Практические испытания проводились в сетях Национального научного фонда США и японской корпорации NTT. Синтетические «муравьи» должны были, ничего не зная о конфигурации сети, отыскать кратчайшую дорогу от одного узла к другому. Быстро исследовав сеть, агенты определили её строение и вскоре уже могли «подсказать» любому информационному пакету к какому следующему узлу ему нужно направиться, чтобы достичь своей цели быстрее. Иначе говоря, был реализован механизм высококачественного интеллектуального роутинга, причем при возникновении различных «заторов» в сети «искусственные муравьи» реконфигурировали схему роутинга быстрее, чем традиционные решения.

Биоалгоритмика

Эта заметка посвящена разделу биоинформатики, который можно назвать «биоалгоритмикой», - алгоритмам анализа первичных структур (последовательностей) биополимеров. Биоалгоритмика находится на стыке прикладной теории алгоритмов и теоретической молекулярной биологии и, подобно другим разделам биоинформатики, бурно развивалась в течение 70-х - 90-х годов XX века 1 .

А лгоритмы анализа символьных последовательностей и связанные с ними алгоритмы сортировки и алгоритмы на графах активно изучались и разрабатывались, начиная со второй половины 50-х годов. Алгоритмический бум 60-х - 70-х годов был связан как с разработкой теоретических моделей вычислений (конечные автоматы и их варианты с различными видами памяти), так и с появлением компьютеров и, следовательно, реальной потребностью в обработке значительных (по тем временам) объемов данных. Своеобразными итогами этого периода стали многотомное «Искусство программирования» Д. Кнута (1968-1973) и «Построение и анализ вычислительных алгоритмов» А. Ахо, Дж. Хопкрофта и Дж. Ульмана (1976). Анализ достижений этого замечательного этапа в развитии теории алгоритмов есть также в книге: В. А. Успенский, А. Л. Семенов. Теория алгоритмов: основные открытия и приложения. - М.: Наука, 1987.

Таким образом, к моменту создания первых баз данных последовательностей ДНК и белков - началу 80-х годов - алгоритмический аппарат был, в значительной степени, готов. При этом специалисты в области алгоритмов рассматривали биологические приложения в одном ряду с техническими, одни и те же алгоритмы применялись, например, для сравнения («выравнивания») биологических последовательностей и для поиска сбоев при хранении файлов. Характерно название первого сборника работ по биоалгоритмике - «Time Warps, String Edits, and Macromolecules: The Theory and Practice of Sequence Comparison» (Sankoff, D and Kruskal, JB, eds, 1983).

Впрочем, довольно скоро выяснилось, что анализ биологических последовательностей имеет свою специфику - прежде всего с точки зрения постановок задач. Вот, например, задача о распознавании «вторичной» структуры РНК. Она очень важна для молекулярной биологии и впервые была рассмотрена еще в конце 70-х годов. Молекула рибонуклеиновой кислоты (РНК) - однонитевой полимер, состоящий из четырех видов мономеров-нуклеотидов (аденин, гуанин, урацил, цитозин). А-У и, соответственно, Г-Ц могут образовывать водородные связи, стабилизирующие молекулу. Однако образование одних связей из-за стереохимических соображений делает невозможным образование других, то есть не все комбинации межнуклеотидных связей в молекуле РНК допустимы (правила конфликтов между связями известны). Требуется для данной нуклеотидной последовательности найти наиболее стабильную вторичную структуру, т. е. допустимый набор межнуклеотидных связей, содержащий наибольшее возможное количество элементов (рис. 1). Эта задача может быть переформулирована как задача построения графа (точнее - гиперграфа , см. ниже) специального вида с максимально возможной суммой весов ребер (вершины соответствуют нуклеотидам, ребра - установленным связям) и решена с помощью метода динамического программирования (Ruth Nussinov и соавт., 1978; также см. гл. 7 в книге М. Уотермена). Однако появляющиеся ограничения на вид графа весьма экзотичны с точки зрения небиологических приложений. Другой пример задачи, не имеющей смысла вне биологического контекста, -распознавание кодирующих фрагментов ДНК, рассмотренное в статье Михаила Гельфанда.

Возвращаясь к задаче распознавания наиболее стабильной «вторичной» структуры РНК, отметим следующие обстоятельства, характерные для многих важных задач биоалгоритмики:

Модель, положенная в основу описанной выше задачи, - упрощенная и во многих случаях не согласуется с экспериментом. Полезно учитывать и вклад нуклеотидов, не участвующих в образовании водородных связей. Ограничения на множество допустимых наборов связей, принятые в задаче (а), слишком строгие. Различные формальные постановки задач, лучше отражающие биологическую реальность, приводят к существенному усложнению алгоритма;

В реальности молекула РНК может принимать не ту структуру, которой мы приписали оптимальную энергию, а несколько иную, например, из-за того, что мы не знаем точных значений энергетических параметров. Поэтому полезно не искать одну «оптимальную» структуру, а проанализировать все возможные структуры и оценить вероятность образования каждой отдельной связи («статистический вес» связи). Это также можно решить методом динамического программирования.

Многие авторы пытаются выяснить вторичную структуру РНК, не сводя ее к какой-либо алгоритмической оптимизационной задаче, а путем моделирования реального процесса «сворачивания» молекулы РНК (т. е. установления и исчезновения водородных связей).

Специфика биоалгоритмики, однако, проявляется не только в задачах, которые «по определению» не могли встретиться вне анализа биологических последовательностей. Показательна самая старая и, наверное, самая популярная задача анализа биологических последовательностей - их выравнивание. Выравнять две последовательности - это изобразить их друг над другом, вставляя в обе пробелы так, чтобы сделать их длины равными. Вот, например, как можно выровнять слова ПОДБЕРЕЗОВИК и ПОДОСИНОВИК (cм. врезку).

Такой способ изображения последовательностей широко распространен в молекулярной биологии. Предполагается, что выравнивание отражает эволюционную историю, то есть стоящие друг под другом символы соответствуют одному и тому же символу последовательности-предка. К сожалению, мы не знаем, как именно шла эволюция последовательностей. Поэтому в качестве «правильного» обычно выбирается выравнивание, оптимальное относительно некоторой функции качества. Но как мы можем контролировать правильность выбора этой функции? Есть ли у нас (пусть приблизительные) «эталоны»? К счастью, да. В качестве эталонных можно взять выравнивания, соответствующие наилучшему возможному совмещению их пространственных структур (такие структуры известны для нескольких сотен белков). Это связано с тем, что функционирование белка в клетке определяется прежде всего его пространственной структурой и можно ожидать, что аминокислоты, лежащие в сходных местах трехмерной структуры, соответствуют одним и тем же аминокислотам предкового белка.

В «добиологическом» анализе последовательностей (например, при сравнении файлов) использовалось понятие редактирующего расстояния . При этом фиксируется набор редактирующих операций (например, замена символа, вставка символа и удаление символа) и для каждой операции фиксируется цена. Тогда каждое выравнивание получает свою цену, определяемую как сумма цен отдельных операций.

Лучшим считается то, которое имеет наименьшую цену. Например, при цене замены 1 и цене вставки/удаления 3, лучшими в примере во врезке 2 будут третье и четвертое выравнивания, а при цене замены 10 и той же цене вставки/удаления, лучшим будет пятое.

Довольно скоро выяснилось, что для выравнивания биологических последовательностей в эту естественную схему необходимо внести ряд важных изменений. Дело в том, что разные аминокислоты различны по-разному. Например, аланин и валин очень похожи по своим свойствам (и цена замены аланина на валин должна быть небольшой), и они оба совершенно не похожи на триптофан. Более того, даже одинаковые аминокислоты «одинаковы по-разному». Так, триптофан - редок, и сопоставление двух триптофанов более ценно, чем сопоставление весьма распространенных аланинов.

Поэтому вместо «цены замены символа» в схеме редактирующего расстояния при сравнении белков используется весовая матрица замен , где каждой паре символов соответствует вес (положительный - для похожих, отрицательный для непохожих), а выравниванию в целом - вес W=R-G , где R - суммарный вес сопоставлений символов (в соответствии с выбранной весовой матрицей замен), G - суммарный штраф за удаления и вставки символов. Таким образом, оптимальное выравнивание - это выравнивание, имеющее наибольший вес (в то время как цена требовалась наименьшая ). Например, пусть вес совпадения для гласных букв +2, вес совпадения для согласных букв +1, вес сопоставления двух различных гласных или двух различных согласных -1, вес сопоставления гласной и согласной -2. Далее, пусть штраф за удаление или вставку символа -5. Тогда, например, третье выравнивание имеет вес -3, а четвертое - +1. Таким образом, оптимальное выравнивание слов ПОДБЕРЕЗОВИК и ПОДОСИНОВИК (при выбранных матрице замен и штрафе за удаление/вставку) - четвертое. Переход от минимизации цены к максимизации качества, - это не только технический трюк. На языке максимизации качества естественно ставится задача о поиске оптимального локального сходства. Эта задача соответствует сравнению двух белков, которые в ходе эволюции стали совсем непохожи - везде, кроме относительно короткого участка.

Алгоритм построения оптимального выравнивания основан на методе динамического программирования, введенном в широкую практику Ричардом Беллманом в 1957. Идея метода состоит в следующем: чтобы решить основную задачу, нужно придумать множество промежуточных и последовательно их решить (в каком порядке - отдельный вопрос). При этом очередная промежуточная задача должна «легко» решаться, исходя из уже известных решений ранее рассмотренных задач. Множество промежуточных задач удобно представлять в виде ориентированного ациклического графа. Его вершины соответствуют промежуточным задачам, а ребра указывают на то, результаты решений каких промежуточных задач используются для основной. Таким образом, исходная задача сводится к поиску оптимального пути в графе 2 (подробнее о методе динамического программирования см. книгу Ахо, Хопкрофта и Ульмана, а также статью Finkelstein A.V., Roytberg M.A. Computation of biopolymers: a general approach to different problems. Biosystems.1993; 30 (1-3): 1-19.). Аналогично можно переформулировать различные варианты задач выравнивания, предсказания вторичной структуры РНК и белков, поиска белок-кодирующих областей ДНК и других важных проблем биоинформатики.

При построении оптимального выравнивания (мы рассматриваем простейший случай, когда удаление и вставка отдельных символов штрафуются независимо) промежуточные задачи - это построение оптимальных выравниваний начальных фрагментов исходных последовательностей. При этом задачи нужно решать в порядке возрастания длин фрагментов. Граф зависимости между промежуточными решениями для сравнения слов «ПАПКА» и «ПАПАХА», а также последовательность промежуточных шагов, приводящих к оптимальному выравниванию, показаны на рис. 2.

Рис. 2.

(a) Граф зависимостей между промежуточными задачами для выравнивания слов ПАПКА и ПАПАХА. Каждая вершина соответствует паре начальных фрагментов указанных слов. Диагональное ребро, входящее в вершину, соответствует сопоставлению последних букв сравниваемых начальных фрагментов (случай 1), горизонтальное ребро - удалению буквы в слове ПАПАХА, вертикальное ребро - удалению буквы в слове ПАПКА (случаи 2 и 3). Правая верхняя вершина - начальная и соответствует выравниванию пустых слов, левая нижняя вершина - конечная, соответствует выравниванию полных слов ПАПКА и ПАПАХА.
(b) Оптимальное выравнивание слов ПАПКА и ПАПАХА при следующих параметрах: вес совпадения букв: 1, штраф за замену гласной на гласную или согласной на согласную: 1, штраф за замену гласной на согласную или согласной на гласную: 2, штраф за удаление символа: 3.
(c) Траектория, соответствующая оптимальному выравниванию. В клетках указаны веса промежуточных оптимальных выравниваний. Например, вес оптимального выравнивания для «ПАП» и «ПАПА» равен 0, а для «ПАПК» и «ПАПАХ» равен -1.

Н а двух примерах - распознавания вторичной структуры РНК (бегло) и выравнивания белковых последовательностей (более подробно) мы проследили за эволюцией постановок задач в биоалгоритмике. Упомянем кратко еще несколько аспектов. Пожалуй, с практической точки зрения самым важным является поиск в базах данных последовательностей, сходных с изучаемой. Определяющую роль начинают играть проблемы вычислительной эффективности, решаемые, в частности, с применением алгоритмов хеширования. Для предсказания пространственной структуры белков важны алгоритмы выравнивания последовательности со структурой (при этом используется тот факт, что из-за разницы физико-химических свойств аминокислоты встречаются с разной частотой на поверхности белка и в структурном ядре). Наконец, мы полностью оставили в стороне задачи построения эволюционных деревьев по белковым последовательностям. Подчеркнем, что во всех случаях происходит интенсивная «притирка» постановок задач - как с биологической (большая адекватность), так и с алгоритмической (возможность построения более эффективных алгоритмов) точки зрения.

Живые организмы устроены крайне сложно и содержат большое количество взаимодействующих систем. Основную роль в управлении жизнедеятельностью играют гены - участки молекулы ДНК, в которых хранится информация об устройстве молекул, вовлеченных в различные процессы в живой клетке. Считается, что ген работает, когда с него считывается информация.

Б иологам и медикам необходимо знать реакцию больших каскадов взаимозависимых и взаимообуславливающих генов на то или иное изменение внешних условий, например в ответ на введенное лекарство.

Полное число генов измеряется величинами порядка 103 (6200 у дрожжей) - 104 (38 000 по последним данным у человека), при этом базовые жизненные процессы регулируются сотнями генов. До последнего времени в значительной степени отсутствовали возможности для получения, хранения и обработки столь значительных массивов данных. Благодаря прогрессу компьютерной индустрии были созданы как технологии для одновременного экспериментального получения информации о работе большого числа генов в клетке, так и методы обработки этой информации, позволяющие сделать на ее основе простые и однозначные выводы (например, поставить точный диагноз какого-либо заболевания).

Возникла индустриальная молекулярная биология, в которой применение компьютерных технологий является необходимым условием и предусматривается уже на стадии планирования эксперимента. Формирование этой области совершенно изменило взгляд на роль вычислительных устройств в биологической науке - то, что раньше было дополнительным, необязательным и вспомогательным фактором, неожиданно стало играть определяющую роль. Таким образом, оказалось, что прогресс биотехнологии нереален без разработки специализированных аппаратных, алгоритмических и программных средств, а соответствующая отрасль кибернетики вошла в состав биоинформатики.

Современная экспериментальная техника позволяет создать анализирующую матрицу (называемую также биочипом ) размером несколько сантиметров, при помощи которой можно получить данные о состоянии всех генов организма. Для создания эффективной методики необходимы совместные усилия специалистов в области молекулярной биологии, физики, химии, микроэлектроники, программирования и математики.

История развития технологии биочипов относится к началу девяностых годов, при этом российская наука сыграла не последнюю роль. Здесь уместно пояснить, что биочипы по природе нанесенного на подложку материала делятся на «олигонуклеотидные» (см. «КТ» № 370, Рубен Ениколопов, «Биочипы»), когда наносятся короткие фрагменты ДНК, обычно принадлежащие к одному и тому же гену, и биочипы на основе кДНК, когда робот наносит длинные фрагменты генов (длиной до 1000 нуклеотидов).

Наиболее популярны в настоящее время биочипы на основе кДНК, ставшие по-настоящему революционной технологией в биомедицине. Остановимся подробнее на их приготовлении, а также на получении и обработке данных с их помощью. Определяющей технологической идеей стало применение стеклянной подложки для нанесения генетического материала, что сделало возможным помещать на нее ничтожно малые его количества и очень точно определять местоположение конкретного вида тестируемой ДНК. Для приготовления биочипов стали использоваться роботы, применяемые прежде в микроэлектронике для создания микросхем (рис. 1). Молекулы ДНК каждого типа создаются в достаточном количестве копий с помощью процесса, называемого амплификацией; этот процесс также может быть автоматизирован, для чего используется специальный робот - умножитель. После этого полученный генетический материал наносится в заданную точку на стекле (на жаргоне такой процесс называется «печать») и химически к стеклу пришивается (иммобилизация). Для иммобилизации генетического материала необходима первичная обработка стекла, а также обработка напечатанного биочипа ультрафиолетом, стимулирующим образование химических связей между стеклом и молекулами ДНК (рис. 2).

Грубо говоря, из клетки выделяется смесь продуктов работы генов, т. е. РНК различных типов, производимых в определенных условиях. Результатом эксперимента и является знание того, продукты каких именно генов появляются в клетке в условиях, интересующих исследователя. Молекулы каждого типа РНК связываются (в лучшем случае) с единственным типом молекул из иммобилизованных на биочипе. Те молекулы, которые не связались, можно смыть, а для определения того, к каким из иммобилизованных на чипе молекул нашлись «партнеры» в исследуемой клетке, экспериментальная и контрольная РНК метится флуоресцирующими красителями.

Таким образом, следующим этапом в получении результата на приготовленном биочипе является биохимическая реакция, в процессе которой один или несколько образцов ДНК или РНК, полученные из клеток, ткани или органа, метятся одним или несколькими флуоресцентными красителями и гибридизуются (связываются) с материалом, напечатанным на биочипе.

После того как флуоресцирующие образцы прореагировали с биочипом, чип сканируют лазером, освещая поочередно точки нанесения ДНК каждого конкретного типа и следя за интенсивностью сигнала флуоресценции (рис. 3).

Изготовление одного биочипа занимает от трех до шести недель, при условии, что в распоряжении исследователя есть генетический материал для нанесения на чип. Сам эксперимент - гибридизация и снятие данных - занимает один-два дня, а при традиционной технологии такая же группа исследователей потратила бы годы на последовательное проведение всех экспериментов, включенных в один биочип.

Сигналы лазерного сканирования должны быть обработаны и проанализированы. Гены на стекле дают сигналы различной интенсивности, кроме того, всегда есть некоторое фоновое излучение от метки, не смывшейся со стекла, которое также неоднородно. Необходимо автоматически выделить из шума сигналы разной интенсивности, несущие различную информацию.

На следующем этапе гены, которые дают в одинаковых условиях одинаковый сигнал, объединяются в группы. Это также делается автоматически, с помощью алгоритмов кластерного анализа. Кластеры генов, ведущих себя схожим образом в разных условиях или в разные моменты времени, служат исходной точкой для заключений биологического характера.

В Советском Союзе была создана замечательная школа по разработке алгоритмов распознавания изображений, в первую очередь для анализа изображений, поступающих с искусственных спутников Земли. Наше математическое образование на протяжении многих десятилетий было одним из лучших в мире, поэтому наши прикладники, инженеры и алгоритмисты всегда легко разрабатывали оригинальные специализированные методы анализа данных. Неудивительно, что выходцы из нашего Отечества трудятся во многих фирмах, работающих на переднем крае возникающей на наших глазах индустрии. Наши бывшие соотечественники являются организаторами одной из наиболее известных фирм, предоставляющих методы обработки, - Informax , акции которой являются ценообразующими во всех биотехнологических биржевых индексах.

Однако создание биохимической технологии, в подавляющей степени, - заслуга американских фирм и научных центров. Mногие фирмы делают на заказ сами биочипы. Самые известные из них - это Affymetrix и Clontech . Incyte - самая мощная на сегодняшний день компания - кроме изготовления биочипа на заказ и продажи генетического материала для печати на чип, сама выполняет и гибридизацию, а заказчику предоставляет только готовые данные. Развитие индустрии зашло настолько далеко, что возник прибыльный рынок приготовления специально обработанных стекол для приготовления биочипов в условиях отдельной молекулярно-биологической лаборатории. К таким фирмам относится, например, Corning .

Какие же задачи под силу подобной непростой технологии, имеющей дело с сотнями тысяч генов одновременно? Сразу хотелось бы сделать оговорку, что на сегодняшний момент имеется тенденция перехода от чипов с тысячами генов к чипам с сотнями генов, отобранных специально для решения конкретной задачи. Поясним на примере. Исследователями Массачусетсского технологического института была сделана работа по использованию чипов для диагностики различных подклассов острого лейкоза человека. Точная диагностика двух подтипов острого лейкоза (острый миелоидный и острый лимфобластный) имеет определяющее значение при выборе курса терапии. Первоначально был использован олигонуклеотидный чип из 6000 генов. Используя в качестве пробы РНК из клеток костного мозга, исследователям удалось выделить и подготовить к реальному использованию в качестве подчипа набор из 50 генов, сильное различие по экспрессии которых позволяет однозначно определить тип опухоли 1 (рис. 4). Мы полагаем, что нет нужды доказывать необходимость диагностических чипов, поэтому учитывая небольшое количество аналитических ячеек на чипе, а значит меньшую себестоимость, существует реальная возможность их разработки и производства у нас в стране.

Что же до классической науки, то тут возможности применения чипов безграничны. Группа исследователей из Иллинойского университета под руководством Андрея Гудкова, используя кДНК-чипы, нашла и сравнила спектры генов, отвечающих за реакцию клетки на радиационные воздействия различной природы. Под воздействием радиации, которое клетка воспринимает как стресс, активируются гены, известные как каскад зависимых от р53 генов (р53 - белок, одна из главных функций которого - защищать клетку от любых неблагоприятных воздействий). Многие из этих белков могут рассматриваться как кандидаты на использование в химиотерапии раковых опухолей и для защиты нормальных клеток организма от противоопухолевых агентов, таких как радиационное облучение и химиотерапевтические препараты.

Интересную по практическому приложению работу сделали ученые из лаборатории радиобиологии в Хельсинки. Используя чипы, они попытались выяснить, какие гены меняют свою активность под влиянием радиосигнала с частотой 900 МГц, который дают всеми нами любимые сотовые телефоны. Человеческие клетки из первичного подкожного слоя были выдержаны в культуре под этим сигналом в течение одного часа, после чего РНК из этих клеток и из клеток контрольной серии была пущена в качестве пробы на чип. Гены, активность которых существенным образом изменилась в течение этого эксперимента, относятся к генам стресс-ответа, таким как р53, hsp27, изменение активности которых во многих случаях говорит о том, что клетка или целый организм подвергаются неблагоприятным воздействиям. По-видимому, можно говорить (хотя и очень осторожно) о том, что получены прямые доказательства стрессогенного воздействия электромагнитного поля, а также данные о биохимических основах его биологического действия. Так что не исключено, что люди, меньше говорящие в течение дня по сотовому телефону или использующие специальные наушники, меньше устают в конце рабочего дня.

Судя по всему, мы присутствуем при возникновении нового метода получения и использования информации о живой природе. Данные будут собираться автоматически и на промышленной основе. Планирование и подготовка таких экспериментов, вероятно, со временем также будет осуществляться автоматически. В пользу этого свидетельствует опыт развития компьютерных технологий, где создание микропроцессора автоматизировано в значительной степени уже на ранних стадиях проектирования, все же дальнейшие стадии разработки и внедрения в производство во всё большей степени происходят практически без участия, да и без контроля человека. На «входе» будет ставиться задача крайне общего вида, например: найти три характерных гена, отвечающие за реакцию клетки на такие-то нестандартные внешние условия, и не работающие ни в каких нормальных условиях. Автоматическая система будет сама осуществлять подбор биологического материала, подготовку, постановку и интерпретацию биологического эксперимента, а также формулировку наиболее вероятного решения поставленной задачи. На долю исследователя останется только тестирование полученных результатов и выработка инструкций для применения полученного нового знания в медицине или биотехнологии.

Более того, изменится, вероятно, сама идея биологического эксперимента. Поскольку заключение о работе той или иной живой системы будет выноситься с помощью компьютерного анализа данных, биологический эксперимент будет часто ставиться не с целью непосредственной проверки той или иной идеи, как сейчас, но с целью расшивки «узких мест» в работе автоматизированной системы хранения и обработки информации. Что-то подобное мы уже наблюдаем в физике высоких энергий, где эксперименты на ускорителях ставятся с учетом существующих приближенных методов вычислений в физических теориях, с целью более точного определения оценочных параметров, в наибольшей степени влияющих на точность вычисляемых физических величин.

Хотелось бы надеяться, что в российских условиях можно будет включиться в серьезную работу по созданию программного обеспечения индустриальной биомедицины. Работа в этой области не требует больших затрат, характерных для биологических исследований (на оборудование, реактивы и т. д.) Дорогие суперкомпьютеры тоже в общем-то не необходимы - в большинстве научно-исследовательских центров в США используются кластеры ПК. Необходимы изобретательность, упорство и фантазия, а также хорошее владение современными математическими методами статистического анализа, что всегда составляло наши сильные стороны.

По-видимому, единственной организацией в России, серьезно занимающейся технологией биочипов, является Институт молекулярной биологии РАН им. В. А. Энгельгардта. В этом институте создаются также микрочипы с ячейками, содержащими различные зонды для проведения химических и ферментативных реакций с анализируемыми образцами (см. «Инфобизнес», №151 - Л. Л.-М. ).

Разработка технологии биологических микрочипов начата в ИМБ РАН в 1989 году и с тех пор продолжается усиленными темпами, в последние годы в сотрудничестве с США. ИМБ РАН принадлежит 15 международных и множество российских патентов. Более подробно с исследованиями, проводимыми в ИМБ РАН, можно ознакомиться на сайте http://www.biochip.ru/ .