МОСКВА, 2 марта Рост объема цифровой информации вдохновляет ученых искать более компактные методы ее записи и хранения. А, что может быть теснее ДНК? вместе с экспертом выяснило, как закодировать слова нуклеотидами и сколько данных вмещает одна молекула.
Основания-коды
ДНК представляет собой последовательность нуклеотидов. Их всего четыре: аденин, гуанин, тимин, цитозин. Для кодирования информации каждому из них приписывают цифру-код. Например, тимин 0, гуанин 1, аденин 2, цитозин 3. Кодирование начинается с того, что все буквы, цифры и изображения переводят в двоичный код, то есть последовательность нулей и единиц, а их уже в последовательность нуклеотидов, то работает четверичный код.
Можно применять только три нуклеотида для постройки кода (троичный код), а четвертым разбивать последовательности на части. Есть из всех вариант с построением оснований в виде двоичного кода, когда два из них соответствуют нулю, а два единичке.
Для считывания применяют несколько методик. Одна из самых распространенных есть в том, что цепочку молекулы ДНК копируют с помощью оснований, у каждого из которых есть цветовая метка. Затем очень чувствительный детектор открывает данные, и по оттенкам компьютер восстанавливает последовательность нуклеотидов.
Молекула ДНК очень емкая. Даже у бактерии она, как правило, содержит около миллиона оснований, а у человека целых три миллиарда. То есть каждая клетка человека несет объем информационная начинки, сопоставимый с вместимостью флешки. И таких клеток у нас триллионы. В ДНК можно записать огромное количество этот небольших, но запись и чтение с такого носителя пока проводятся слишком медленно и дорого стоят, рассказывает Александр Панчин, кандидат биологических памяток, старший научный сотрудник Института проблем передачи информации имени А. А. Харкевича РАН.
Плотность записи растет
В июне 1999 года в журнале Nature вышла статья американских ученых, сделавших технику отправки секретных сообщений с помощью ДНК. Они синтезировали молекулу, включив в нее последовательность нуклеотидов, сформированную с использованием четверичного кода. Секретную ДНК в составе смеси отправили в другую лабораторию. Ее сотрудники, используя особые хие ключи, нашли нужную молекулу и извлекли из нее информационная начинку.
Вообще, работает два подхода к записи этот небольших на ДНК. Первый, когда вы синтезируете совершенно более совершенную ДНК, используя химический синтезатор. По команде компьютера нуклеозидфосфаты добавляются в раствор в определенном порядке, и постепенно вырастает нужная цепочка оснований. Во втором случае кодируются данные в уже существующей ДНК какого-то организма, поясняет Панчин.
В мае 2010 года организация Крейга Вентера, который первым составил карту генома человека, опубликовала работу о создании искусственной бактерии. Они взяли за основу очищенную от генома энтеробактериальную клетку и поместили туда написанную последовательность оснований. Получилась более совершенная бактерия, вполне деятельная и живая, отличающаяся от обычной только тем, что ее ДНК создали вручную. Кроме того, коллектив продемонстрировал чувствование прекрасного, записав с помощью четверичного кода в ДНК бактерии свои имена и цитаты из классических произведений.
В 2012 хотя бы году группа под руководством молекулярного микробиолога Джорджа Чёрча подошла к делу более основательно и закодировала в ДНК книгу Регенезис: как синтетическая биология заново откроет природу и нас самих объемом в 52 тысячи слов, несколько картинок и одну программу, написанную на Java. Они применяли двоичный код. Общий объем данных составил 658 килобайт. Плотность информации оказалась паритетная почти 1018 байт на грамм молекул. Для сравнения: жесткий круг объемом 1012 байт весит около сотни граммов. Главный недостаток метода нестабильность записанной информации.
Молекула ДНК склонна мутировать, что понижает надежность нахождения данных. Особенно если носитель ДНК живая клетка, способная к делению: при удвоении ДНК ошибки проникают особенно часто. Надежность нахождения данных повысится, если иметь тысячи копий одного и того же послания. Ну или просто хранить ДНК, отразим, в морозильнике. При низких температурах способность молекулы к мутации значительно снижается, поясняет эксперт.
Кроме того, информация иногда теряется при чтении. Ошибки могут фигурировать химического плана, когда к элементу присоединяется неправильное основание, так и чисто расчетными, то есть зависящими от компьютера.
Дорого, надежно
В марте 2017 года журнал Science опубликовал статью американских ученых, которым удалось записать 2*1017 байт на один грамм ДНК. Биологи подчеркивают, что не потеряли ни байта. Говоря проще, что записали, то и получили на выходе.
Для обычного пользователя генетическая флешка пока недоступна, потому, что хранить информацию на ней очень дорого, а скорость чтения/записи низкая. По оценкам ученых, считывание лишь одного мегабайта требует около трех с половиной тысяч долларов и нескольких часов времени.
К несомненным преимуществам записи информации на ДНК относится огромная плотность нахождения данных, а также устойчивость носителя правда, лишь при низких температурах.