Большие языковые модели, такие как GPT-4, покорили мир благодаря удивительному владению естественным языком. Однако самая значительная долгосрочная возможность для студентов магистратуры повлечет за собой использование совершенно другого типа языка: языка биологии.
В результате долгого развития исследований в области биохимии, молекулярной биологии и генетики за последнее столетие возникла одна поразительная тема: оказывается, что биология — это дешифруемая, программируемая, в некотором смысле даже цифровая система.
ДНК кодирует полные генетические инструкции для каждого живого организма на Земле, используя всего четыре переменных: А (аденин), С (цитозин), G (гуанин) и Т (тимин). Сравните это с современными вычислительными системами, которые используют две переменные — 0 и 1 — для кодирования всей цифровой электронной информации в мире. Одна система является бинарной, а другая — четверичной, но у них на удивление много концептуальных совпадений; обе системы можно считать цифровыми.
Возьмем другой пример: каждый белок в каждом живом существе состоит из одномерной цепочки аминокислот, связанных вместе в определенном порядке, и определяется ею. Белки имеют длину от нескольких десятков до нескольких тысяч аминокислот, на выбор доступно 20 различных аминокислот.
Это также представляет собой в высшей степени вычислимую систему, для изучения которой хорошо подходят языковые модели.
Как выразился генеральный директор и соучредитель DeepMind Демис Хассабис: «Я думаю, что на самом фундаментальном уровне биологию можно рассматривать как систему обработки информации, хотя и чрезвычайно сложную и динамичную. Точно так же, как математика оказалась подходящим языком описания физики, биология может оказаться идеальным типом режима для применения ИИ».
Большие языковые модели наиболее эффективны, когда они могут оперировать огромными объемами насыщенных сигналами данных, выявляя скрытые закономерности и глубокую структуру, которые выходят далеко за пределы способности любого человека усвоить. Затем они могут использовать это сложное понимание предмета для создания новых, потрясающе сложных результатов.
Например, поглощая весь текст в Интернете, такие инструменты, как ChatGPT, научились вдумчиво и тонко обсуждать любую мыслимую тему. Поглощая миллиарды изображений, модели преобразования текста в изображение, такие как Midjourney, научились создавать креативные оригинальные изображения по запросу. Нацеливание больших языковых моделей на биологические данные, что позволит им выучить язык жизни, откроет столь же захватывающие возможности.
Источник.