"Журнал «Вокруг Света» № 11 за 2004 год (2770)" - читать интересную книгу автора (Вокруг Света)Ярмарка идей: Эффекты ГРИД-средыАктивно создаваемая сегодня вычислительная среда ГРИД призвана объединить компьютерные ресурсы всех для блага каждого. И похоже, инновационная технология действительно скоро потрясет мир, открыв небывалые возможности для любого рода исследований, требующих обработки большого объема данных и продолжительных вычислений. Следуя родоначальникам концепции ГРИД, американским ученым Яну Фостеру и Карлу Кессельману, современный статус вычислительных инфраструктур можно сравнить с состоянием электрических систем в самом начале ХХ века. Тогда практически каждый пользователь электроэнергии применял свой собственный генератор. Революционным шагом было возникновение электросетей, создание технологий передачи и распределения электроэнергии, организация стандартизованной службы универсального и гарантированного доступа к электричеству. Концепция ГРИД (от англ. – «сетка, решетка») подразумевает создание глобальной компьютерной инфраструктуры, обеспечивающей интеграцию географически распределенных информационных и вычислительных ресурсов. Концепция ГРИД базируется на следующих неоспоримых фактах: – быстром и постоянном увеличении производительности микропроцессоров массового производства. Современный персональный компьютер на базе процессора Pentium 4 сравним по скорости вычислений с суперкомпьютерами 10-летней давности – появлении быстрых оптоволоконных линий связи. Сегодня базовые линии связи в сети Интернет имеют пропускную способность 10 гигабит/с, а подключение к Сети многих научных организаций происходит на скорости в 1—2 гигабит/с – феномене Интернета, глобализации процесса обмена информацией и интеграции мировой экономики – развитии метакомпьютинга – научной дисциплины по организации сложных вычислительных процессов – совершенствовании технологий и средств информационной безопасности. ГРИД предполагает высокий уровень обобществления компьютеров и линий связи, а это не так просто будет принять собственникам ресурсов. Они должны получить взамен нечто настолько ценное, что смогло бы компенсировать такую «экспроприацию». Законен вопрос – что может дать ГРИД-технология? Вычислительные задачи бывают разного уровня – от относительно простых, не требующих уникальных вычислительных ресурсов, до задач, решение которых возможно только на суперкомпьютерах. Первый тип имеет массовый характер, и это основной тип нагрузки в большинстве прикладных областей. Эти задачи можно выполнять, используя вычислительные ресурсы и программное обеспечение массового производства. Заметим сразу, что в большинстве случаев именно на такие прикладные задачи и ориентирована ГРИД-технология. Однако существуют задачи, которые невозможно решить на компьютерах массового производства с использованием общедоступного программного обеспечения. Это задачи аэро– и гидродинамики (расчет крыла самолета или корпуса быстроходного судна), моделирование сложных динамических систем (ядерного взрыва или образования нейтронной звезды), задачи предсказания погоды и создание модели климатических изменений. Здесь требуется специальная организация работы многих сотен и тысяч процессоров для решения одной задачи. С этой целью создаются многопроцессорные компьютеры специальной архитектуры и особое программное обеспечение. К таким вычислительным ресурсам обычно применяется термин «суперкомпьютер». Для рынка вычислительных задач характерно то, что в рамках какого-либо фундаментального исследования, прикладной проблемы или даже коммерческого проекта приходится решать множество задач, каждая из которых в отдельности не является сложной. Конечно, поток или набор относительно простых и однотипных задач легко распараллеливается, и использование суперкомпьютеров несомненно даст огромный эффект по производительности. Однако такой же эффект можно получить и используя простые наборы персональных компьютеров, объединенные локальной сетью, – кластеры, в которых один из компьютеров занимается распределением задач по принципу «одна задача – один процессор». В физике высоких энергий такие кластеры получили название компьютерных ферм. Практика последнего десятка лет показала, что использование ферм в несколько раз дешевле, чем применение суперкомпьютеров, и дает такой же эффект производительности для большинства прикладных задач. И в этом плане ГРИД как глобальное объединение процессоров, скорее, является фермой, нежели суперкомпьютером. Хорошо известно, что степень использования процессорной мощности персональных компьютеров очень низка, в большинстве случаев процессор реально загружен в течение лишь нескольких процентов рабочего времени. Эта проблема существует и для суперкомпьютерных центров. В мире уже сейчас работают сотни миллионов персональных компьютеров как на рабочих местах, так и в составе кластеров (ферм). ГРИД-технология позволит объединять эти мощности в глобальные географически распределенные фермы. В результате такого объединения пользователь получает возможность запуска своих задач на глобальной ферме, которая будет на много порядков мощнее, нежели доступные ему локальные ресурсы. При этом собственные компьютеры будут, в свою очередь, включены в состав этой глобальной фермы и на них будут выполняться задачи других пользователей. Эффект увеличения скорости счета будет определяться прежде всего тем, что в каждый конкретный момент не так много заданий посылается на исполнение и поэтому задачи выполняются сразу и быстро на очень большом количестве процессоров. Таким образом, «конфеткой», на которую должны клюнуть собственники компьютерных ресурсов, станет резкое увеличение производительности доступных им ресурсов. В идеале все это может происходить бесплатно, в форме взаимозачета. Однако понятно, что учет и контроль всегда необходимы. Поэтому соответствующие системы – своеобразный биллинг для пользователей ГРИД – уже разрабатываются и опробываются на действующих фрагментах сети. Но кроме производительности (скорости счета в реальном времени) есть другая «изюминка», связанная с возможностью использования географически распределенных данных для решения поставленной задачи без их транспортировки в одно место. Действительно, программа может мигрировать от сайта к сайту, в соответствии с тем, где необходимые данные хранятся, а окончательный результат будет доставлен пользователю после завершения всех вычислений. Технология ГРИД в принципе нацелена на утилизацию всех видов компьютерных ресурсов, вне зависимости от типов операционных систем и вида технических средств. Это означает, что приготовленная в этой технологии задача не должна быть привязана к конкретному виду техники, и, следовательно, должна быть переносима с одной платформы на другие. ГРИД – это набор стандартизированных сервисов, выполняющих свои функции в фоновом режиме в соответствии с универсальными оптимизирующими алгоритмами через использование специальных протоколов и стандартных программных средств промежуточного уровня (middleware). В этом он напоминает саму Всемирную паутину, где запрос на информацию к удаленному сайту происходит по протоколу (HTTP) и с использованием программ – Web-браузеров, сама же информация должна быть записана с использованием определенного стандарта (HTML). В случае ГРИД набор таких протоколов, стандартов и служб оказывается значительно шире. ГРИД – это прежде всего сервис для обеспечения совместимого доступа к географически распределенным гетерогенным компьютерным ресурсам. Другой задачей является обеспечение надежного доступа к вычислительным ресурсам. Также должна быть обеспечена безопасность как для выполняемой задачи (задачи и данные не должны теряться и обязаны быть защищены от несанкционированного доступа к ним), так и в отношении используемого компьютерного ресурса. Большое внимание в функционировании новой технологии уделяется сервису по созданию и обслуживанию виртуальных вычислительных организаций или лабораторий (virtual organizations/laboratories). Именно на уровне виртуальной организации и происходит то самое обобществление ресурсов, а также решаются конкретные вопросы безопасности. Этот далеко не полный перечень служб показывает, что реализация идеи «вычислений через Интернет» не может быть простым развитием Web-технологии. Здесь требуются много принципиально новых решений. Тем не менее вполне закономерно считать, что «ГРИД – это следующий революционный этап развития WWW в XXI веке», более того уже появился новый термин «World Wide Grid – WWG». Понятие ГРИД в последние годы успешно используется учеными разных стран как эффективный «флаг» для выбивания финансирования своих работ по компьютерной поддержке международных и междисциплинарных проектов. Если говорить о реальных достижениях, то прежде всего следует отметить, что ГРИД – не всеобщий земной суперкомпьютер, а ряд реальных сетей, работающих в рамках конкретных научных проблем. Ярким примером является проект MAMMOGRID ( http://mammogrid.vitamib.com ), направленный на компьютерную поддержку медицинских исследований по проблеме рака молочной железы. В этом проекте планируется с помощью новой технологии организовать доступ ученых-медиков к данным, полученным в процессе ежегодных обследований миллионов женщин, и хранящимся в тысячах европейских медицинских центров. Если это удастся, то соответствующее направление медицинской науки выйдет на принципиально новый уровень. Ну а самое главное – за счет комплексной компьютерной обработки маммограмм существенно повысится достоверность обследований на самых ранних стадиях развития болезни. В реальных ГРИД-проектах задача интеграции в глобальные фермы действительно персональных компьютеров, стоящих на рабочих столах пользователей или в их домах, пока не ставится, поскольку интеграция россыпи компьютеров, находящейся в персональном использовании, на сегодняшний день нереальна. Хотя не исключено, что в ближайшем будущем это и станет возможным. Сейчас в ГРИД-инфраструктуры включаются ресурсы только компьютерных центров – научных или производственных. Хотя попытки задействовать такие ресурсы, как компьютеры интернет-кафе, все же предпринимаются. В этом плане интересен опыт объединения компьютерных ресурсов школ подмосковного города Дубны в ГРИД-сеть для решения прикладных задач Объединенного института ядерных исследований (ОИЯИ). Анализируя существующие проекты, можно выделить два основных направления развития ГРИД-технологий – вычислительное (computational) и интенсивно работающее с данными (data intensive GRID). В вычислительном направлении создаваемая инфраструктура нацелена на достижение максимальной скорости расчетов за счет глобального распределения вычислений. В таких случаях выгоднее доставлять требуемые данные к мощному компьютеру для выполнения задачи. Одним из таких проектов является европейский проект DEISA ( http://www . deisa.org), в котором предпринимается попытка объединить суперкомпьютерные центры. В случае же второго направления транспортировка данных представляет собой гораздо более сложную задачу, чем сами вычисления, – такие задачи подпадают под понятие ГРИД для интенсивных операций с данными. Здесь задаче выгоднее пройти по серверам, где хранятся обрабатываемые данные. Важнейшим примером инфраструктур типа интенсивных операций с данными является европейский проект EGEE (http://www.cern.ch/egee), который сегодня в основном обслуживает пользователей Большого адронного коллайдера, создаваемого в Европейской лаборатории по физике частиц в Женеве (ЦЕРН). По плану ускоритель должен начать свою работу в 2007 году, что и определяет жесточайший временной график для доведения технологии ГРИД «до ума». С самого начала работы EGEE в 2004 году в проекте участвовали не только европейские, но также и американские университеты, и 8 российских институтов, и лаборатории из Израиля. Всего же ныне в нем задействовано 70 лабораторий из 27 стран. Еще в 1999 году физики ЦЕРНа, взяв идею ГРИД на вооружение, принялись за ее реализацию. Для этого год спустя был организован проект EU -DataGrid ( http://www.eu-datagrid.org ), который успешно завершился в начале 2004 года. В 2002 году там же, в ЦЕРНе, стартовал еще один проект – LHC Computing GRID (LCG, http://www.cern.ch/lcg), целью которого стало создание всемирной инфраструктуры региональных центров по хранению, обработке и анализу экспериментальных данных с детекторов Большого адронного коллайдера. LCG начал работать в сентябре 2003 года в составе 12 лабораторий мира, среди которых был и российский сайт (НИИЯФ МГУ). Следует особо отметить, что создаваемое в рамках ЕU-DataGRID и EGEE программное обеспечение и другие технологические решения (включая исходные коды) доступны и открыты для всех, и это характерно для большинства ГРИД-проектов. ГРИД-технологии только входят в нашу жизнь, но, по всей видимости, в самое ближайшее время многие из нас убедятся в новаторской пользе распределенного метакомпьютинга и в самой идее ГРИД-концепции – объединения возможностей всех для решения задач каждого. Вячеслав Ильин, д. ф.-м. н., Александр Крюков, к. ф.-м. н., Алексей Солдатов, д. ф.-м. н. |
||||
|