Модель данных cms




Скачать 86.11 Kb.
Дата08.06.2016
Размер86.11 Kb.
модель данных CMS

Разработанная в коллаборации CMS модель данных обеспечивает максимально удобный доступ ко всей совокупности получаемой экспериментом физической информации разной степени детализации. Структура файлов с данными различных типов отражает последовательное преобразование данных на всех этапах реконструкции событий, начиная с потока “сырых” данных (RAW), получаемых из он-лайн системы сбора данных до данных более высокого уровня с реконструированными физическими объектами, полученными с помощью калибровочных констант.

При создании модели данных CMS учитывались особенности вычислительной модели CMS, предполагающей распределенный доступ к данным, их обработку и анализ – в модель была заложена идея преимущественного использования специализированных типов данных для операций с данными в вычислительных центрах определенного уровня. Это позволило, во-первых, уменьшить требования к объему систем хранения данных центров уровня Tier-2 и Tier-3, во-вторых уменьшить объем данных, передаваемых на Tier-2 и Tier-3, и в третьих, уменьшить время выполнения задач физического анализа конечных пользователей.

Таким образом, CMS использует несколько форматов данных с различной степенью детализации, размера и сохранения информации о различных этапах преобразования данных. В свою очередь, данных одного формата сгруппированы в наборы данных, в соответствии с временем набора или содержания.

Все данные CMS записаны в одном из поддерживаемом формате данных, структура которого определяется соответствующим C++ классом пакетов DataFormats (для экспериментальных событий) и SimDataFormats (для данных моделирования) программного обеспечения CMS (CMSSW). Все данные сохраняются как файлы ROOT.

Рис. Пример выходного ROOT-файла с данными (myOutputFile.root)

Все данные CMS записаны в одном из поддерживаемом формате данных, структура которого определяется соответствующим C++ классом пакетов DataFormats (для экспериментальных событий) и SimDataFormats (для данных моделирования) программного обеспечения CMS (CMSSW). Все данные сохраняются как файлы ROOT.

Информация, содержащаяся в данных, разбивается на коллекции (Сollections), которые описываются соответствующими модулями (Module). Каждая коллекция включает специфическую информацию о том или ином объекте данных – например, коллекция generalTracks включает информацию о реконструкции треков в трекере. Она может содержать результаты реконструкции с помощью различных алгоритмов. Соответствующий класс reco::Track Class Reference

#include

описывается диаграммой наследования



classreco_1_1track.png

и включает в себя информацию о параметрах фитирования трека, значения импульса и заряда, идентификатор алгоритма реконструкции и пр.

Track::Track (double chi2,

double ndof,

const Point & referencePoint,

const Vector & momentum,

int charge,

const CovarianceMatrix cov,

TrackAlgorithm algo = undefAlgorithm,

TrackQuality quality = undefQuality

)

Информация, получаемая из данных на любой стадии цепочки обработки или моделирования логически группируется в так называемые уровни данных (data tier) или типы данных. Модель данных CMS включает следующие типы событий (данных):



DAQ-RAW – данные идущие от считывающих элементов детекторных систем и прошедшие отбор первого уровня (L1 trigger) CMS. Эти данные используются в качестве входных данных для системы отбора верхнего уровня (HLT tirgger) CMS. Объем одного события составляет 1-1.5 МБ.

RAW – данные, прошедшие отбор первого и высокого уровней CMS и поступающие на Tier-0 для первичной реконструкции. RAW (или часто называемые “сырыми”) данные содержат самую полную информацию с детекторных систем и результаты срабатывания системы отбора событий (указание по каким критериям событие было отобрано для записи). Объем одного события составляет 1.5 МБ. Эти данные прямо не используются для анализа.

RECO (RECOnstructed data) – данные, содержащие значения параметров физических объектов (треков, вершин взаимодействия, струй, электронов, мюонов, фотонов и т.д.), а также кластеров и хитов, реконструированных с помощью различных алгоритмов из RAW данных. Являются выходным потоком данных из Tier-0 для перераспределения на различные Tier-1. Объем одного события составляет 0.4 МБ. Эти данные могут быть использованы для анализа, но неудобны из-за своего большого размера.

AOD (Analysis Object Data) – представляют собой выборочный набор информации из RECO данных и включает только значения параметров физических объектов (треков, кластеров, вершин взаимодействия, струй, электронов, мюонов, фотонов и т.д.). Имеет значительно меньшие, по сравнению с RECO размеры (0.12 МБ на одно событие) и используется для восстановления окончательной топологии физического события и окончательного физического анализа.

TAG – тип данных, служащий для быстрой идентификации события. Содержит только номер событий и рана и информацию о высокоуровневых физических объектах.

FEVT (FullEvent) – используется для обозначения данных, содержащих как RAW, так и RECO данных (RAW-RECO).

GEN – данные Монте-Карло симуляции физических процессов

SIM – моделирования сигналов взаимодействия различных частиц с детекторными системами установки CMS

DIGI – результаты оцифровки аналоговых сигналов детекторных систем. В основном содержит ту же информацию, что и RAW данные экспериментальных событий.

Каждый тип данных может содержать данные нескольких форматов (multiple data tier). Например, GEN-SIM-DIGI включает данные Монте-Карло моделирования физических процессов (GEN), моделирования сигналов взаимодействия различных частиц с детекторными системами установки CMS (SIM) и результаты оцифровки аналоговых сигналов детекторных систем (DIGI).



Рис. Пример информации, содержащейся в данных типа RAW, RECO и AOD

Таким образом, все данные CMS имеют строго иерархичную структуру – каждое физическое событие относится к данным определенного типа, содержащим строго определенную физическую информацию и имеющим определенное назначение в цепочке обработки и анализа данных. Из выше перечисленных типов данных можно выделить три основных: RAW-RECO-AOD.

Как уже отмечалось, данные типа RECO и AOD содержат низкоуровневых физические объекты (RECO), так и высокоуровневые (AOD), либо и то и другое вместе (RECO). К основным типам объектов, описываемых пакетами форматов RECO и AOD (RECO and AOD Data Format Packages), относятся



  • Низкоуровневые объекты (классы пакетов Data Format Packages)

    • TrackingRecHit (все рек-хиты всех трековых систем CMS)

TrackerRecHit2D (рек-хиты в трекере)

CSCRecHit (рек-хиты в CSC мюонных камерах)

DTRecHit (рек-хиты в DT мюонных камерах)

RPCRecHit (рек-хиты в RPC мюонных камерах)



    • CaloTowers: (энерговыделение в “башнях” калориметрической системы )

  • Высокоуровневые объекты (классы пакетов Data Format Packages)

    • TrackReco (треки)

    • MuonReco (треки мюонов)

    • VertexReco (вершины взаимодействий)

    • BTauReco (алгоритм “мечения” событий)

    • EgammaReco (электроны и фотоны)

    • EgammaCandidates (кандидаты в электроны и фотоны)

    • JetReco (струи)

    • METReco (потярянная энергия)

Кроме того, все набираемые экспериментом данные разбиваются на временные интервалы (по 23 сек набора данных) или секции, каждой из которых соответствует набранная за этот временной интервал та или иная интегральная светимость (Luminosity Section). Значения интегральной светимости для каждой секции хранятся в одном отдельном файле в формате JSON, что гарантирует сохранность этой информации в течении всей процедуру обработки и анализа данных. Размер каждого файла с данными оптимизирован для хранения на ленточном носителе и составляет от 2 до 10 ГБ. В свою очередь файлы сгруппированы в блоки по 500 – 1000 файлов, причем каждый блок не может содержать данные более, чем из одной последовательности набора данных (сеанса). Передача данных осуществляется по блокам – нельзя передавать данные порциями менее одного блока.

Указанные выше ограничения на размеры файлов и их содержимое относится только к RAW изначальным данным, записываемым для кранения. После отборов файл может содержать события из разных сеансов, но размер файла всё ещё ограничен 10ГБ.

Для удобства проведения различных физических анализов данные также объединяются в так называемые первичные наборы данных (Primary Datasets - PD). Критерием такого объединения служат метки системы обора данных (триггера), выполняемого при наборе в ходе реального времени. Это позволяет осуществлять концентрацию событий, содержащих различные физические объекты (электроны, мюоны, фотоны, струи) с заданными физическими характеристиками.

При моделировании событий в файл с секциями светимости заносится значение интегральной светимости, соответствующее одному заданию на выполнение моделирования. Файлы с моделированными данными группируются в соответствии с основными параметрами моделирования – QCD (КХД), HiggsToZZ (распад бозона Хиггса на два Z-бозона) и т.д.

В CMS выделяются четыре основных области производства и использования данных, которые и определяют основные потоки между различными узлами вычислительной системы CMS:


  • Центр уровня Tier-0, в который данные поступают непосредственно из системы сбора данных детектора для первичной обработки и перераспределения на центры Tier-1.

  • Центры уровня Tier-1, в которых происходит переобработка данных, формирование данных в группы по заданным критериям, подготовка данных для окончательного физического анализа.

  • Центры уровня Tier-2, в которых происходит массовый физический анализ (запуск задач пользователей) и моделирования физических событий

  • И наконец, пользовательские интерфейсы, обеспечивающие доступ ко всем узлам вычислительной системы, локальные вычислительные средства (к которым можно отнести и центры уровня Tier-3), где также выполняются задачи по разработке новых алгоритмов реконструкции и анализа данных.

Рис. Потоки данных через центры различного уровня в случае обработки экспериментальных данных.

Согласно вычислительной модели CMS в случае обработки экспериментальных данных основными потоками информации являются (рис. )


  • Поток RAW данных из Tier-0 в Tier-1. При этом к наиболее критичным характеристиками относятся регулярность, время передачи данных, непрерывность в ходе набора данных, что необходимо для быстрого доступа к данным для анализа.

  • Поток данных из одного Tier-1 в другой Tier-1. В этом случае основной поток составляют перераспределяемые RECO данные, получаемые после переобработки с улучшенными алгоритмами реконструкции.

  • Поток данных из Tier-1 в Tier-2 включает в себя в основном AOD данные для физического анализа пользователями, но также может включать и часть RECO данных для детальной проверки реконструкции событий, а также для использования при разработке новых алгоритмов реконструкции.

Монте-Карло моделирование в основном осуществляется в центрах уровня Tier-2. Тут выполняется полная цепочка моделирования событий – генерация физических процессов, моделирование взаимодействия сгенерированных частиц с детекторными системами эксперимента, оцифровка событий. После чего совершается обратный процесс – полная реконструкция сигналов от смоделированных событий с помощью тех же самых алгоритмов, которые используются и при работе с экспериментальными данными. Полученные наборы смоделированных данных передаются в ассоциированные центры уровня Tier-1, где архивируются для защищенного хранения и перераспределения в другие вычислительные центры эксперимента (рис.).

Рис. Потоки данных через центры различного уровня в случае моделирования событий.





База данных защищена авторским правом ©uverenniy.ru 2016
обратиться к администрации

    Главная страница