Posiedzenie Polish WLCG i Przedstawicieli Eksperymentów 6.12.2023

Europe/Warsaw
https://cyfronet.zoom.us/j/98047403758

https://cyfronet.zoom.us/j/98047403758

Description

Posiedzenie z udziałem Reprezentantów ośrodków KDM -- Sygnatariuszy Porozumienia Polish WLCG oraz Przedstawicieli eksperymentów: ALICE, ATLAS, CMS, LHCb.
https://cyfronet.zoom.us/j/98047403758

 

    • 15:00 15:10
      Powitanie (Michał Bluj, Jacek Kitowski)
    • 15:10 15:15
      Cele spotkania. Minuty z poprzedniego posiedzenia (Michał Bluj)

      Minuty z posiedzenia Sygnatariuszy Porozumienia Polish-WLCG z polskimi reprezentantami eksperymentów LHC w dniu 27.06.2023, godz. 14:00

       

      Uczestnicy:

      • prof. Michał Bluj (C-RRB, NCBJ)
      • prof. Jacek Kitowski (WLCG-CB, ACK Cyfronet AGH)
      • prof. Marek Kowalski (koordynator ALICE-PL, IFJ PAN
      • dr Bartłomiej Żabiński (v-koordynator ATLAS-PL, IFJ PAN)
      • prof. Mariusz Witek (koordynator LHCb-PL, IFJ PAN)
      • prof. Wojciech Wiślicki (v-koordynator LHCb-PL, NCBJ)
      • mgr inż. Patryk Lasoń (adm. zasobów, ACK Cyfronet AGH)
      • mgr Henryk Giemza (adm. zasobów, NCBJ)
      • mgr inż. Marcin Pospieszny (adm. zasobów, PCSS)
      • Radosław Januszewski (adm. zasobów, PCSS)
      • dr inż. Norbert Meyer (PCSS)
      • dr Andrzej Zemła (ACK Cyfronet AGH)
      • dr Leszek Grzanka (AGH)
      • inż. Marek Magryś (ACK Cyfronet AGH)

       

      Porządek:

      https://events.plgrid.pl/event/35/

      1. Powitanie (prof. Michał Bluj, prof. Jacek Kitowski)
      2. Cele spotkania. Minuty z poprzedniego posiedzenia
      3. Realizacja zobowiązań centrów KDM w 2022 i 2023
      4. Ustalenia na 2023 w zakresie wielkości “pleges” - terminy!
      5. Informacje z posiedzenia C-RRB (kwiecien 2023) i GDB (maj 2023)
      6. AOB
      7. Dokumentacja HEPScore23

      @3. Realizacja zobowiązań centrów KDM w 2022 i 2023

      Prof. J. Kitowski przedstawił prezentacje odnośnie realizacji zobowiązań polskich KDM (prezentacja) za okres 01.04.2022-31.03.2023. 

      • ALICE – koordynator zasobów: PCSS  
        • CPU
          Zasoby obliczeniowe zostaly dostarczone przez 3 ośrodki, tj: PCSS ~ 83%, ACK Cyfronet ~19% i WUT ~0.33%. Srednia wartość miesięczna dostarczonych godzin (HEPSPEC) 17 887 co stanowi 81% wartośći pledges, wyraźnie widać mniejsza aktywność w okresie wakacyjnym. 

      Komentarz: Radosław Januszewski
      PCSS na potrzeby ALICE rezerwuje ok 2-3 tysiące rdzeni obliczeniowych (wartość fluktuje w czasie) ale wyraźnie widać,  że ekperyment nie wykorzystuje tych zasobów i przeważnie liczba zaalokowanych rdzeni nie przekracza 1.1 tysiąca (wykres poniżej). 

      Co prawda do początku marca 2022 kolejki miały skonfigurowany zbyt krótki czas walltime i ~ ⅓ zadań kończyła się błedem ale zostało to poprawione.

      Konkluzje:

      Wygląda na to, że po stronie PCSS wszystko w przedstawianym okresie rozliczeniowym działa poprawnie, odpowiednia moc obliczeniowa jest dostarczona, a zadania wykonują sie w większości z sukcesem (@Marcin Pospieszny: ponad 90%). Biorąc pod uwage powyższe można wnioskować, że to eksperyment z nieznanych powodów nie wykorzystuje dostępnej mocy obliczeniowej, co jest niekorzystne dla dostawcy (PCSS) bo generuje koszty, a z drugiej strony w sprawozdaniach wygląda jakby nie wywiązywał się z zobowiązań. Dotychczasowe interwencje administratorów PCSS nie przyniosły rezultatu, dlatego prof. Marek Kowalski ma skontaktowac się z Latchezarem Betevem aby wyjaśnić sytuację.

      • Storage
        Sytuacja jest podobna tak jak z CPU, tj. PCSS udostępnia 2.3 PB pamięci masowej (z 3 PB zapisanych w pledge), ale i tak zaalokowane jest jedynie niecałe 800 TB.

         
      • ATLAS – koordynator zasobów: ACK Cyfronet AGH
        • CPU
          Wszystko się liczy bezproblemowo, pledges wypełnione z naddatkiem
        • Storage
          Jest rozbieżność w systemach moniotrujących zaalokowanie pamięci masowej: PANDA – 700 TB, CRIC – 1700 TB. Obecnie udostępniane jest 2.3 PB natomiast od lipca 2023 powinno być udostepnoione 2.5 PB (co wypełnia pledge) po migracji na nowy protokół EOS.

           
      • CMS – koordynator zasobów: NCBJ
        • CPU
          Pledge wypełniony  w 130%, 
          ACK Cyfronet AGH wspiera eksperyment od 01.01.2023
        • Storage
          Wymaganie pledge (850 TB) jest spełnione, gdyż NCBJ dostarcza 640 TB a ACK Cyfronet 400 TB, przy czym w przypadku ACK Cyfronet przestrzeń zajęta jest w minimalnym zakresie

          Dyskusja:

      Dr N. Meyer zauważył, że sytuacja z wykorzystaniem storage jest analogiczna do przypadku ALICE, tj zasoby są udostępniane, ale nie są wykorzystywane przez eksperyment. Z punktu widzenia KDM wszelkie zobowiązania są wypełnione, a mimo to w raportach wykazywane jest co innego (realne wykorzystanie) - powinniśmy w tej sprawie interweniować.
      Przy czym należy zauważyć, ze ponieważ ACK Cyfronet udostępnia zasoby od niedawna, należy jeszcze chwilę poczekać. 

      • LHCb – koordynator zasobów: NCBJ
        • CPU
          Zobowiązania spełnione w 600%

      Więcej uwag nie zgłoszono.

      @4. Ustalenia na 2023 w zakresie wielkości “pleges” - terminy!

                      Propozycja terminu dostarczenia wartości pledges na 2024: 15.09.2023

      @5a. Informacje z posiedzenia C-RRB (kwiecien 2023) (Michał Bluj)

                      prezentacja

      Najważniejsze punkty:

      • NCBJ dołącza jako Tier1 dla eksperymenty LHC
      • koszty energii wsparcia zasobami komputerowymi:
        • pomimo ostatnich perturbacji społecznych i politycznych, WLCG podtrzymuje ‘flat budget model’, zakładający wzrost dostępnych zasobów na potrzeby eksperymentów o ok 15% rocznie, przy zachowaniu dotychczasowych kosztów utrzymania. Przy czym aby w przyszłości ten model utrzymać, należy liczyć się z koniecznością zmiany architektury z x86 na ARM64
      • eksperymenty Alice i CMS testują wykorzystanie akceleratorów GPU na potrzeby obliczeniowe
      • testy architektury ARM64 - wyglądają obiecująco (eksp. ATLAS), ale testy na poziomie wieloskalowym nie zostały przeprowadzone, jest to bliska przyszłość, niemniej potrzeba kilku lat 
      • oczekiwania wzrostu zasobów na potrzeby eksperymentów w roku 2024 szacuje się na ok 10-15%
      • współpraca WLCG z inicjatywami ECFA, NuPECC, APPEC – dostrzegają konieczność budowy wspólnej infrastruktury – lepsza koordynacja i łatwiej wnioskować o finansowanie. 
        Pozostając w WLCG możemy się otwierać na inne aktywności naukowe w które zaangażowana jest Polska - legitimizuje to nasze działania

       

      @5b. Informacje z posiedzenia GDB (maj 2023) (prof. Jacek Kitowski)

      prezentacja (od slajdu 11)

      Najważniejsze punkty:

      • zmiana benchmarku z HEP-SPEC06 na HS23
        • jako punkt startu: 1 HS23 = 1 HEP-SPEC06
        • nowe zasoby benchmarkowane już HS23
      • przymiarki do wykorzystania obliczeń kwantowych w CERN
      • konferencja EGI2023 (czerwiec 2023)
        • NCBJ jako Tier1 LHCb (prezentacja H. Giemza)
      • opóźnienia w migracji zasobów dyskowych ACK Cyfronet AGH i PCSS z DPM na EOS

      Dyskusja:

      Pytania:
      prof. W. Wiślicki: Benchmark HS06 bazuje na benchmarku SPEC, to jest duży zbior testow , czy nowy HS23 jest z niego adaptowany,  czy jest coś zupełnie nowego?

      prof. Jacek Kitowski: Trudno powiedzic w jaki sposob jest to rozwijane w CERNie, ale jest to zoptymalizowane z uwzględnieniem architektur innych niż x86, i ma uwzglednic róźnice między serwerami klienckimi a serwerowymi. Ma też uwzględniać performance energetyczny. 

      Marek Magryś: Problem polega na tym, że benchmark SPEC jest aplikacją płatną - benchamrkowanie było uciążliwe i wolno podążało za nowymi architekturami, a HEPScore bazuje na kontenerach – przez co umożliwia łatwiejsze uruchomienie i ew. wyważenie wyników.

      @6. AOB

                      brak

      @7. Dokumentacja HEPScore23

      Artykuł o HEPScore: https://arxiv.org/pdf/2306.08118.pdf

      Źródła: https://gitlab.cern.ch/hep-benchmarks/hep-score

       

    • 15:15 15:40
      Informacje z posiedzenia C-RRB (Oct. 2023) - Michał Bluj
    • 15:40 16:00
      Bieżąca realizacja zobowiązań centrów KDM w 2023 i informacje z posiedzeń GDB (Jacek Kitowski)

      Selected GDB meetings (access rights required)

      13.9.2023   https://indico.cern.ch/event/1225116/   (monitoring&HS23)

      11.10.2023  https://indico.cern.ch/event/1225117/  (Euro Science Gateway&ARM)

      7.11.2023  https://indico.cern.ch/event/1225131/ (tapes)

      8.11.2023  https://indico.cern.ch/event/1225118/  (GPU)

       

       

    • 16:00 16:25
      Bieżące problemy realizacji zobowiązań i plany Sygnatariuszy Porozumienia (Przedstawiciele PCSS, Cyfronetu, CIŚ NCBJ)
    • 16:25 16:30
      AOB