Posiedzenie Polish WLCG i Przedstawicieli Eksperymentów 6.12.2023

Europe/Warsaw
https://cyfronet.zoom.us/j/98047403758

https://cyfronet.zoom.us/j/98047403758

Description

Posiedzenie z udziałem Reprezentantów ośrodków KDM -- Sygnatariuszy Porozumienia Polish WLCG oraz Przedstawicieli eksperymentów: ALICE, ATLAS, CMS, LHCb.
https://cyfronet.zoom.us/j/98047403758

 

  • 3:00 PM 3:10 PM
   Powitanie (Michał Bluj, Jacek Kitowski)
  • 3:10 PM 3:15 PM
   Cele spotkania. Minuty z poprzedniego posiedzenia (Michał Bluj)

   Minuty z posiedzenia Sygnatariuszy Porozumienia Polish-WLCG z polskimi reprezentantami eksperymentów LHC w dniu 27.06.2023, godz. 14:00

    

   Uczestnicy:

   • prof. Michał Bluj (C-RRB, NCBJ)
   • prof. Jacek Kitowski (WLCG-CB, ACK Cyfronet AGH)
   • prof. Marek Kowalski (koordynator ALICE-PL, IFJ PAN
   • dr Bartłomiej Żabiński (v-koordynator ATLAS-PL, IFJ PAN)
   • prof. Mariusz Witek (koordynator LHCb-PL, IFJ PAN)
   • prof. Wojciech Wiślicki (v-koordynator LHCb-PL, NCBJ)
   • mgr inż. Patryk Lasoń (adm. zasobów, ACK Cyfronet AGH)
   • mgr Henryk Giemza (adm. zasobów, NCBJ)
   • mgr inż. Marcin Pospieszny (adm. zasobów, PCSS)
   • Radosław Januszewski (adm. zasobów, PCSS)
   • dr inż. Norbert Meyer (PCSS)
   • dr Andrzej Zemła (ACK Cyfronet AGH)
   • dr Leszek Grzanka (AGH)
   • inż. Marek Magryś (ACK Cyfronet AGH)

    

   Porządek:

   https://events.plgrid.pl/event/35/

   1. Powitanie (prof. Michał Bluj, prof. Jacek Kitowski)
   2. Cele spotkania. Minuty z poprzedniego posiedzenia
   3. Realizacja zobowiązań centrów KDM w 2022 i 2023
   4. Ustalenia na 2023 w zakresie wielkości “pleges” - terminy!
   5. Informacje z posiedzenia C-RRB (kwiecien 2023) i GDB (maj 2023)
   6. AOB
   7. Dokumentacja HEPScore23

   @3. Realizacja zobowiązań centrów KDM w 2022 i 2023

   Prof. J. Kitowski przedstawił prezentacje odnośnie realizacji zobowiązań polskich KDM (prezentacja) za okres 01.04.2022-31.03.2023. 

   • ALICE – koordynator zasobów: PCSS  
    • CPU
     Zasoby obliczeniowe zostaly dostarczone przez 3 ośrodki, tj: PCSS ~ 83%, ACK Cyfronet ~19% i WUT ~0.33%. Srednia wartość miesięczna dostarczonych godzin (HEPSPEC) 17 887 co stanowi 81% wartośći pledges, wyraźnie widać mniejsza aktywność w okresie wakacyjnym. 

   Komentarz: Radosław Januszewski
   PCSS na potrzeby ALICE rezerwuje ok 2-3 tysiące rdzeni obliczeniowych (wartość fluktuje w czasie) ale wyraźnie widać,  że ekperyment nie wykorzystuje tych zasobów i przeważnie liczba zaalokowanych rdzeni nie przekracza 1.1 tysiąca (wykres poniżej). 

   Co prawda do początku marca 2022 kolejki miały skonfigurowany zbyt krótki czas walltime i ~ ⅓ zadań kończyła się błedem ale zostało to poprawione.

   Konkluzje:

   Wygląda na to, że po stronie PCSS wszystko w przedstawianym okresie rozliczeniowym działa poprawnie, odpowiednia moc obliczeniowa jest dostarczona, a zadania wykonują sie w większości z sukcesem (@Marcin Pospieszny: ponad 90%). Biorąc pod uwage powyższe można wnioskować, że to eksperyment z nieznanych powodów nie wykorzystuje dostępnej mocy obliczeniowej, co jest niekorzystne dla dostawcy (PCSS) bo generuje koszty, a z drugiej strony w sprawozdaniach wygląda jakby nie wywiązywał się z zobowiązań. Dotychczasowe interwencje administratorów PCSS nie przyniosły rezultatu, dlatego prof. Marek Kowalski ma skontaktowac się z Latchezarem Betevem aby wyjaśnić sytuację.

   • Storage
    Sytuacja jest podobna tak jak z CPU, tj. PCSS udostępnia 2.3 PB pamięci masowej (z 3 PB zapisanych w pledge), ale i tak zaalokowane jest jedynie niecałe 800 TB.

     
   • ATLAS – koordynator zasobów: ACK Cyfronet AGH
    • CPU
     Wszystko się liczy bezproblemowo, pledges wypełnione z naddatkiem
    • Storage
     Jest rozbieżność w systemach moniotrujących zaalokowanie pamięci masowej: PANDA – 700 TB, CRIC – 1700 TB. Obecnie udostępniane jest 2.3 PB natomiast od lipca 2023 powinno być udostepnoione 2.5 PB (co wypełnia pledge) po migracji na nowy protokół EOS.

      
   • CMS – koordynator zasobów: NCBJ
    • CPU
     Pledge wypełniony  w 130%, 
     ACK Cyfronet AGH wspiera eksperyment od 01.01.2023
    • Storage
     Wymaganie pledge (850 TB) jest spełnione, gdyż NCBJ dostarcza 640 TB a ACK Cyfronet 400 TB, przy czym w przypadku ACK Cyfronet przestrzeń zajęta jest w minimalnym zakresie

     Dyskusja:

   Dr N. Meyer zauważył, że sytuacja z wykorzystaniem storage jest analogiczna do przypadku ALICE, tj zasoby są udostępniane, ale nie są wykorzystywane przez eksperyment. Z punktu widzenia KDM wszelkie zobowiązania są wypełnione, a mimo to w raportach wykazywane jest co innego (realne wykorzystanie) - powinniśmy w tej sprawie interweniować.
   Przy czym należy zauważyć, ze ponieważ ACK Cyfronet udostępnia zasoby od niedawna, należy jeszcze chwilę poczekać. 

   • LHCb – koordynator zasobów: NCBJ
    • CPU
     Zobowiązania spełnione w 600%

   Więcej uwag nie zgłoszono.

   @4. Ustalenia na 2023 w zakresie wielkości “pleges” - terminy!

                   Propozycja terminu dostarczenia wartości pledges na 2024: 15.09.2023

   @5a. Informacje z posiedzenia C-RRB (kwiecien 2023) (Michał Bluj)

                   prezentacja

   Najważniejsze punkty:

   • NCBJ dołącza jako Tier1 dla eksperymenty LHC
   • koszty energii wsparcia zasobami komputerowymi:
    • pomimo ostatnich perturbacji społecznych i politycznych, WLCG podtrzymuje ‘flat budget model’, zakładający wzrost dostępnych zasobów na potrzeby eksperymentów o ok 15% rocznie, przy zachowaniu dotychczasowych kosztów utrzymania. Przy czym aby w przyszłości ten model utrzymać, należy liczyć się z koniecznością zmiany architektury z x86 na ARM64
   • eksperymenty Alice i CMS testują wykorzystanie akceleratorów GPU na potrzeby obliczeniowe
   • testy architektury ARM64 - wyglądają obiecująco (eksp. ATLAS), ale testy na poziomie wieloskalowym nie zostały przeprowadzone, jest to bliska przyszłość, niemniej potrzeba kilku lat 
   • oczekiwania wzrostu zasobów na potrzeby eksperymentów w roku 2024 szacuje się na ok 10-15%
   • współpraca WLCG z inicjatywami ECFA, NuPECC, APPEC – dostrzegają konieczność budowy wspólnej infrastruktury – lepsza koordynacja i łatwiej wnioskować o finansowanie. 
    Pozostając w WLCG możemy się otwierać na inne aktywności naukowe w które zaangażowana jest Polska - legitimizuje to nasze działania

    

   @5b. Informacje z posiedzenia GDB (maj 2023) (prof. Jacek Kitowski)

   prezentacja (od slajdu 11)

   Najważniejsze punkty:

   • zmiana benchmarku z HEP-SPEC06 na HS23
    • jako punkt startu: 1 HS23 = 1 HEP-SPEC06
    • nowe zasoby benchmarkowane już HS23
   • przymiarki do wykorzystania obliczeń kwantowych w CERN
   • konferencja EGI2023 (czerwiec 2023)
    • NCBJ jako Tier1 LHCb (prezentacja H. Giemza)
   • opóźnienia w migracji zasobów dyskowych ACK Cyfronet AGH i PCSS z DPM na EOS

   Dyskusja:

   Pytania:
   prof. W. Wiślicki: Benchmark HS06 bazuje na benchmarku SPEC, to jest duży zbior testow , czy nowy HS23 jest z niego adaptowany,  czy jest coś zupełnie nowego?

   prof. Jacek Kitowski: Trudno powiedzic w jaki sposob jest to rozwijane w CERNie, ale jest to zoptymalizowane z uwzględnieniem architektur innych niż x86, i ma uwzglednic róźnice między serwerami klienckimi a serwerowymi. Ma też uwzględniać performance energetyczny. 

   Marek Magryś: Problem polega na tym, że benchmark SPEC jest aplikacją płatną - benchamrkowanie było uciążliwe i wolno podążało za nowymi architekturami, a HEPScore bazuje na kontenerach – przez co umożliwia łatwiejsze uruchomienie i ew. wyważenie wyników.

   @6. AOB

                   brak

   @7. Dokumentacja HEPScore23

   Artykuł o HEPScore: https://arxiv.org/pdf/2306.08118.pdf

   Źródła: https://gitlab.cern.ch/hep-benchmarks/hep-score

    

  • 3:15 PM 3:40 PM
   Informacje z posiedzenia C-RRB (Oct. 2023) - Michał Bluj
  • 3:40 PM 4:00 PM
   Bieżąca realizacja zobowiązań centrów KDM w 2023 i informacje z posiedzeń GDB (Jacek Kitowski)

   Selected GDB meetings (access rights required)

   13.9.2023   https://indico.cern.ch/event/1225116/   (monitoring&HS23)

   11.10.2023  https://indico.cern.ch/event/1225117/  (Euro Science Gateway&ARM)

   7.11.2023  https://indico.cern.ch/event/1225131/ (tapes)

   8.11.2023  https://indico.cern.ch/event/1225118/  (GPU)

    

    

  • 4:00 PM 4:25 PM
   Bieżące problemy realizacji zobowiązań i plany Sygnatariuszy Porozumienia (Przedstawiciele PCSS, Cyfronetu, CIŚ NCBJ)
  • 4:25 PM 4:30 PM
   AOB