Konferencja Użytkowników Komputerów Dużej Mocy - KUKDM 2025

Name: Konferencja Użytkowników Komputerów Dużej Mocy - KUKDM 2025
Start: 2025-04-02T14:30:00+02:00
End: 2025-04-04T16:45:00+02:00
Location: Bachleda Hotel Kasprowy

2–4 Apr 2025

Bachleda Hotel Kasprowy

Europe/Warsaw timezone

Dostępna książka streszczeń do pobrania | Book of abstracts available to download

Kontakt

kukdm@cyfronet.pl

Najlepsze praktyki przy monitorowaniu zadań i testach skalowalności - Best practices on jobs monitoring and scalability tests

Not scheduled

Training Najlepsze praktyki przy monitorowaniu zadań i testach skalowalności - Best practices on jobs monitoring and scalability tests

Klemens Noga (ACK Cyfronet AGH) Oskar Klimas (ACK Cyfronet AGH)

Obliczenia o wysokiej wydajności wykorzystujące Komputery Dużej Mocy zawsze wiązały się z wykorzystaniem dostępnych mocy obliczeniowych w najbardziej wydajny sposób. W czasie tego szkolenia zajmiemy się narzędziami dostępnymi na klastrach obliczeniowych w ACK Cyfronet AGH umożliwiającymi monitorowanie zadań obliczeniowych. Służą do analizy ich wydajności oraz znajdowania potencjalnych problemów limitujących efektywność obliczeń.

Następnie pokażemy, w jaki sposób przeprowadzić testy skalowalności oprogramowania tak, by znaleźć najlepszą konfigurację zasobów dla danego zadania obliczeniowego.
Sugerujemy, by tego typu testy wykonywać na początku każdego projektu, by móc wykorzystać do maksimum przyznane zasoby obliczeniowe.

W trakcie szkolenia omówione zostaną:
1. komendy monitorujące zadania: squeue, hpc-jobs, hpc-jobs-history
2. dostęp do uruchomionych zadań wsadowych poprzez ssh_slurm
3. programy top, htop, nvtop, strace umożliwiające monitorowanie procesów uruchomionych przez zadanie obliczeniowe
4. testy skalowalności umożliwiające znalezienie najlepszej konfiguracji zasobów dla danego zadania obliczeniowego

Szkolenie dedykowane jest zarówno dla początkujących użytkowników infrastruktury, jak i dla osób, które kontynuują obliczenia lub rozpoczynają kolejny grant obliczeniowy.

Wymagania wstępne
Każdy uczestnik powinien posiadać konto w portalu PLGrid account, aktywną afiliację i dostęp do klastra Ares. Konta oraz dostęp do superkomputerów można uzyskać w Portalu PLGrid Portal PLGrid. Osoby bez aktywnej afiliacji są proszone o kontakt z organizatorami pod adresem training@cyfronet.pl.

Data: 4 kwietnia, 10:55-14:55 (z przerwą obiadową)
Czas trwania: 3h
Prowadzący:
- Oskar Klimas - trener HPC, specjalista Helpdesk z dziedziny chemii obliczeniowej z doświadczeniem w używaniu szeregu programów, przede wszystkim Gaussian, AMS ADF, GROMACS i LAMMPS
- Klemens Noga, specjalista ds. oprogramowania superkomputerowego z dużym doświadczeniem we wsparciu użytkowników infrastruktury PLGrid.

Szkolenie zostanie przeprowadzone w języku polskim lub angielskim, w zależności od ewentualnego udziału uczestników niepolskojęzycznych.
Liczba uczestników jest ograniczona. Decyduje pierwszeństwo zapisu.

Best practices on jobs monitoring and scalability tests

The HPC has always been focused on utilising available resources most efficiently. During training, we will focus on tools available at HPC resources deployed at ACC Cyfronet AGH. They can be used to give insight into computational jobs efficiency and could help find potential bottlenecks.

Moreover, we will show how to prepare and conduct scalability tests of the software to find the best hardware and software configuration for computational tasks, which should be performed before starting new projects on HPC infrastructure to fully utilise the awarded resources pool.

During the training, we will discuss the following:
1. monitoring commands: squeue, hpc-jobs, hpc-jobs-history
2. access to a running job via ssh_slurm
3. top, htop, nvtop, strace - programs to monitor processes inside a job
4. perform a scalability test to check the best hardware and software configuration for a given computational task

The training is dedicated to both novice users of the infrastructure and those who continue computing or start another computing grant.

Requirements
Each user should have a PLGrid account, active affiliation, and access to the Ares cluster. Accounts and access to supercomputers could be obtained in Portal PLGrid. If somebody has no active affiliation, please contact organisers at training@cyfronet.pl.

Date: April 4th, 10:55-14:55 (with lunch break)
Duration: 3h
Trainers:
- Oskar Klimas: HPC trainer, computational chemistry specialist at Helpdesk, with experience in using a variety of applications, including Gaussian, AMS ADF, GROMACS and LAMMPS.
- Klemens Noga, HPC Software Specialist with significant experience in supporting PLGrid infrastructure users.

The training will be conducted in Polish or English, depending on the possible participation of non-Polish-speaking participants.
The number of participants is limited, priority of enrollment decides.

There are no materials yet.

Konferencja Użytkowników Komputerów Dużej Mocy - KUKDM 2025

Kontakt

Najlepsze praktyki przy monitorowaniu zadań i testach skalowalności - Best practices on jobs monitoring and scalability tests

Speakers

Description

Best practices on jobs monitoring and scalability tests

Presentation materials