프로그램 사용/openHPC2020. 12. 22. 17:38

일단 현재 실행은 실패 -_ㅠ

scontrol update NodeName=c[1-5] state=RESUME
sinfo -all
srun -n8 hellompi.o
sacct -a

[링크 : https://groups.io/g/OpenHPC-users/topic/srun_required_node_not/74202339...]

 

 

# srun -n 2 -N 2 --pty /bin/bash 
srun: Required node not available (down, drained or reserved) 
srun: job 5 queued and waiting for resources 
^Csrun: Job allocation 5 has been revoked 
srun: Force Terminated job 5

 

 

# sinfo -all 
Tue Dec 22 02:54:55 2020 
PARTITION AVAIL  TIMELIMIT   JOB_SIZE ROOT OVERSUBS     GROUPS  NODES       STATE NODELIST 
normal*      up 1-00:00:00 1-infinite   no EXCLUSIV        all      2     drained openhpc-[1-2]

 

 

# sacct -a 
       JobID    JobName  Partition    Account  AllocCPUS      State ExitCode 
------------ ---------- ---------- ---------- ---------- ---------- -------- 
2                  bash     normal     (null)          0  CANCELLED      0:0 
3                  bash     normal     (null)          0  CANCELLED      0:0 
4                  bash     normal     (null)          0  CANCELLED      0:0 
5                  bash     normal     (null)          0  CANCELLED      0:0 
6            mpi_hello+     normal     (null)          0  CANCELLED      0:0

 

 

drain 상태..

[링크 : https://stackoverflow.com/questions/22480627/what-does-the-state-drain-mean]

 

 

state를 바꾸어 주면 된다는데 안되네..

작업을 다 죽이고 idle로 바꾸라는데 작업은 어떻게 죽이지?

[링크 : https://stackoverflow.com/questions/29535118/how-to-undrain-slurm-nodes-in-drain-state]

 

 

slurm job cancel(잡 죽이기)

 

The normal method to kill a Slurm job is: 

    $ scancel <jobid> 

You can find your jobid with the following command: 

    $ squeue -u $USER 

If the the job id is 1234567 then to kill the job: 

    $ scancel 1234567

[링크 : https://researchcomputing.princeton.edu/faq/how-to-kill-a-slurm-job]

 

state가 cancelled 는 이미 취소된것이기 때문에 scancel로 취소되지 않는다.

$ scancel -v 8 
scancel: Terminating job 8 
scancel: error: Kill job error on job id 8: Job/step already completing or completed

 

왜 안되나 했는데 코어와 쓰레드 갯수에 제한이 있었던 건가?

# sinfo -R -v
Reason=Low socket*core*thread count, Low CPUs

[링크 : https://groups.io/g/OpenHPC-users/topic/slurmd_in_compute_nodes/22449264?p=]

 

 

+

오예~

원래는 2 8 2 였나 그런데 1 1 1 로 바꾸니

NodeName=openhpc-[1-2] Sockets=1 CoresPerSocket=1 ThreadsPerCore=1 State=UNKNOWN

 

idle로 전환이 된다?

# scontrol update Nodename=openhpc-[1-2] state=idle
# sinfo -all
Tue Dec 22 03:49:23 2020
PARTITION AVAIL  TIMELIMIT   JOB_SIZE ROOT OVERSUBS     GROUPS  NODES       STATE NODELIST
normal*      up 1-00:00:00 1-infinite   no EXCLUSIV        all      2       idle* openhpc-[1-2]

 

 

실행 안되는건 매한가지 ㅠㅠ

 

+

컴퓨트 노드쪽의 slurmd 가 구동되지 않아서 그런듯

하지만...

 

역시 안되는건 매한가지 ㅠㅠ 산넘어 산이구나

srun: error: slurm_receive_msgs: Socket timed out on send/recv operation

 

 

+

음...

[2020-12-22T04:18:08.435] error: Node openhpc-1 has low socket*core*thread count (1 < 32)
[2020-12-22T04:18:08.435] error: Node openhpc-1 has low cpu count (1 < 32)
[2020-12-22T04:18:08.435] error: _slurm_rpc_node_registration node=openhpc-1: Invalid argument

 

도대체 어떻게 값을 주어야 잘 도냐...

# slurmd -C
NodeName=openhpc-1 CPUs=1 Boards=1 SocketsPerBoard=1 CoresPerSocket=1 ThreadsPerCore=1 RealMemory=968
NodeName=openhpc-[1-2] Sockets=1 CoresPerSocket=1 ThreadsPerCore=1 State=UNKNOWN

 

아래가 원래값. 위에 식에 의해서 2*8*2 니까 32를 넘어서 작동이 되는건가?

NodeName=c[1-4] Sockets=2 CoresPerSocket=8 ThreadsPerCore=2 State=UNKNOWN

 

 

 

'프로그램 사용 > openHPC' 카테고리의 다른 글

slurm 먼가 까다롭네...  (3) 2020.12.23
slurm.conf 생성기  (0) 2020.12.23
openmpi 및 예제  (0) 2020.12.22
openmpi on centos8  (0) 2020.12.17
slurmd: fatal: Unable to determine this slurmd's NodeName  (0) 2020.12.15
Posted by 구차니
프로그램 사용/openHPC2020. 12. 22. 16:29

ㅋㅋㅋ lots of output

아무튼 configure에 --prefix로 설치될 경로를 넣어주고

make all install 하면 끝~

$ gunzip -c openmpi-4.1.0.tar.gz | tar xf -
$ cd openmpi-4.1.0
$ ./configure --prefix=/usr/local
<...lots of output...>
$ make all install

[링크 : https://www.open-mpi.org/faq/?category=building]

 

 

예제

# ./mpi_hello_world
Hello world from processor master, rank 0 out of 1 processors

[링크 : https://mpitutorial.com/tutorials/mpi-hello-world/]

[링크 : https://github.com/mpitutorial/mpitutorial]

'프로그램 사용 > openHPC' 카테고리의 다른 글

slurm.conf 생성기  (0) 2020.12.23
openhpc, slurm 시도..  (0) 2020.12.22
openmpi on centos8  (0) 2020.12.17
slurmd: fatal: Unable to determine this slurmd's NodeName  (0) 2020.12.15
environment module / lmod  (0) 2020.12.15
Posted by 구차니
프로그램 사용/openHPC2020. 12. 17. 12:23

다시 한번 밀고 해봐야하나..

아무튼 mpicc가 안되었던것 같은데 잘된다?

 

$ sudo yum install openmpi-devel
$ module load mpi
$ mpifort --version

 

[링크 : https://mfix.netl.doe.gov/forum/t/openmpi-installation-in-centos7/543/2]

'프로그램 사용 > openHPC' 카테고리의 다른 글

openhpc, slurm 시도..  (0) 2020.12.22
openmpi 및 예제  (0) 2020.12.22
slurmd: fatal: Unable to determine this slurmd's NodeName  (0) 2020.12.15
environment module / lmod  (0) 2020.12.15
openHPC 설치 part3?  (0) 2020.12.15
Posted by 구차니

 

cd C:\Program Files\Oracle\VirtualBox
VBoxManage modifyvm "vmname" --defaultfrontend headless

[링크 : https://superuser.com/questions/1182637/how-to-make-vm-in-virtualbox-start-headless-by-default]

Posted by 구차니
프로그램 사용/openHPC2020. 12. 15. 12:06

예제에서 컴퓨트 노드를 c1 이런식으로 이름을 지어놨는데

openhpc-로 접두를 바꾸면서 생기는 문제

에러 그대로 NodeName을 판별할 수 없다는데

아래 경로의 파일을 수정해주면 문제없이 된다.

cp /opt/ohpc/admin/images/centos8.2/etc/slurm/slurm.conf.ohpc /opt/ohpc/admin/images/centos8.2/etc/slurm/slurm.conf

vi /opt/ohpc/admin/images/centos8.2/etc/slurm/slurm.conf

NodeName=openhpc-[1-2] Sockets=2 CoresPerSocket=8 ThreadsPerCore=2 State=UNKNOWN 
PartitionName=normal Nodes=openhpc-[1-2] Default=YES MaxTime=24:00:00 State=UP Oversubscribe=EXCLUSIVE 

 

-

도대체 머가 문제일까...

 

# slurmd -v
slurmd: fatal: Unable to determine this slurmd's NodeName
# slurmd -V
slurm 20.02.5
# slurmd -C
NodeName=openhpc-1 CPUs=1 Boards=1 SocketsPerBoard=1 CoresPerSocket=1 ThreadsPerCore=1 RealMemory=968
UpTime=0-00:30:27

[링크 : https://www.raspberrypi.org/forums/viewtopic.php?t=245429]

[링크 : https://serverfault.com/questions/988027/slurm-service-running-failed-again-i-dont-know-why]

[링크 : https://medium.com/@racedowling/slurmd-exits-with-error-slurmd-718-fatal-unable-to-determine-this-slurmds-nodename-on-both-7542564befbf]

 

'프로그램 사용 > openHPC' 카테고리의 다른 글

openmpi 및 예제  (0) 2020.12.22
openmpi on centos8  (0) 2020.12.17
environment module / lmod  (0) 2020.12.15
openHPC 설치 part3?  (0) 2020.12.15
OpenFabrics interface - ofi  (0) 2020.12.14
Posted by 구차니
프로그램 사용/openHPC2020. 12. 15. 11:11

 

[링크 : https://github.com/cea-hpc/modules]

[링크 : https://modules.readthedocs.io/en/latest/cookbook/compiler-etc-dependencies.html]

[링크 : https://modules.readthedocs.io/en/latest/INSTALL.html]

 

[링크 : https://lmod.readthedocs.io/en/latest/]

[링크 : https://lmod.readthedocs.io/en/latest/030_installing.html]

'프로그램 사용 > openHPC' 카테고리의 다른 글

openmpi on centos8  (0) 2020.12.17
slurmd: fatal: Unable to determine this slurmd's NodeName  (0) 2020.12.15
openHPC 설치 part3?  (0) 2020.12.15
OpenFabrics interface - ofi  (0) 2020.12.14
MVAPICH2  (0) 2020.12.14
Posted by 구차니
프로그램 사용/openHPC2020. 12. 15. 10:18

 

4.3 에서 module 명령이 안되기 시작하면서

4.4~4.6이 정상적으로 설치되지 않는다.

4.1 Development Tools
4.2 Compilers

yum -y install ohpc-autotools
yum -y install EasyBuild-ohpc
yum -y install hwloc-ohpc
yum -y install spack-ohpc
yum -y install valgrind-ohpc
yum -y install gnu9-compilers-ohpc

4.3 MPI Stacks
yum -y install mpich-ucx-gnu9-ohpc
module avail mpich

4.4 Performance Tools
yum -y install ohpc-gnu9-perf-tools

4.5 Setup default development environment
yum -y install lmod-defaults-gnu9-openmpi4-ohpc

4.6 3rd Party Libraries and Tools
yum -y install ohpc-gnu9-mpich-parallel-libs
yum -y install ohpc-gnu9-openmpi4-parallel-libs

4.7 Optional Development Tool Builds
yum -y install intel-compilers-devel-ohpc
yum -y install intel-mpi-devel-ohpc

5 Resource Manager Startup
systemctl enable munge
systemctl enable slurmctld
systemctl start munge
systemctl start slurmctld

+
yum -y install yum install pdsh-ohpc

pdsh -w $compute_prefix[1-2] systemctl start munge
pdsh -w $compute_prefix[1-2] systemctl start slurmd
scontrol update nodename=c[1-4] state=idle

7 Run a Test Job
useradd -m test
wwsh file resync passwd shadow group
pdsh -w $compute_prefix[1-2] /warewulf/bin/wwgetfiles

7.1 Interactive execution
su - test
 mpicc -O3 /opt/ohpc/pub/examples/mpi/hello.c
 srun -n 8 -N 2 --pty /bin/bash[test@c1 ~]$ prun ./a.out

7.2 Batch execution
 cp /opt/ohpc/pub/examples/slurm/job.mpi .
 cat job.mpi
 #!/bin/bash
 #SBATCH -J test # Job name
 #SBATCH -o job.%j.out # Name of stdout output file (%j expands to %jobId)
 #SBATCH -N 2 # Total number of nodes requested
 #SBATCH -n 16 # Total number of mpi tasks #requested
 #SBATCH -t 01:30:00 # Run time (hh:mm:ss) - 1.5 hours
 # Launch MPI-based executable
 prun ./a.out

 sbatch job.mpi

 

# yum install ohpc-gnu9-perf-tools
마지막 메타 데이터 만료 확인 : 0:00:55 전에 2020년 12월 14일 (월) 오후 09시 28분 27초.
오류:
 문제: package ohpc-gnu9-perf-tools-2.0-47.1.ohpc.2.0.x86_64 requires scalasca-gnu9-mpich-ohpc, but none of the providers can be installed
  - package scalasca-gnu9-mpich-ohpc-2.5-2.3.ohpc.2.0.x86_64 requires lmod-ohpc >= 7.6.1, but none of the providers can be installed
  - cannot install the best candidate for the job
  - nothing provides lua-filesystem needed by lmod-ohpc-8.2.10-15.1.ohpc.2.0.x86_64
  - nothing provides lua-posix needed by lmod-ohpc-8.2.10-15.1.ohpc.2.0.x86_64
(설치할 수 없는 패키지를 건너 뛰려면 '--skip-broken'을 (를) 추가하십시오. 또는 '--nobest'은/는 최상의 선택된 패키지만 사용합니다)
# yum -y install gnu9-compilers-ohpc
마지막 메타 데이터 만료 확인 : 0:01:36 전에 2020년 12월 14일 (월) 오후 09시 28분 27초.
패키지 gnu9-compilers-ohpc-9.3.0-15.1.ohpc.2.0.x86_64이/가 이미 설치되어 있습니다.
종속성이 해결되었습니다.
할 것이 없음.
완료되었습니다!
#  yum -y install mpich-ucx-gnu9-ohpc
마지막 메타 데이터 만료 확인 : 0:01:46 전에 2020년 12월 14일 (월) 오후 09시 28분 27초.
패키지 mpich-ucx-gnu9-ohpc-3.3.2-13.1.ohpc.2.0.x86_64이/가 이미 설치되어 있습니다.
종속성이 해결되었습니다.
할 것이 없음.
완료되었습니다!
# yum -y install ohpc-gnu9-perf-tools
마지막 메타 데이터 만료 확인 : 0:02:45 전에 2020년 12월 14일 (월) 오후 09시 28분 27초.
오류:
 문제: package ohpc-gnu9-perf-tools-2.0-47.1.ohpc.2.0.x86_64 requires scalasca-gnu9-mpich-ohpc, but none of the providers can be installed
  - package scalasca-gnu9-mpich-ohpc-2.5-2.3.ohpc.2.0.x86_64 requires lmod-ohpc >= 7.6.1, but none of the providers can be installed
  - cannot install the best candidate for the job
  - nothing provides lua-filesystem needed by lmod-ohpc-8.2.10-15.1.ohpc.2.0.x86_64
  - nothing provides lua-posix needed by lmod-ohpc-8.2.10-15.1.ohpc.2.0.x86_64
(설치할 수 없는 패키지를 건너 뛰려면 '--skip-broken'을 (를) 추가하십시오. 또는 '--nobest'은/는 최상의 선택된 패키지만 사용합니다)
# yum install lmod-ohpc
마지막 메타 데이터 만료 확인 : 0:03:12 전에 2020년 12월 14일 (월) 오후 09시 28분 27초.
오류:
 문제: cannot install the best candidate for the job
  - nothing provides lua-filesystem needed by lmod-ohpc-8.2.10-15.1.ohpc.2.0.x86_64
  - nothing provides lua-posix needed by lmod-ohpc-8.2.10-15.1.ohpc.2.0.x86_64
(설치할 수 없는 패키지를 건너 뛰려면 '--skip-broken'을 (를) 추가하십시오. 또는 '--nobest'은/는 최상의 선택된 패키지만 사용합니다)
#  yum -y install lmod-defaults-gnu9-openmpi4-ohpc
마지막 메타 데이터 만료 확인 : 0:03:47 전에 2020년 12월 14일 (월) 오후 09시 28분 27초.
오류:
 문제: package lmod-defaults-gnu9-openmpi4-ohpc-2.0-4.1.ohpc.2.0.noarch requires lmod-ohpc, but none of the providers can be installed
  - conflicting requests
  - nothing provides lua-filesystem needed by lmod-ohpc-8.2.10-15.1.ohpc.2.0.x86_64
  - nothing provides lua-posix needed by lmod-ohpc-8.2.10-15.1.ohpc.2.0.x86_64
(설치할 수 없는 패키지를 건너 뛰려면 '--skip-broken'을 (를) 추가하십시오. 또는 '--nobest'은/는 최상의 선택된 패키지만 사용합니다)

'프로그램 사용 > openHPC' 카테고리의 다른 글

slurmd: fatal: Unable to determine this slurmd's NodeName  (0) 2020.12.15
environment module / lmod  (0) 2020.12.15
OpenFabrics interface - ofi  (0) 2020.12.14
MVAPICH2  (0) 2020.12.14
ip, ifconfig 없이 ip 알아내기  (0) 2020.12.08
Posted by 구차니

RTL-SDR 용으로 구매했던 녀석(RTL2832U + FC0012)를 아버지께서 안쓰신대서 돌려받아왔는데

kodi에 PVR client로 ARM(RPi)가 Yes로 되어있는 NextPVR을 설치했지만 안된다.

[링크 : https://kodi.wiki/view/PVR/Backends]

 

아무튼 FM이라도 나오면 좋으련만.. 라즈베리 파이로 CPU 성능이 될지 모르겠네

[링크 : https://www.rtl-sdr.com/tag/kodi/]

[링크 : http://esmasol.de/open-source/kodi-add-on-s/fm-radio-receiver/]

[링크 : https://kodi.wiki/view/Add-on:RTL-SDR_FM_Radio_Client]

 

'프로그램 사용 > kodi(xbmc)' 카테고리의 다른 글

kodi samba operation not permitted  (2) 2020.12.12
kodi 전체화면 / 창화면  (0) 2020.07.05
kodi 단축키  (0) 2020.03.29
Wifi direct  (0) 2018.04.02
KODI / DLNA 설정  (0) 2018.04.02
Posted by 구차니

의외로 많이 느리다고 해야하나?

대충 30MB/s 정도 겨우 나오는 듯..

그나저나 저 CPU 점유율 보소... ㄷㄷ

NAT로 구성되서 저렇게 많이 먹고 속도도 안나는 건가?

 

Posted by 구차니
프로그램 사용/openHPC2020. 12. 14. 16:13

MPICH2 ofi, ucx

[링크 : https://www.mpich.org/about/news/]

 

OpenFabrics Interfaces

[링크 : https://ofiwg.github.io/libfabric/]

 

Unified Communication X

[링크 : https://www.openucx.org/

'프로그램 사용 > openHPC' 카테고리의 다른 글

environment module / lmod  (0) 2020.12.15
openHPC 설치 part3?  (0) 2020.12.15
MVAPICH2  (0) 2020.12.14
ip, ifconfig 없이 ip 알아내기  (0) 2020.12.08
centos kernel update  (0) 2020.12.08
Posted by 구차니