Пользователям "Чебышева" - как вывести список адресов выделенных нод?

yurijm123

Смотрите: на "Ломоносове" команда

srun -N3 hostname

выводит список адресов трех нод, на которых запустилась команда hostname. А есть ли аналог этого действия на "Чебышеве"?

Vlad128

не работал там, поэтому конкретики не знаю. А что, нельзя просто поставить задачу hostname на выполнение? Или свою прогу на C, которая вызывает system("hostname")?

yurijm123

Пробовал, не получается. К тому же, список адресов нод нужен для того, чтобы скормить его квантовому пакету ORCA. То есть, пишется скрипт, который ставится в очередь. В нем сначала получается список адресов нод, выделенных задаче, который пишется в файл. Потом с этим файлом запускается ORCA, которая сама запускает OpenMPI и распределяет процессы по этим нодам.

Vlad128

да, жестокая схема, это надо к отцам MPI, я так сложно запускать не пробовал. А можно ссылку на документацию этой программы, где сказано, что именно так и надо делать?

Yakoffsax

там наверняка у этого шедулера есть что-то типа $NODELIST $HOSTFILE или как-то так, ну то есть переменная среды для задачи, в которой ноды указаны.

yurijm123

ORCA? Извольте: [url= http://www.mpibac.mpg.de/bac/logins/neese/downloads/OrcaManu... 2.9 Manual[/url]
Страница 30, параграф 7:
7.
If Parallel ORCA finds a file named 'MyMol.nodes' in the directory where it's running, it will use the nodes listed in this file to start the processes on, provided your input file was 'MyMol.inp'. You can use this file as your machinefile-­‐file specifying your nodes, using the usual OpenMPI machinefile notation.

Vlad128

ну да, тогда читай ответ 'а, что там за шедулер на Чебышове?

Yakoffsax

ну да, тогда читай ответ 'а, что там за шедулер на Чебышове?
самопальный глюкодром под названием cleo. Как же хорошо, что на ломоносове slurm.

yurijm123

Положим, место, где берется список нод, я нашел. А имеют ли они свои доменные имена, как на "Ломоносове" (а-ля node1-006-01.lomonosov.parallel.ru)? Просто список выводится в файле *.rep
 Task     : nodelist
2 Args : nodelist
3 Nproc : 16
4 Exit code: 0
5 Output in: /home/*******/work/***/orca/nodelist.out-314887
6 Work dir : /home/*******/work/***/orca
7 Work time: 0 hours 0 minutes 4 seconds
8 Report : http://t60-2.parallel.ru/cleo-reports/task_report_$uniqid.html
9 Started : Sun Feb 3 04:47:26 2013
10 Nodes : node-05-05:1,node-05-05:2,node-05-05:3,node-05-05:4,node-05-05:5,node-05-05:6,node-05-05:7,node-05-05:8,node-61-09:1,node-61-09:2,node-61-09:3 ,node-61-09:4,node-61-09:5,node-61-09:6,node-61-09:7,node-61-09:8

yurijm123

Всем спасибо, я разобрался. Оказывается, node-05-05 и есть доменное имя во внутренней сети.
Оставить комментарий
Имя или ник:
Комментарий: