Two errors: No heartbeat received and cuda out of memory

Hello all,

Recently we have been facing issues with two major issues

a. Cuda out of memory in a 2d Classification job

b. No heartbeat received in 180 sec

[root@node13 ~]# cryosparcm status

----------------------------------------------------------------------------

CryoSPARC System master node installed at

/BeagleAttic/apps/software/cryo/cryosparc_master

Current cryoSPARC version: v4.5.3

----------------------------------------------------------------------------

CryoSPARC process status:

app RUNNING pid 3785, uptime 5 days, 2:51:58

app_api RUNNING pid 3787, uptime 5 days, 2:51:56

app_api_dev STOPPED Not started

command_core RUNNING pid 3661, uptime 5 days, 2:53:05

command_rtp RUNNING pid 3722, uptime 5 days, 2:52:31

command_vis RUNNING pid 3714, uptime 5 days, 2:52:32

database RUNNING pid 3553, uptime 5 days, 2:53:10

  1. Installing or running CryoSPARC commands as root may lead to CryoSPARC malfunction and may be unsafe.

  2. Please note the minimum nvidia driver version ≥ 520 for CryoSPARC v4.5.3 (see error message). What is the output of the nvidia-smi command on the worker node where job J35 failed?

1 Like

Thank you for the reply. I have shared the suggestion to our technical team. Will try and see if its fixed. We will also try to update the new version of Cryosparc.

This is the output for nvidia-smi

\[root@node13 BeagleAttic\]# nvidia-smi 

Mon Nov 17 12:17:07 2025       

+-----------------------------------------------------------------------------+

| NVIDIA-SMI 525.147.05   Driver Version: 525.147.05   CUDA Version: 12.0     |

|-------------------------------+----------------------+----------------------+

| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |

| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

|                               |                      |               MIG M. |

|===============================+======================+======================|

|   0  Tesla V100-SXM2...  Off  | 00000000:1F:00.0 Off |                    0 |

| N/A   34C    P0    54W / 300W |   7825MiB / 32768MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

|   1  Tesla V100-SXM2...  Off  | 00000000:65:00.0 Off |                    0 |

| N/A   33C    P0    66W / 300W |  20947MiB / 32768MiB |     26%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

|   2  Tesla V100-SXM2...  Off  | 00000000:B6:00.0 Off |                    0 |

| N/A   37C    P0   135W / 300W |   2643MiB / 32768MiB |     96%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

|   3  Tesla V100-SXM2...  Off  | 00000000:DF:00.0 Off |                    0 |

| N/A   48C    P0    69W / 300W |  15704MiB / 32768MiB |      5%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

                                                                               

+-----------------------------------------------------------------------------+

| Processes:                                                                  |

|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |

|        ID   ID                                                   Usage      |

|=============================================================================|

|    0   N/A  N/A    147419      C   python                           7794MiB |

|    1   N/A  N/A     41229      C   python                            348MiB |

|    1   N/A  N/A    147419      C   python                           7794MiB |

|    1   N/A  N/A    147771      C   python                          12774MiB |

|    2   N/A  N/A     41230      C   python                            346MiB |

|    2   N/A  N/A    147945      C   python                           2284MiB |

|    3   N/A  N/A     41231      C   python                            348MiB |

|    3   N/A  N/A    147772      C   python                          12772MiB |

|    3   N/A  N/A    147812      C   python                           2562MiB |

Thanks @nikhil for posting the nvidia-smi output. Please can you also post the output of this command, where you need to replace P99 with the actual project ID:

cryosparcm cli "get_job('P99', 'J35', 'job_type', 'version', 'instance_information', 'status',  'params_spec', 'errors_run', 'started_at')" 
1 Like

Sure. Will share the output for the same.

There is one naive doubt we have: Do cryosparc need a continuous internet connection to run a job? We have installed the software locally, and the data gets processed on the local machine.

It needs internet access every time you run a job.

1 Like

Thank you for reply. Got it.

This is the output

\[root@node13 \~\]# cryosparcm cli "get_job('P99', 'J35', 'job_type', 'version', 'instance_information', 'status', 'params_spec', 'errors_run', 'started_at')"
{'\_id': '691808d72a2940b8106156d4', 'errors_run': \[{'message': "\[CUresult.CUDA_ERROR_UNSUPPORTED_PTX_VERSION\] Call to cuLinkAddData results in CUDA_ERROR_UNSUPPORTED_PTX_VERSION\\nptxas application ptx input, line 9; fatal   : Unsupported .version 7.8; current version is '7.4'\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00", 'warning': False}\], 'instance_information': {}, 'job_type': 'class_2D_new', 'params_spec': {'class2D_force_max': {'value': False}, 'class2D_max_res': {'value': 3}, 'class2D_max_res_align': {'value': 3}, 'class2D_num_full_iter_batch': {'value': 40}, 'class2D_num_full_iter_batchsize_per_class': {'value': 800}, 'class2D_window_inner_A': {'value': 120}, 'compute_use_ssd': {'value': False}}, 'project_uid': 'P99', 'started_at': None, 'status': 'failed', 'uid': 'J35', 'version': 'v4.5.3'}

@nikhil Please can you provide some additional details about nvidia driver installation on node13:

  1. When in with which command was the nvidia driver v525 installed?
  2. Can any other GPU-accelerated CryoSPARC job types run successfully on node13?
  3. What are the outputs of these commands on node13
    uname -a
    python3 -V
    cryosparcm call env | grep PATH
    /sbin/ldconfig -p | grep -i cu