• No balance available for the User的錯誤訊息

    ·         No balance available for the User的錯誤訊息

    Q:遇到qsub: No balance available for the User的錯誤訊息
           [username@clogin4 job1]$ qsub job_script.sh
           qsub: No balance available for the User
    A:錯誤可能原因:
          1.
    計畫代號選錯
          2.
    計畫代號沒有額度可扣款
          3.
    沒有可用計畫




    1. 計畫代號選錯:
        這是指PBS設定的Project錯誤,就是 #PBS -P 這一行設錯值。 
        首先,請依照get_su_balance查詢到的計畫清單所顯示的Project
        在submitJob Script shell內容中,將#PBS -P 設定改成可用的Project,如 #PBS -P MSTxxxxxx。其他補充說明
         ※ 請參考主機的使用說明內容的 5.3 Job submission,有詳細提供說明如何查詢Project ID(project name)
        
    ※ 關於PBS設定,請參考主機的使用說明內容的 5. PBS Pro job operation 有詳細說明Job Script 的設定。

            請注意 紅字 的註解
     ※ 台灣杉一號(Taiwania 1 )主機的使用說明(包含Taiwania HPC System User Operation ManualPDF檔案)

     

    2.計畫代號沒有額度可扣款 
       請登入服務網購買額度(若身份是成員,請告知計畫主持人或管理者提出申請)

    3.沒有可用計畫
        請上網確認計畫是否已到期,如到期,請再提出計畫申請(若身份是成員,請告知計畫主持人或管理者提出申請)


  • qsub job_script.sh時出現bad interpreter: No such file or directory 錯誤訊息

    Q:
    [username@clogin4 job1]$ qsub job_script.sh
    時出現

    -bash: /var/spool/pbs/mom_priv/jobs/50622.srvc1.SC: /bin/bash^M: bad interpreter: No such file or directory


    A: 請修正
    job script檔案格式
    [username@clogin4 job1]$ 
    dos2unix job_script.sh

     

  • Job送出後一直在排隊,沒進入執行

    Q: Job送出後一直在排隊

       

    A: 當發現Job送出之後,等待超過7天以上都沒有進入執行,
    此時請先檢查您所撰寫的job script內容是否有錯誤。
    案例一: 
    #PBS -l select=1:ncpus=80

    這一個參數
    ncpus不可超過每個計算節點的資源上限,
    請注意ncpus數值要小於等於40

    案例二:
    $ qstat -f job_id  查詢 comment 欄位可以得知目前等待的原因

        comment = Can Never Run: Insufficient amount of resource: ngpus (R: 2 A: 0
            T: 0)

    因為本系統沒有提供GPU所以job script內使用這一個ngpus參數是錯誤的


    注意:
    包機環境送出job之後,若仍有job出現長時間排隊的情形,請通知系統管理員檢查包機的計算節點之中是否有硬體異常問題

  • 怎麼利用Intel MPI編譯與執行平行程式? 是否有簡單的使用範例可參考

    請參考Youtube影片教學

  • 登入系統時出現Access denied錯誤訊息
    請先確認主機帳號是否錯誤;若非主機帳號錯誤,則為主機帳號之密碼或OPT碼錯誤造成。
    請依照您取得OTP碼的方式,先確認您的PC或手機有做系統時間的校時動作(時區:GMT+8標準時間),以免因為時間偏差,造成OTP認證碼取得錯誤,而無法登入主機。
    若系統時間無誤,請先嘗試變更主機帳號之密碼後,再次登入主機,如仍是出現 Access denied 訊息,則請提供相關資訊給客服人員進行處理。
  • 針對大檔案的傳輸或是重新執行斷線後的續傳
    請您先參考這一份文件:利用公鑰進行檔案傳輸使用說明
    先建立好SSH公鑰認證,即可以免輸入密碼登入到xdata1或xdata2節點。

    以下是將大檔案(>20GB)上傳到台灣杉一號的rsync指令使用範例:
    過程會顯示傳輸進度:
    [username@linux ~]# rsync -avP -e "ssh" ./20GB_file.dat username@140.110.148.21:~/twnia1_bigfile_dir/
    sending incremental file list
    20GB_file.dat
      9038233600  42%  108.97MB/s    0:01:51

    當傳輸結束會顯示速率:
    [username@linux ~]# rsync -avP -e "ssh" ./20GB_file.dat username@140.110.148.21:~/twnia1_bigfile_dir/
    sending incremental file list
    20GB_file.dat
     21474836480 100%  106.78MB/s    0:03:11 (xfer#1, to-check=0/1)

    sent 21477457999 bytes  received 31 bytes  111571210.55 bytes/sec
    total size is 21474836480  speedup is 1.00

    傳輸過程萬一發生網路不預期斷線,或是大檔案有異動需要再重新上傳,
    再次透過rsync指令,您就可以節省很多時間。
    [username@linux ~]# rsync -avP -e "ssh" ./20GB_file.dat username@140.110.148.21:~/twnia1_bigfile_dir/
    sending incremental file list

    sent 40 bytes  received 12 bytes  104.00 bytes/sec
    total size is 21474836480  speedup is 412977624.62

  • 台灣杉一號(Taiwania 1)系統的user priority設定
    台灣杉一號(Taiwania 1)系統使用的PBS Professional (workload manager and job scheduler)排程系統管理軟體,啟用FairShare公平排程機制,每一位用戶並沒有特別的priority。
    基本queue name的計算節點分配,可參考主機的使用說明內容中 5.1 job queue表格。
  • 台灣杉一號(Taiwania 1)系統有Intel、PGI等編譯器Environment

    1.Load Intel compiler environment 
       [user@clogin1]$ module load intel/2018_u1 
       # Choose a module to match the version to use. 
       Export license file 
       [user@clogin1]$ export INTEL_LICENSE_FILE=28518@sufi.nchc.org.tw

    2.Load PGI compiler environment 
       [user@clogin1]$ module load pgi/17.10  
       Export license file 
       [user@clogin1]$ export LM_LICENSE_FILE=27500@sufi.nchc.org.tw

      
    詳細Compile/link to program請參考台灣杉一號(Taiwania 1)系統操作手冊之4. Compile and Link章節內容。

  • 台灣杉一號(Taiwania 1)系統的Batch Job Status Check指令
    Display the list of all available Queues
            $ qstat –Q
    $ qstat -Qf queue_name
           Trace job id and monitor your job.
    $ qstat
            $ qstat -u your_account
            $ qstat -f
    Terminate your job.
            $ qdel job_id
  • 如何使用setacl指令自行設定需要分享目錄或檔案
    setacl設定分享資料之命令格式說明:
    $setfacl -m u:AccountName:rx file
    $setfacl -m g:GroupName:rx file
    $setfacl -R -m u:AccountName:rx directory
    $setfacl -R -m g:GroupName:rx directory

    setacl刪除分享資料之命令格式說明:
    $setfacl -x u:AccountName file
    $setfacl -x g:GroupName file
    $setfacl -R -x u:AccountName directory
    $setfacl -R -x g:GroupName directory

    其中 AccountName 是帳號名稱、GroupName是群組名稱

    若要查看是否設定成功,您可使用getfacl來查看,如:
    $getfacl /directory

    詳細說明請登入系統後執行命令$man setfacl 查詢

    注意: 請勿以setacl指令分享整個主機帳號家目錄(/home/username),除了個人資安風險外,亦會造成ssh連線問題。
  • 檢查儲存空間quota的大小?
    請用以下指令查詢磁碟空間已使用的容量與限制:
    $lfs quota -hu username /home
    $lfs quota -hu username /project
    $lfs quota -hu username /work1
  • qsub: unauthorized request 的錯誤訊息
    [username@clogin1]$ qsub job_script.sh
    出現訊息「qsub: Unauthorized Request」是因為特殊專用queue有限制使用帳號或計畫代碼。
    若您確認所屬「計畫代碼」可以使用該專用queue,請在job script加入以下設定:
    #PBS -P MST107XXX
    #PBS -W group_list=MST107XXX
  • 使用 SSH 指令登入台灣杉一號(Taiwania1)登入節點
    使用 SSH 指令登入台灣杉一號登入節點(Taiwania1)
    指令:  ssh  主機帳號@台灣杉一號登入節點IP
    例如:  主機帳號為 8nchc , 台灣杉一號登入節點IP為 140.110.148.12
    於Terminal 下指令 ssh 8nchc@140.110.148.12 ,然後輸入主機密碼及MOTP碼,即可登入台灣杉一號
    畫面請參考下方圖片