[03/05 14:39:49 libai]: Rank of current process: 0. World size: 8
[03/05 14:39:49 libai]: Command line arguments: Namespace(config_file='configs/bert_large_pretrain.py', eval_only=False, fast_dev_run=False, opts=['model.cfg.hidden_dropout_prob=0.1', 'model.cfg.attention_probs_dropout_prob=0.1', 'model.cfg.bias_dropout_fusion=true', 'model.cfg.hidden_layers=24', 'model.cfg.hidden_size=1024', 'model.cfg.num_attention_heads=16', 'model.cfg.intermediate_size=4096', 'model.cfg.ffn_hidden_size=4096', 'model.cfg.head_size=64', 'graph.enabled=true', 'train.dist.pipeline_num_layers=24', 'train.train_micro_batch_size=32', 'train.global_batch_size=2048', 'train.dist.tensor_parallel_size=1', 'train.dist.pipeline_parallel_size=1', 'train.amp.enabled=true', 'train.activation_checkpoint.enabled=true', 'train.num_accumulation_steps=8', 'train.evaluation.enabled=false', 'train.train_iter=220', 'train.train_epoch=0', 'train.log_period=100', 'train.zero_optimization.enabled=true', 'train.zero_optimization.stage=2', 'train.load_weight=', 'train.output_dir=test_logs/oneflow-28/NVIDIA_GeForce_RTX_3080_Ti/7d07caf/LibAI_bert_large_pretrain_graph_nl24_nah16_hs1024_FP16_actrue_DP8_MP1_PP1_zerotrue_stage2_mbs32_gbs2048_acc8_1n8g'], resume=False)
[03/05 14:39:49 libai]: Contents of args.config_file=configs/bert_large_pretrain.py:
[38;5;197mfrom[39m[38;5;15m [39m[38;5;15mlibai[39m[38;5;15m.[39m[38;5;15mconfig[39m[38;5;15m [39m[38;5;197mimport[39m[38;5;15m [39m[38;5;15mLazyCall[39m
[38;5;197mfrom[39m[38;5;15m [39m[38;5;15mlibai[39m[38;5;15m.[39m[38;5;15mevaluation[39m[38;5;15m [39m[38;5;197mimport[39m[38;5;15m [39m[38;5;15mPPLEvaluator[39m
[38;5;197mfrom[39m[38;5;15m [39m[38;5;15m.[39m[38;5;15mcommon[39m[38;5;15m.[39m[38;5;15mmodels[39m[38;5;15m.[39m[38;5;15mbert[39m[38;5;15m [39m[38;5;197mimport[39m[38;5;15m [39m[38;5;15mpretrain_model[39m[38;5;15m [39m[38;5;81mas[39m[38;5;15m [39m[38;5;15mmodel[39m
[38;5;197mfrom[39m[38;5;15m [39m[38;5;15m.[39m[38;5;15mcommon[39m[38;5;15m.[39m[38;5;15mmodels[39m[38;5;15m.[39m[38;5;15mgraph[39m[38;5;15m [39m[38;5;197mimport[39m[38;5;15m [39m[38;5;15mgraph[39m
[38;5;197mfrom[39m[38;5;15m [39m[38;5;15m.[39m[38;5;15mcommon[39m[38;5;15m.[39m[38;5;15mtrain[39m[38;5;15m [39m[38;5;197mimport[39m[38;5;15m [39m[38;5;15mtrain[39m
[38;5;197mfrom[39m[38;5;15m [39m[38;5;15m.[39m[38;5;15mcommon[39m[38;5;15m.[39m[38;5;15moptim[39m[38;5;15m [39m[38;5;197mimport[39m[38;5;15m [39m[38;5;15moptim[39m
[38;5;197mfrom[39m[38;5;15m [39m[38;5;15m.[39m[38;5;15mcommon[39m[38;5;15m.[39m[38;5;15mdata[39m[38;5;15m.[39m[38;5;15mbert_dataset[39m[38;5;15m [39m[38;5;197mimport[39m[38;5;15m [39m[38;5;15mdataloader[39m[38;5;15m,[39m[38;5;15m [39m[38;5;15mtokenization[39m

[38;5;15mvocab_file[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;186m"[39m[38;5;186m./data_test/bert_data/bert-base-chinese-vocab.txt[39m[38;5;186m"[39m
[38;5;15mdata_prefix[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;186m"[39m[38;5;186m./data_test/bert_data/loss_compara_content_sentence[39m[38;5;186m"[39m

[38;5;15mtokenization[39m[38;5;197m.[39m[38;5;15mtokenizer[39m[38;5;197m.[39m[38;5;15mvocab_file[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;15mvocab_file[39m
[38;5;15mdataloader[39m[38;5;197m.[39m[38;5;15mtrain[39m[38;5;197m.[39m[38;5;15mdataset[39m[38;5;15m[[39m[38;5;141m0[39m[38;5;15m][39m[38;5;197m.[39m[38;5;15mdata_prefix[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;15mdata_prefix[39m
[38;5;15mdataloader[39m[38;5;197m.[39m[38;5;15mtrain[39m[38;5;197m.[39m[38;5;15mdataset[39m[38;5;15m[[39m[38;5;141m0[39m[38;5;15m][39m[38;5;197m.[39m[38;5;15mindexed_dataset[39m[38;5;197m.[39m[38;5;15mdata_prefix[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;15mdata_prefix[39m

[38;5;242m# Bert-large model config[39m
[38;5;15mmodel[39m[38;5;197m.[39m[38;5;15mcfg[39m[38;5;197m.[39m[38;5;15mnum_attention_heads[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;141m16[39m
[38;5;15mmodel[39m[38;5;197m.[39m[38;5;15mcfg[39m[38;5;197m.[39m[38;5;15mhidden_size[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;141m768[39m
[38;5;15mmodel[39m[38;5;197m.[39m[38;5;15mcfg[39m[38;5;197m.[39m[38;5;15mhidden_layers[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;141m8[39m

[38;5;15mtrain[39m[38;5;197m.[39m[38;5;15minput_placement_device[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;186m"[39m[38;5;186mcpu[39m[38;5;186m"[39m

[38;5;15mtrain[39m[38;5;197m.[39m[38;5;15mdist[39m[38;5;197m.[39m[38;5;15mpipeline_num_layers[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;15mmodel[39m[38;5;197m.[39m[38;5;15mcfg[39m[38;5;197m.[39m[38;5;15mhidden_layers[39m

[38;5;15mtrain[39m[38;5;197m.[39m[38;5;15mtrain_micro_batch_size[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;141m16[39m

[38;5;15mtrain[39m[38;5;197m.[39m[38;5;15mamp[39m[38;5;197m.[39m[38;5;15menabled[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;81mTrue[39m

[38;5;81mfor[39m[38;5;15m [39m[38;5;15mds[39m[38;5;15m [39m[38;5;197min[39m[38;5;15m [39m[38;5;15mdataloader[39m[38;5;197m.[39m[38;5;15mtrain[39m[38;5;197m.[39m[38;5;15mdataset[39m[38;5;15m:[39m
[38;5;15m    [39m[38;5;15mds[39m[38;5;197m.[39m[38;5;15mmax_seq_length[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;15mmodel[39m[38;5;197m.[39m[38;5;15mcfg[39m[38;5;197m.[39m[38;5;15mmax_position_embeddings[39m

[38;5;15mtrain[39m[38;5;197m.[39m[38;5;15mevaluation[39m[38;5;197m.[39m[38;5;15mevaluator[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;15mLazyCall[39m[38;5;15m([39m[38;5;15mPPLEvaluator[39m[38;5;15m)[39m[38;5;15m([39m[38;5;15m)[39m

[38;5;15mtrain[39m[38;5;197m.[39m[38;5;15moutput_dir[39m[38;5;15m [39m[38;5;197m=[39m[38;5;15m [39m[38;5;186m"[39m[38;5;186moutput/bert_output[39m[38;5;186m"[39m

[03/05 14:39:50 libai]: Full config saved to test_logs/oneflow-28/NVIDIA_GeForce_RTX_3080_Ti/7d07caf/LibAI_bert_large_pretrain_graph_nl24_nah16_hs1024_FP16_actrue_DP8_MP1_PP1_zerotrue_stage2_mbs32_gbs2048_acc8_1n8g/config.yaml
[03/05 14:39:50 lb.engine.default]: > compiling dataset index builder ...
make: Entering directory '/ssd/home/ouyangyu/libai_week_test/libai/libai/data/data_utils'
make: Nothing to be done for 'default'.
make: Leaving directory '/ssd/home/ouyangyu/libai_week_test/libai/libai/data/data_utils'
[03/05 14:39:50 lb.engine.default]: >>> done with dataset index builder. Compilation time: 0.055 seconds
[03/05 14:39:50 lb.engine.default]: >>> done with compiling. Compilation time: 0.057 seconds
[03/05 14:39:50 lb.engine.default]: Prepare training, validating, testing set
[03/05 14:39:50 lb.data.data_utils.indexed_dataset]: building dataset index ...
[03/05 14:39:50 lb.data.data_utils.indexed_dataset]: warming up index mmap file...
[03/05 14:39:50 lb.data.data_utils.indexed_dataset]: reading sizes...
[03/05 14:39:50 lb.data.data_utils.indexed_dataset]: reading pointers...
[03/05 14:39:50 lb.data.data_utils.indexed_dataset]: reading document index...
[03/05 14:39:50 lb.data.data_utils.indexed_dataset]: warming up data mmap file...
[03/05 14:39:50 lb.data.data_utils.indexed_dataset]: creating numpy buffer of mmap...
[03/05 14:39:50 lb.data.data_utils.indexed_dataset]: creating memory view of numpy buffer...
[03/05 14:39:50 lb.data.data_utils.indexed_dataset]: Finished creating indexed dataset in 0.081165 seconds
[03/05 14:39:50 lb.data.data_utils.indexed_dataset]: indexed dataset stats:
[03/05 14:39:50 lb.data.data_utils.indexed_dataset]: number of documents: 50000
[03/05 14:39:50 lb.data.data_utils.indexed_dataset]: number of sentences: 1249934
[03/05 14:39:50 lb.data.data_utils.dataset_utils]:  > WARNING: could not find index map file ./data_test/bert_data/loss_compara_content_sentence_bert_indexmap_450560mns_509msl_0.10ssp_1234s.npy, building the indices on rank 0 ...
[03/05 14:39:50 lb.data.data_utils.dataset_utils]:  > building samples index mapping for bert ...
    using uint32 for data mapping...
    using:
     number of documents:            47450
     sentences range:                [0, 1188464)
     total number of sentences:      1188464
     number of epochs:               2147483646
     maximum number of samples:      450560
     maximum sequence length:        509
     short sequence probability:     0.1
     short sequence ration (1/prob): 10
     seed:                           1234
    reached 450560 samples after 4 epochs ...
   number of empty documents: 0
   number of documents with one sentence: 711
   number of documents with long sentences: 2092
   will create mapping for 452417 samples
[03/05 14:39:50 lb.data.data_utils.dataset_utils]:  > done building samples index maping
[03/05 14:39:50 lb.data.data_utils.dataset_utils]:  > saved the index mapping in ./data_test/bert_data/loss_compara_content_sentence_bert_indexmap_450560mns_509msl_0.10ssp_1234s.npy
[03/05 14:39:50 lb.data.data_utils.dataset_utils]:  > elapsed time to build and save samples mapping (seconds): 0.055792
[03/05 14:39:50 lb.data.data_utils.dataset_utils]:  > loading indexed mapping from ./data_test/bert_data/loss_compara_content_sentence_bert_indexmap_450560mns_509msl_0.10ssp_1234s.npy
[03/05 14:39:50 lb.data.data_utils.dataset_utils]:     loaded indexed file in 0.003 seconds
[03/05 14:39:50 lb.data.data_utils.dataset_utils]:     total number of samples: 452417
[03/05 14:39:50 lb.data.data_utils.dataset_utils]:  > loading indexed mapping from ./data_test/bert_data/loss_compara_content_sentence_bert_indexmap_256mns_509msl_0.10ssp_1234s.npy
[03/05 14:39:50 lb.data.data_utils.dataset_utils]:     loaded indexed file in 0.001 seconds
[03/05 14:39:50 lb.data.data_utils.dataset_utils]:     total number of samples: 5884
[03/05 14:39:50 lb.data.data_utils.dataset_utils]:  > loading indexed mapping from ./data_test/bert_data/loss_compara_content_sentence_bert_indexmap_256mns_509msl_0.10ssp_1234s.npy
[03/05 14:39:50 lb.data.data_utils.dataset_utils]:     loaded indexed file in 0.000 seconds
[03/05 14:39:50 lb.data.data_utils.dataset_utils]:     total number of samples: 5884
[03/05 14:39:59 lb.engine.default]: Auto-scaling the config to train.train_iter=220, train.warmup_iter=0
[03/05 14:39:59 libai]: > Start building model...
[03/05 14:40:01 lb.engine.default]: Model:
BertForPreTraining(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (vocab_embeddings): VocabEmbedding(num_embeddings=21248, embedding_dim=1024)
      (position_embeddings): Embedding(num_embeddings=512, embedding_dim=1024)
      (tokentype_embeddings): Embedding(num_embeddings=2, embedding_dim=1024)
      (embedding_dropout): Dropout(p=0.1, inplace=False)
    )
    (extended_attn_mask): BertExtendedAttnMask()
    (encoders): ModuleList(
      (0): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (1): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (2): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (3): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (4): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (5): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (6): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (7): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (8): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (9): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (10): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (11): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (12): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (13): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (14): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (15): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (16): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (17): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (18): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (19): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (20): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (21): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (22): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
      (23): TransformerLayer(
        (drop_path): Identity()
        (input_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (self_attention): MultiheadAttention(
          hidden_size=1024, num_heads=16, is_cross_attention=False
          (dropout): Dropout(p=0.1, inplace=False)
          (query_key_value): Linear1D(in_features=1024, out_features=3072, bias=True, parallel=col)
          (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=row)
        )
        (post_attention_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          bias_gelu_fusion=True, bias_dropout_fusion=True, dropout=0.1
          (dense_h_to_4h): Linear1D(in_features=1024, out_features=4096, bias=True, parallel=col)
          (dense_4h_to_h): Linear1D(in_features=4096, out_features=1024, bias=True, parallel=row)
        )
      )
    )
    (final_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
    (pooler): BertPooler(
      (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=col)
      (activation_func): Tanh()
    )
  )
  (cls_head): BertPreTrainingHeads(
    (predictions): BertLMPredictionHead(
      (dense): Linear1D(in_features=1024, out_features=1024, bias=True, parallel=data)
      (activation_func): GELU()
      (layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
    )
    (seq_relationship): Linear1D(in_features=1024, out_features=2, bias=True, parallel=data)
    (lm_logits): LMLogits()
    (loss_func): BertLoss(
      (lm_loss): ParallelCrossEntropyLoss()
    )
  )
)
[03/05 14:40:01 libai]: >>> done with building model. Building time: 2.126 seconds
WARNING [03/05 14:40:01 lb.scheduler.lr_scheduler]: warmup iters equals to zero, return CosineLR
[03/05 14:40:01 lb.engine.trainer]: Starting training from iteration 0
[03/05 14:40:01 lb.models.utils.graph_base]: Start compiling the train graph which may take some time. Please wait for a moment ...
timestamp, name, driver_version, utilization.gpu [%], utilization.memory [%], memory.total [MiB], memory.free [MiB], memory.used [MiB]
timestamp, name, driver_version, utilization.gpu [%], utilization.memory [%], memory.total [MiB], memory.free [MiB], memory.used [MiB]
2023/03/05 14:55:29.382, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 88 %, 7 %, 12288 MiB, 6937 MiB, 5116 MiB
timestamp, name, driver_version, utilization.gpu [%], utilization.memory [%], memory.total [MiB], memory.free [MiB], memory.used [MiB]
2023/03/05 14:55:29.384, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 88 %, 7 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.386, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 85 %, 6 %, 12288 MiB, 6937 MiB, 5116 MiB
timestamp, name, driver_version, utilization.gpu [%], utilization.memory [%], memory.total [MiB], memory.free [MiB], memory.used [MiB]
2023/03/05 14:55:29.386, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 88 %, 7 %, 12288 MiB, 6937 MiB, 5116 MiB
timestamp, name, driver_version, utilization.gpu [%], utilization.memory [%], memory.total [MiB], memory.free [MiB], memory.used [MiB]
timestamp, name, driver_version, utilization.gpu [%], utilization.memory [%], memory.total [MiB], memory.free [MiB], memory.used [MiB]
timestamp, name, driver_version, utilization.gpu [%], utilization.memory [%], memory.total [MiB], memory.free [MiB], memory.used [MiB]
2023/03/05 14:55:29.389, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 85 %, 6 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.391, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 86 %, 6 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.391, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 85 %, 6 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.391, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 88 %, 7 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.393, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 88 %, 7 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.393, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 88 %, 7 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.395, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 86 %, 6 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.393, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 88 %, 7 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.396, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 86 %, 5 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.397, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 86 %, 6 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.398, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 85 %, 6 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.400, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 85 %, 6 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.401, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 85 %, 6 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.402, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 86 %, 5 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.404, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 85 %, 6 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.405, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 84 %, 4 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.405, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 86 %, 5 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.406, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 86 %, 6 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.409, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 86 %, 6 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.410, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 86 %, 6 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.411, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 84 %, 4 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.411, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 86 %, 6 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.413, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 87 %, 8 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.414, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 84 %, 4 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.415, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 86 %, 5 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.418, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 86 %, 5 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.418, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 86 %, 5 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.420, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 87 %, 8 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.420, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 86 %, 5 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.422, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 84 %, 5 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.423, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 87 %, 8 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.424, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 84 %, 4 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.426, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 84 %, 4 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.427, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 84 %, 4 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.428, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 84 %, 5 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.429, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 84 %, 4 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.430, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 100 %, 19 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.431, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 84 %, 5 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.431, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 87 %, 8 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.434, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 87 %, 8 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.435, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 87 %, 8 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.436, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 100 %, 19 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.437, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 87 %, 8 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.439, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 100 %, 19 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.440, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 84 %, 5 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.443, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 84 %, 5 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.443, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 84 %, 5 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.446, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 84 %, 5 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.450, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 83 %, 11 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.453, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 83 %, 11 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.454, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 83 %, 11 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:29.455, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 83 %, 11 %, 12288 MiB, 6937 MiB, 5116 MiB
timestamp, name, driver_version, utilization.gpu [%], utilization.memory [%], memory.total [MiB], memory.free [MiB], memory.used [MiB]
2023/03/05 14:55:38.452, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 100 %, 36 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:38.454, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 100 %, 35 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:38.455, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 100 %, 20 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:38.456, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 100 %, 22 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:38.457, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 100 %, 23 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:38.458, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 94 %, 14 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:38.459, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 100 %, 20 %, 12288 MiB, 6937 MiB, 5116 MiB
2023/03/05 14:55:38.460, NVIDIA GeForce RTX 3080 Ti, 515.65.01, 72 %, 2 %, 12288 MiB, 6937 MiB, 5116 MiB
[03/05 14:55:47 lb.utils.events]:  eta: 0:18:17  iteration: 99/220  consumed_samples: 204800  total_loss: 7.915  lm_loss: 7.219  sop_loss: 0.6946  time: 9.1463 s/iter  data_time: 0.0147 s/iter total_throughput: 223.92 samples/s lr: 5.82e-05  
[03/05 15:11:01 lb.utils.events]:  eta: 0:03:02  iteration: 199/220  consumed_samples: 409600  total_loss: 7.892  lm_loss: 7.199  sop_loss: 0.6935  time: 9.1436 s/iter  data_time: 0.0127 s/iter total_throughput: 223.98 samples/s lr: 3.21e-06  
[03/05 15:14:04 lb.utils.events]:  eta: 0:00:00  iteration: 219/220  consumed_samples: 450560  total_loss: 7.887  lm_loss: 7.194  sop_loss: 0.6932  time: 9.1436 s/iter  data_time: 0.0149 s/iter total_throughput: 223.98 samples/s lr: 1.01e-06  
[03/05 15:14:04 lb.engine.hooks]: Overall training speed: 218 iterations in 0:33:13 (9.1436 s / it)
[03/05 15:14:04 lb.engine.hooks]: Total training time: 0:33:13 (0:00:00 on hooks)
*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
oneflow-version(git_commit)=0.9.1.dev20230304+cu117
oneflow-commit(git_commit)=7d07caf
oneflow-libai(git_commit)=50a973dc5de635b8613ad7666c073c763e238850