본문 바로가기

카테고리 없음

[I2S]대회 종료 이후 추가학습

추가학습

train_44138267_1천만개_1 --> 이미지 생성 완료

tfrecord생성 

- batch_size

256 : 3MB

2560 : 30MB

1개당 100MB로 사전처리 하는게 좋겠다. 

통계왕은 몇개로 했는가? --> 6355개씩 했다.

--> 쓸데없는 데이터를 최소화 한 것일수도 있다. ---> width depth같은 것.

 

512*15개 했더니 .. 파일용량이 정확히 100MB이다. 이걸로 갈까? ss

512*14로 가자! --> 93.7MB --> 89.7(뭐지??)

 

9천만개 tfrecord시 약 1.2TB

9천만개 이미지는. 몇TB?? --> 1.1TB

--> 3TB instance를 만들자

50시간소요

 

 

For TPU training, organize your data in GCS in a reasonable number (10s to 100s) of reasonably large files (10s to 100s of MB).

With too few files, GCS will not have enough streams to get max throughput. With too many files, time will be wasted accessing each individual fil

 

93.7MB짜리로 하면 병목현상이 얼마나 최소화 되는지 확인하기 위해서 

몇만개만을 이용해서 tpu로 실험학습을 시켜보자. .

find와 cp를 이용해서 분 단위로 수정날짜를 fiterling 할 수 있는가?'https://recipes4dev.tistory.com/156

 

리눅스 find 명령어 사용법. (Linux find command) - 리눅스 파일 검색.

1. find 명령어. find는 리눅스에서 파일 및 디렉토리를 검색할 때 사용하는 명령입니다. 이름 그대로 리눅스에서 접근할 수 있는 파일 시스템에서, 파일 및 디렉토리를 "찾는(find)" 것이죠. 그런데 �

recipes4dev.tistory.com

find / -size를 이용해서.. 90메가 이상만 복사하면 좋은데 그게 안된다.

"-size" 표현식은 기본적으로 block 단위(512B)의 크기를 사용하게 되어 있는데, 파일 크기 값 뒤에 'c' 또는 'k'를 붙임으로써 바이트 단위 또는 킬로바이트의 크기 값을 지정할 수 있습니다. (b:block, c:bytes, w:2bytes, k:kbytes, M:mbytes, G:gbytes)

 

멀티리전과 아닌것도 비교해보자.

 

병목테스트_89MB_아이오와.ipyB 52만개

colab : 382초, 245초

 

 

병목테스트_89MB_multiregion.ipynb 52만개

colab : 395초, 247초

 

kaggle : 390초, 167초

kaggle : 317초, 167초 -->  상태에 따라 다르다. kaggle이 좀 느리네..

 

 

smilespe 단어수준 tokenizer 100만개학습

540초, 361초