본문 바로가기

분류 전체보기

(108)
[I2S] tfrecord로 바꾼것을 로드 같은 것임 num_parallel_calls=tf.data.experimental.AUTOTUNE 은 뭐지?
[I2S]tokenizer를 어떻게 하는 것이 좋을까? 논문과 baseline 코드 모두 SMILES 식을 예측할 때 하나의 캐릭터씩 순서대로 예측하는 방법을 제시하고 있습니다. dict_keys(['C', '(', '=', 'O', ')', '[', '-', ']', 'N', '+', '1', 'P', 'c', 'l', 'n', '2', '3', '4', 'S', '#', 'H', 'A', 's', 'B', 'r', 'a', '5', 'o', 'e', '.', 'g', 'I', 'K', 'M', 'i', 'W', 'F', '6', 'T', 'd', 't', 'L', '7', 'Z', '@', 'u', 'b', 'U', 'R', 'G', 'h', 'V', 'p', '/', 'D', 'y', 'E', 'm', 'k', 'f', 'X', 'Y', '\\', '0..
[I2S]create_image 약 45만개의 이미지를 생성했다. . 근데.. drive와 병목이 있어서.. 생성하는 코드는 이미 실행 완료가 되었는데 이미지는 저장이 아직 다 안되었다. 천천히 되고 있다.. --> 잘 되었는지 확인해보자. 100만개의 이미지를 멀티프로세싱을 이용해서 희선 계정에 생성했는데 중간에 런타임이 종료되고 컨테이너가 사라져서그런지 33만개밖에 드라이브에 저장이 되지 않았다.... ㅜㅜ 다시 나머지를 생성하기 위해 코드를 실행시키고 런타임이 종료되지 않기 위해 무한 루프문을 실행시켜주었다. david 계정에 생성한 이미지도..23만개밖에 생성(정확이 말하면 생성명령은 주었는데 업로드가 되지 않은것 컨테이너에서 구글 드라이브로 옮기지 못한것이다.)되지 않아서 또 생성해 주었다. 현재시간 9.16.5:54 계속 업..
[I2S]Basline baseline코드에서는 뭐가 문제인가? deepsmiles로 변형해서 학습했다. 그 모델로 예측했더니 decoding이 안되는 deepsmiles가 꽤나 발견되었다. 성능은 다음과 같았다. val_accuracy : 0.1897557218309859 val_similarity : 0.5036391507181318 소요시간은 다음과 같았다. Time taken for 1 epoch 733.6990127563477 sec Time taken for 1 epoch 495.8985216617584 sec kaggle에서 학습시켜보자. deepsmiles로 변경하지 말고! kaggle tpu가 안써지고.. --> 질문을 올렸으니 답변을 기다려보자.--> 답변은 안올라오고... 기본 모델도 tpu로 돌아가지가 않..
[I2S] extract feature train_41에 데이터가 없음 4400개밖에 안올라감 --> 다시 올린다. 잘못 올라가 있는 애들을 다시 올려야하겠다. 2개의 runtime이 drive에 접근중이라 그런지 i/o가 잘 안된다. train14~30까지 npy를 저장할 train_14 _npy 폴더를 만들어 놓지 않아서 계속 실패 했었던 것임. david계정에 Data3를 생성하는중. 21,22,23 만 되고 다 안되었다... 왜 i/o에러가 계쏙 뜨는것일까? runtime1개만 drive에 접근중인데? 예외처리를 이용하여 코드를 짜보자. 18,19,20은 나중에 추가로 하자. 지금은 24부터 생성하도록 해보자. train3, train4 둘다 추출중에 train_60에서 한 이미지가 존재하지 않아서 추출이 되지 않았다. --> 코드를 ..
[I2S] 16.1.6가짜 셰익스피어 텍스트를 생성하기 char-RNN 모델을 사용하여 새로운 텍스트를 생성하려면 먼저 초기 텍스트를 주입하고 모델이 가장 가능성 있는 다음 글자를 예측합니다. 이 글자를 텍스트 끝에 추가하고 늘어난 텍스트를 모델에 전달하여 다음 글자를 예측하는 식입니다. 실제로는 이렇게 하면 같은 단어가 계속 반복되는 경우가 많습니다. 대신 텐서플로의 tf.random.categorical()함수를 사용해 모델이 추정한 확률을 기반으로 다음 글자를 무작위로 선택 할 수 있습니다.
[I2S]RNN과 어텐션을 사용한 자연어 처리 문장에서 다음 글자를 예측하도록 훈련하는 문자 단위 RNN 새로운 텍스트를 생성하고 그 과정에서 매우 긴 시퀸스를 가진 텐서플로 데이터셋을 만드는 방법. 상태가 없는 RNN(stateless RNN)을 사용하고 다음에 상태가 있는 RNN(stateful RNN)을 구축하겠습니다. (상태가 없는 RNN은 각 반복에서 무작위하게 택한 텍스트의 일부분으로 학습하고, 나머지 텍스트에서 어떤 정보도 사용하지 않습니다. --> 이전 반복의 정보가 들어가지 않는다는 뜻. 상태가 있는 RNN은 훈련 반복 사이에 은닉 상태를 유지하고 중지된 곳에서 이어서 상태를 반영합니다. 그래서 더 긴 패턴을 학습할 수 있습니다.). 그 다음에는 감성 분석(영화 리뷰를 읽고 이 영화에 대한 평가자의 느낌을 추출하는 등)을 수행하는 R..
[I2S] encoder-decoder network(예시 : 영어 문장을 프랑스어로 번역하는 모델) 영어 문장을 인코더로 주입하면 디코더는 프랑스어 번역을 출력. 프랑스어 번역은 한 스텝 뒤쳐져서 디코더의 입력으로도 사용됨. 즉슨 디코더는 이전 스텝에서 출력된 단어를(실제로 무엇이 출력되는지 상관없이) 입력으로 사용 맨 처음 단어는 (SOS : start of sequence)토큰으로 시작함. 디코더는 문장의 끝에 EOS(end of sequence)가 있을 것으로 기대한다. 영어 문장은 인코더로 주입되기 전에 거꾸로 뒤집힙니다. 예를 들어 'I drink milk'는 뒤집혀 'milk drink I' 가 됩니다. 즉 영어 문장의 시작 부분을 인코더에 마지막으로 주입합니다. 이 단어가 디코더가 번역할 첫 번째 단어이기 때문입니다. 각 단어는 초기에 1차원으로 표현되어 있습니다.(예를 들어 단어 milk..
[I2S] Predicor.py error를 해결하기 위한 과정. 2020-09-04 11:38:20.802072: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library libcudart.so.10.1 2020-09-04 11:38:23.400467: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library libcuda.so.1 2020-09-04 11:38:23.457175: E tensorflow/stream_executor/cuda/cuda_driver.cc:314] failed call to cuInit: CUDA_E..
[I2S] 분자구조 이미지 SMILES 변환 AI 경진대회 대회 주요 일정 머신러닝, 딥러닝 모델 및 규칙기반 모델 모두 허용 1일 최대 제출 횟수 : 3회 팀 최대 인원 : 5명 1.평가식 Accuracy 2. 제출 및 평가 1) 제출 : sample_submission.csv file_name 컬럼 이미지의 SMILES 예측 결과를 SMILES 컬럼에 작성하여 아래 코드 적용 후 제출 코드 미적용시 정답이 오답 처리 될 수 있습니다. import pandas as pd from rdkit import Chem from rdkit import RDLogger RDLogger.DisableLog('RdApp.*') def f(smiles): m = Chem.MolFromSmiles(smiles) if m != None: smiles = Chem.MolToSmiles(m) ret..