본문 바로가기

전체 글

(108)
[비정형자료분석] 신경망 기초1-오류역전파과정상세
[비정형자료분석] 6. 벡터시멘틱스와 임베딩 사전을 dictionary 포함해서 le TF-IDF : Term Frequency - Inverse Document Frequency 검색엔진이 대부분 tf-idf를 기반으로 했었다. 아주 중요한 모델이다 . 대체적인 idea PMI --> 단어의 동시 등장에 관련한 이론 고전적인것에 대해서 말했다면 이제는 최근것. word를 vector로 변환해주는것. 문서의 수만큼의 차원을 가지는 row vector , 단어의 수만큼의 차원을 가지는 column vector.. -->scalability(확장성)문제가 있을 수 있다. CO-OUCCRUENCE기반의 계산값으로 채워진 각 차원에 대해서 많은 경우에 0으로 채워진다. sparsity문제가 생긴다. 로미오라는 단어는 하나의 문서에서만 나오고 다른 문서에서..
[비정형 자료분석]어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? 문서에서 질문에 해당하는 정답을 찾아야한다.서로 상관관계를 찾아주는 역할. co-attention CBOW : 주변 문맥을 통해서 현재 단어를 예측하는 방법 Skip-gram :현재 단어를 통해서 주변 문맥을 예측하는 방법 나는 사과가 좋다. CBOW는 나는 ~가 좋다 라는 문장을 통해서 "사과"라는 벡터를 만들어내는 것. Skip-gram은 : "사과"를 통해서 나는 ~가 좋다. 라는 문장을 만들어내는 것 --> unsupervised learning을 해서 vector를 만든 것. 자질이란? 언어 정보외에 추가적인 정보 RNN만 쓰니까 속도가 느리다. Feed forward neraul network만 이용해서 해보자 transformer 각종 인코딩을 사용하자. 질의와 문맥을 잘 알아먹게 할 수 있..