본문 바로가기

카테고리 없음

[비정형자료분석] 6. 벡터시멘틱스와 임베딩

[ㅂ

 

사전을 dictionary 

포함해서 le

infomation retriveal. 단어와 문서와의 관계
단어간의 co-occurrencese 함께 등장하는 횟수

TF-IDF : Term Frequency - Inverse Document Frequency

검색엔진이 대부분 tf-idf를 기반으로 했었다.

아주 중요한 모델이다 .

대체적인 idea PMI --> 단어의 동시 등장에 관련한 이론 

 

고전적인것에 대해서 말했다면 

이제는 최근것.

word를 vector로 변환해주는것. 

문서의 수만큼의 차원을 가지는 row vector , 단어의 수만큼의 차원을 가지는 column vector.. -->scalability(확장성)문제가 있을 수 있다. CO-OUCCRUENCE기반의 계산값으로 채워진 각 차원에 대해서 많은 경우에 0으로 채워진다. sparsity문제가 생긴다. 로미오라는 단어는 하나의 문서에서만 나오고 다른 문서에서 안나오니까 다른 문서에 대항된 차원에는 모두 0으로 채워진다 단 하나의 문서에서만 tf-idf값이 나오게 된다.

벡터가 너무 길어지는 문제도 세상에 모든 단어에 대해서 문서에 대해서 차원을 가진 벡터라면 계산 불가능하다. 이런 문제들을 해결한 것이  word2vec


short and dense vector

 

기계학습 방법으로 사람이 정해준 길이 벡터에다가 element값을 학습할 수 있도록 하고 해당 값들이 실수값으로 존재하므로 기존에 sparse vector에서 표현된 단어 occurrence에 대한 의미 또한 유실되지 않고 유지되도록 한다.

distributiona list의 접근법과 동일하다 벗어나지 않음

분류기에 사용된 가중치를 이용해서 표현하겠다

 

 

embedding을 term-term matrix와 같이 어떤 단어의 집합체라고 보았을때 단어에 치중한 subset을 얻을 수 있다라고 해봅시다.

embedding이 lookup table이고 단어 하나가 주어졌을때 해당 단어에 대한 Embedding을 Lookup table로부터 찾아서 부여가 될 수 있다라고 한다면

앞부분 2개 뒷부분 2개를 가지고 만들겠다

이건 너무 많이 생각하지 마시고 

책에서 추구하는 방향성만 얘기하자면 negative example에 대해 minimize하는 과정이 필요하다

평균이나 극점에서 

당시 사회에 뿌리내릴 역할. 의미론에서 발견할 수 있는 사회적으로 인식할 수 있는 차별문제까지 남자 이름 수학관련 여자 이름은 예쑬 관련.. 감성적인 요소도 임베딩이라는 단어에서 발견된 임베딩이 가지는 환경

굉장히 computer science 통계학에서 하는 것과 거리가 멀다. 인문학 사회학과 관련되어있다.

평가 방법이 중요하다. 기계학습 관련한 평가 language model에서 했던 평가 Extrinsic evaluation 하면 좋은데 비용이 많이 드니까. Intrinsic evaluation 할 수 있다.