본문 바로가기

전체 글

(108)
[데이터마이닝] 9.추천 시스템(recommendation system) 9.3절 연습문제 (Exercise 9.3) 연습문제 9.3.1 a) 다목적 행렬을 불린(Boolean)라 가정하고, 각 사용자 쌍들의 자카드 거리를 계산하라. A=c(1,1,0,1,1,0,1,1) B=c(0,1,1,1,1,1,1,0) C=c(1,0,1,1,0,1,1,1) #A,B sum( A & B ) / sum(A|B) #B,C sum( B & C ) / sum( B | C ) #C,A sum( C & A ) / sum( C | A ) b)코사인 거리로 a)를 반복하여라 sum(A * B) / ( sqrt(sum(A^2)) * sqrt(sum(B^2)) ) sum(C * B) / ( sqrt(sum(C^2)) * sqrt(sum(B^2)) ) sum(A * C) / ( sqrt(sum(A^2)) * sqrt(sum(C^2)) ) C) 순위 3,..
[데이터마이닝] 9.추천 시스템(recommendation system) 9.2절 연습문제 (Exercise 9.2) 디스크 사이즈가 너무 커서 processor speed와 main-Memory Size가 뭍히는 경우. row로 나누냐 column으로 나누냐. 평균정도 되는 것을 평균에 비해서 얼마나 몇프로나 크냐 작으냐 이런식으로 해서 scaling을 하자. column을 해서 해버리면 processor speed와 main-Memory Size는 Disk Size에 비해 너무 적어진다. 일반적인 스케일링 할때 평균에 대해서 얼마나 크냐 작냐. 평균을 빼고 분산으로 나누고.. 분산의 몇배냐? 평균에 해당하는 애는 1로 만들고 작은애는 1.얼얼마 Maxima를 이용하여 풀이하였다. a) b) c) 계산이 이상하게 나왔다. --> 계산 제대로 했다. d) 조정인수를 전택하는 타당한 방법 중 하나는 각 인수를 성분의 평균..
[데이터마이닝] 5.링크분석(Link analysis) 5.5절 연습문제(Exercise 5.5) Exercise 5.5.1 : Compute the hubbiness and authority of each of the nodes in our original Web graph of Fig. 5.1. n = 4 sqrt(n) a = c(1/2,1/2,1/2,1/2) h = c(1/2,1/2,1/2,1/2) A = matrix(c(0,1,1,1, 1,0,0,1, 1,0,0,0, 0,1,1,0), nrow = 4) h = A%*%a h = h/max(h) a = t(A)%*%h a = a/max(a) pre_h =0 pre_a =0 while(pre_h != h || pre_a != a){ pre_h = h h = A%*%a h = h/max(h) pre_a = a a = t(A)%*%h a = a/max..