본문 바로가기

분류 전체보기

(108)
[데이터마이닝] 검색엔진, 추천시스템 성능 평가 (MRR,DCG) How will you evaluate search results or recommender system? 보통 머신러닝 모델 성능 평가 할때 precision, recall, accuary 등을 사용하는데 검색 결과가 여러개 나올때 이를 쓰기에는 불편한 점이 있다. When results are multiple, you may need MRR or DCG! MRR(mean reciprocal rank) mean은 단순히 평균이라는 뜻이고 Reciprocal rank는? 가장 높이 위치한 연관된 검색어에 집중한다. 연관된 검색 결과는 2번에 rank는 dogs다. 1/2라는 점수가 나오게 되어있다. puppy는 철저히 무시된다. MRR은 추천시스템을 평가할때 여러개의 query로 평가하는 것이다. 여기서..
[EDA] 카카오아레나 melon-playlist-continuation 데이터 1. 곡 장르 코드 데이터 : genre_gn_all.json 대분류 장르코드(gnr_code변수에 저장) 대분류 장르코드는 장르코드(gnr_code)에서 숫자 네 자리 중 뒷자리 두 자리가 00인 코드로 분류할 수 있습니다. 대분류 장르는 총 30개가 있습니다 상세 장르코드(dtl_gnr_code변수에 저장) 상세 장르코드는 장르코드(gnr_code)에서 숫자 네 자리 중 뒷자리 두 자리가 00이 아닌 나머지 코드로 분류할 수 있습니다. 상세 장르는 총 224개가 있습니다 장르 코드 트리(gnr_code_tree변수에 저장) 위에서 구분한 대분류 장르코드와 상세 장르코드 앞자리 네 자리를 활용하여 장르 코드 트리도 구성해볼 수 있습니다. 2. 곡 별 메타 데이터 : song_meta.json 총 707..
[EDA] 카카오아레나 melon-playlist-continuation EDA 코드 분석을 통한 Numpy, Pandas 학습기록 곡 별 메타 데이터 : song_meta.json song_meta = pd.read_json('song_meta.json', typ = 'frame') pandas를 이용하여 json파일을 읽어들일 수 있다. typ을 frame으로 지정 해 준다. 문서에는 다음과 같이 나와있다. "Convert a JSON string to pandas object." type ='frame'을 제외하면 어떻게 읽어들이는지 궁금하니 한번 시도 해 보았다.제외 하든 안하는 둘다. data frame임을 확인 할 수 있었다.문서를 보니 typ에는 {‘frame’, ‘series’}두가지가 들어갈 수 있고 default는 ‘frame’이다. 곡 장르 코드 데이터 :genre_gn_all.json을 읽었을때는 series로 ..
[데이터마이닝] 9.추천 시스템(recommendation system) 9.3절 연습문제 (Exercise 9.3) 연습문제 9.3.1 a) 다목적 행렬을 불린(Boolean)라 가정하고, 각 사용자 쌍들의 자카드 거리를 계산하라. A=c(1,1,0,1,1,0,1,1) B=c(0,1,1,1,1,1,1,0) C=c(1,0,1,1,0,1,1,1) #A,B sum( A & B ) / sum(A|B) #B,C sum( B & C ) / sum( B | C ) #C,A sum( C & A ) / sum( C | A ) b)코사인 거리로 a)를 반복하여라 sum(A * B) / ( sqrt(sum(A^2)) * sqrt(sum(B^2)) ) sum(C * B) / ( sqrt(sum(C^2)) * sqrt(sum(B^2)) ) sum(A * C) / ( sqrt(sum(A^2)) * sqrt(sum(C^2)) ) C) 순위 3,..
[데이터마이닝] 9.추천 시스템(recommendation system) 9.2절 연습문제 (Exercise 9.2) 디스크 사이즈가 너무 커서 processor speed와 main-Memory Size가 뭍히는 경우. row로 나누냐 column으로 나누냐. 평균정도 되는 것을 평균에 비해서 얼마나 몇프로나 크냐 작으냐 이런식으로 해서 scaling을 하자. column을 해서 해버리면 processor speed와 main-Memory Size는 Disk Size에 비해 너무 적어진다. 일반적인 스케일링 할때 평균에 대해서 얼마나 크냐 작냐. 평균을 빼고 분산으로 나누고.. 분산의 몇배냐? 평균에 해당하는 애는 1로 만들고 작은애는 1.얼얼마 Maxima를 이용하여 풀이하였다. a) b) c) 계산이 이상하게 나왔다. --> 계산 제대로 했다. d) 조정인수를 전택하는 타당한 방법 중 하나는 각 인수를 성분의 평균..
[데이터마이닝] 5.링크분석(Link analysis) 5.5절 연습문제(Exercise 5.5) Exercise 5.5.1 : Compute the hubbiness and authority of each of the nodes in our original Web graph of Fig. 5.1. n = 4 sqrt(n) a = c(1/2,1/2,1/2,1/2) h = c(1/2,1/2,1/2,1/2) A = matrix(c(0,1,1,1, 1,0,0,1, 1,0,0,0, 0,1,1,0), nrow = 4) h = A%*%a h = h/max(h) a = t(A)%*%h a = a/max(a) pre_h =0 pre_a =0 while(pre_h != h || pre_a != a){ pre_h = h h = A%*%a h = h/max(h) pre_a = a a = t(A)%*%h a = a/max..
[데이터마이닝] 5.링크분석(Link analysis) 5.4절 연습문제(Exercise 5.4 ) 연습문제 5.4.1 스팸 팜 분석을 실시해보자. a) 각 지원 페이지는 목표 페이지가 아닌 자기 자신으로 연결된다. 지원 페이지가 자기 자신으로 연결된다면 목표 페이지의 페이지 랭크 값은 어떻게 될 것인가? y = x + 1-beta/N 이렇게 되겠네 b) 각 지원페이지는 어디로도 연결되지 않는다 이래도 a)와 마찬가지지 y = x + 1-beta/N 이렇게 되겠네 c) 각 지원 페이지는 자기 자신과 목표 페이지로 연결된다. 이렇게 되면 어떻게 되려나? own page 1개가 보유하게 되는 점수는 다음과 같다. 다음과 같고 자기 자신과 목표페이지로 연결되면 그대로인가(목표페이지로만 연결되는경우를 뜻함)?.. 해깔리네. 아니면 나가는 랭크 값이 절반으로 줄어들게 되는 것인가? 그렇다면 들어오는 랭크 값은 ..
[컴퓨터통신] 1.4 패킷 교환 네트워크에서의 지연 손실과 처리율. 두 종단 시스템 간에 처리율(전달 될 수 있는 초당 데이터의 양) 현실의 물리 법칙이 처리율의 제한뿐만 아니라 지연과 손실을 야기하는 것은 불행한 일이다. 1.4.1 패킷 교환 네트워크에서의 지연 개요 nodal processing delay(노드 처리 지연) queuing delay(큐잉지연) transmission delay(전송지연) propagation delay(전파지연) 다 합쳐서 total nodal delay
[컴퓨터통신]1.3 네트워크 코어 1.3.3 네트워크의 네트워크(network of network) - 이 문구가 인터넷을 이해하는데 중요한 요소. 접속 isp는 텔코 혹은 케이블 회사일 필요는 없다. 대신에 대학교(학생, 직원 그리고 교수들에게 인터넷 접을 제공) 혹은 회사(직원들에게 인터넷 접속을 제공)가 isp가 될 수 있다. 그러나 종단 사용자들과 콘텐츠 제공자들을 접속 ISP로 연결하는 것은 인터넷을 구성하는 수십억 개의 종단 시스템을 연결하는 퍼즐의 해결방법 중 극히 일부분에 해당된다. 이 퍼즐을 완전히 풀기 위해서는 접속 ISP들이 서로 연결되어얗만 한다. 이를 위해서 네트워크의 네트워크가 탄생하게 되었다. - 이 문구가 인터넷을 이해하는데 중요한 요소이다. 여러 해에 걸쳐 인터넷을 형성하고 있는 네트워크의 네트워크는 매우 ..
[컴퓨터통신]1.3.3 네트워크의 네트워크