본문 바로가기

카테고리 없음

[lg_불편예측]데이터 탐색

데이터는 서비스 품질 변화와 에러 로그이고 비식별화 된 상태로 데이터에 대한 자세한 설명 없이 진행될 예정입니다. 감사합니다.

 

2.1 train_err : 시스템에 발생한 에러 로그

  • train_err_data.csv 파일의 errtype column의 value_counts를 카운트하여 학습에 사용.
  • 주어진 기간동안 user_id별로 peroblem가 한 번이라도 발생했는 지를 확인
  • 5개의 컬럼 
  •  

user_id : 유저 아이디

time : 에러가 발생한 시간 2020 1101 02 56 16

model_nm : 이건 뭐지? : 9개의 모델 존재

fwver : 이것 뭐지? --> 비식별화된 어떤 값. 37개의 범주 존재

errtype : 에러타입 : 41개의 에러타임 존재

23    2276515

31    1985294

22    1865361

15    1604951

4     1296750

16    1249376

32    1130564

5      952920

40     730378

28     544306

27     540804

26     536401

12     320181

11     307030

14     252015

33     178477

34     165536

10     133403

41     104138

7       51993

6       50482

17      46009

24      39071

42      34374

3       30758

2       26106

13      22843

1       21545

39      15820

35      10187

37       9336

36       9317

38       4539

18       2671

20       2080

25       1184

19        664

21        607

30        402

8         166

9         109

 

errcode : 에러코드

2.2 train_problem_data.csv

problem 수는 고려하지 않음, 발생했는지 안했는지만.

 

에러타입을 통해서 problem을 예측하는 단순한 모델.

lgbm모델을 사용함.

train_x (15000, 42)

row : person_idx

col : 42개의 Errror type

train_y(15000,)