데이터는 서비스 품질 변화와 에러 로그이고 비식별화 된 상태로 데이터에 대한 자세한 설명 없이 진행될 예정입니다. 감사합니다.
2.1 train_err : 시스템에 발생한 에러 로그
- train_err_data.csv 파일의 errtype column의 value_counts를 카운트하여 학습에 사용.
- 주어진 기간동안 user_id별로 peroblem가 한 번이라도 발생했는 지를 확인
- 5개의 컬럼
user_id : 유저 아이디
time : 에러가 발생한 시간 2020 1101 02 56 16
model_nm : 이건 뭐지? : 9개의 모델 존재
fwver : 이것 뭐지? --> 비식별화된 어떤 값. 37개의 범주 존재
errtype : 에러타입 : 41개의 에러타임 존재
23 2276515
31 1985294
22 1865361
15 1604951
4 1296750
16 1249376
32 1130564
5 952920
40 730378
28 544306
27 540804
26 536401
12 320181
11 307030
14 252015
33 178477
34 165536
10 133403
41 104138
7 51993
6 50482
17 46009
24 39071
42 34374
3 30758
2 26106
13 22843
1 21545
39 15820
35 10187
37 9336
36 9317
38 4539
18 2671
20 2080
25 1184
19 664
21 607
30 402
8 166
9 109
errcode : 에러코드
2.2 train_problem_data.csv
problem 수는 고려하지 않음, 발생했는지 안했는지만.
에러타입을 통해서 problem을 예측하는 단순한 모델.
lgbm모델을 사용함.
train_x (15000, 42)
row : person_idx
col : 42개의 Errror type
train_y(15000,)