[lg_불편예측]데이터 탐색

데이터는 서비스 품질 변화와 에러 로그이고 비식별화 된 상태로 데이터에 대한 자세한 설명 없이 진행될 예정입니다. 감사합니다.

2.1 train_err : 시스템에 발생한 에러 로그

train_err_data.csv 파일의 errtype column의 value_counts를 카운트하여 학습에 사용.
주어진 기간동안 user_id별로 peroblem가 한 번이라도 발생했는 지를 확인
5개의 컬럼

user_id : 유저 아이디

time : 에러가 발생한 시간 2020 1101 02 56 16

model_nm : 이건 뭐지? : 9개의 모델 존재

fwver : 이것 뭐지? --> 비식별화된 어떤 값. 37개의 범주 존재

errtype : 에러타입 : 41개의 에러타임 존재

23 2276515

31 1985294

22 1865361

15 1604951

4 1296750

16 1249376

32 1130564

5 952920

40 730378

28 544306

27 540804

26 536401

12 320181

11 307030

14 252015

33 178477

34 165536

10 133403

41 104138

7 51993

6 50482

17 46009

24 39071

42 34374

3 30758

2 26106

13 22843

1 21545

39 15820

35 10187

37 9336

36 9317

38 4539

18 2671

20 2080

25 1184

19 664

21 607

30 402

8 166

9 109

errcode : 에러코드

2.2 train_problem_data.csv

problem 수는 고려하지 않음, 발생했는지 안했는지만.

에러타입을 통해서 problem을 예측하는 단순한 모델.

lgbm모델을 사용함.

train_x (15000, 42)

row : person_idx

col : 42개의 Errror type

train_y(15000,)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

앙창

[lg_불편예측]데이터 탐색

데이터는 서비스 품질 변화와 에러 로그이고 비식별화 된 상태로 데이터에 대한 자세한 설명 없이 진행될 예정입니다. 감사합니다.

2.1 train_err : 시스템에 발생한 에러 로그

2.2 train_problem_data.csv

에러타입을 통해서 problem을 예측하는 단순한 모델.

train_x (15000, 42)

train_y(15000,)

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역