본문 바로가기

분류 전체보기

(108)
[머신러닝]머신러닝 프로젝트에서 맞닥뜨릴 수 있는 문제들 business-datascience-develop.tistory.com/3 머신러닝 프로젝트에서 맞닥뜨릴 수 있는 문제들 2016년, 알파고와 이세돌의 대국을 기점으로 많은 사람들이 머신러닝에 관심을 가지기 시작했다. 특히 해외의 캐글(머신러닝 대회 플랫폼)을 학부생들까지 알 정도로 머신러닝이 대중화되고 있 business-datascience-develop.tistory.com
[lg_불편예측]데이터 탐색 데이터는 서비스 품질 변화와 에러 로그이고 비식별화 된 상태로 데이터에 대한 자세한 설명 없이 진행될 예정입니다. 감사합니다. 2.1 train_err : 시스템에 발생한 에러 로그 train_err_data.csv 파일의 errtype column의 value_counts를 카운트하여 학습에 사용. 주어진 기간동안 user_id별로 peroblem가 한 번이라도 발생했는 지를 확인 5개의 컬럼 user_id : 유저 아이디 time : 에러가 발생한 시간 2020 1101 02 56 16 model_nm : 이건 뭐지? : 9개의 모델 존재 fwver : 이것 뭐지? --> 비식별화된 어떤 값. 37개의 범주 존재 errtype : 에러타입 : 41개의 에러타임 존재 23 2276515 31 19852..
[열린문CPE센터] 로고(베데스다 연못가) https://www.wix.com/logo/maker/esh/zoe-templates?companyName=%EC%97%B4%EB%A6%B0%EB%AC%B8CPE%EC%84%BC%ED%84%B0&tagLine=%EB%B2%A0%EB%8D%B0%EC%8A%A4%EB%8B%A4%EC%97%B0%EB%AA%BB%EA%B0%80&industry=%7B%22industry%22%3A%22%EC%97%B0%EB%AA%BB%EA%B0%80%20%EC%82%AC%EC%A7%84%22%2C%22isCustom%22%3Atrue%7D&tags=fresh%2Ccreative&logoPurpose=socialMedia%2Cwebsite%2CbusinessCards&referralAdditionalInfo=arenaSplit..
[열린문교회] 계7 내가 인침을 받은 자의 수를 들으니 이스라엘 자손의 각 지파 중에서 인침을 받은 자들이 십사만 사천이니 계 7:1 이 일 후에 내가 네 천사가 땅 네 모퉁이에 선 것을 보니 땅의 사방의 바람을 붙잡아 바람으로 하여금 땅에나 바다에나 각종 나무에 불지 못하게 하더라 그 뒤에 나는 천사 넷이 땅의 네 모퉁이에 서서 땅의 네 바람을 붙잡아서, 땅이나 바다나 모든 나무에 바람이 불지 못하게 막고 있는 것을 보았습니다. Then I saw four angels standing at the four corners of the earth, holding back the four winds from blowing upon the earth. Not a leaf rustled in the trees, and the sea became as smooth as glass. 계 7:2 또 보매 다른 천사가 살아 계신 하나님의 ..
[비정형자료분석] 신경망 기초2
[비정형 자료분석] 신경망 기초1 SVM ,RF, NB, 해석가능한 부분이 있는 모델 전통적인 머신러닝기법
[비정형자료분석] 신경망 기초1-오류역전파과정상세
[비정형자료분석] 6. 벡터시멘틱스와 임베딩 사전을 dictionary 포함해서 le TF-IDF : Term Frequency - Inverse Document Frequency 검색엔진이 대부분 tf-idf를 기반으로 했었다. 아주 중요한 모델이다 . 대체적인 idea PMI --> 단어의 동시 등장에 관련한 이론 고전적인것에 대해서 말했다면 이제는 최근것. word를 vector로 변환해주는것. 문서의 수만큼의 차원을 가지는 row vector , 단어의 수만큼의 차원을 가지는 column vector.. -->scalability(확장성)문제가 있을 수 있다. CO-OUCCRUENCE기반의 계산값으로 채워진 각 차원에 대해서 많은 경우에 0으로 채워진다. sparsity문제가 생긴다. 로미오라는 단어는 하나의 문서에서만 나오고 다른 문서에서..
[비정형 자료분석]어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? 문서에서 질문에 해당하는 정답을 찾아야한다.서로 상관관계를 찾아주는 역할. co-attention CBOW : 주변 문맥을 통해서 현재 단어를 예측하는 방법 Skip-gram :현재 단어를 통해서 주변 문맥을 예측하는 방법 나는 사과가 좋다. CBOW는 나는 ~가 좋다 라는 문장을 통해서 "사과"라는 벡터를 만들어내는 것. Skip-gram은 : "사과"를 통해서 나는 ~가 좋다. 라는 문장을 만들어내는 것 --> unsupervised learning을 해서 vector를 만든 것. 자질이란? 언어 정보외에 추가적인 정보 RNN만 쓰니까 속도가 느리다. Feed forward neraul network만 이용해서 해보자 transformer 각종 인코딩을 사용하자. 질의와 문맥을 잘 알아먹게 할 수 있..
[비정형자료분석] 품사태깅 MD : 조동사 VB : 동사 C(MD,VB) : MD다음에 VB가 나오는 경우의수 A는 state transition에 관한 matrix고 B는 state에서 output으로 emissions 하는 그런 sequence를 표현하기 위한 HMM pos tagging에만 쓰이는 알고리즘은 아니다. conditioning 되는게 hidden state냐 conditioning되는게 data 냐. 그런 차이가 있다.