From 137ba6b0355ff3dedda166ae3d80c0367249cd66 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=EC=9C=A0=EC=8A=B9=EB=AF=BC?= <copomos00@ajou.ac.kr> Date: Thu, 27 May 2021 01:44:22 +0900 Subject: [PATCH] Update README.md --- README.md | 20 ++++++++++++++------ 1 file changed, 14 insertions(+), 6 deletions(-) diff --git a/README.md b/README.md index 8ae8062..11bfbaf 100644 --- a/README.md +++ b/README.md @@ -3,9 +3,17 @@ Machine Learning Team Project ### ******유승민 보고서****** ### Data Analyze -- 알코올 섭취량에 직접적인 영향을 끼치는 것은 주변 환경임. 예를 들어 주변에 술을 파는 주점이 많거나, 술의 가격이 싸거나, 주민들의 술 섭취량 평균이 높으면 알코올 섭취량이 높아짐. -- 우리가 사용한 카글 데이터는 술 섭취량에 간접적으로 영향을 끼치는 피처들로 구성되있음. 그 예로 부모님 직업, 성별, 밖으로 나가는 빈도 등이 있음. 이 피처들이 술 섭취량에 직접적으로 영향을 끼치는지는 직관적으로 이해할 수 없음 -- 팀원 박우현의 최종 모델은 Test Accuarcy가 0.9임. 이 수치는 간접적인 피처들이 알코올 섭취량에 영향을 끼친다는 것을 의미함. 여전히 이 피처들과 알코올 섭취량 사이의 관계를 직접적으로 이해할 순 없음. 그러나 간접적인 피처들의 조합이 하나의 환경을 이뤄 알코올 섭취량에 직접적인 영향을 끼친다고 이해할 수 있음. -- 데이터와 예측값 사이가 관계를 맺고 있다는 신뢰도를 보장하고자 직접적인 환경 피쳐를 추가하고자 함. 그 피처는 샘플(사람)이 거주하고 있는 국가나 지역에 관한 정보임. 샘플(사람)의 거주 환경을 나타내는 가장 직관적인 피처는 거주국가의 술 섭취량임. 물론 국가의 지역마다 값은 다르겠지만 대부분 국가 평균 섭취량에 근사하게 되있음. 국가 평균 술 섭취량과 간접적 피처들을 조합해 예측도를 높이고자 함. -- 그러나 우리가 채택한 카글 데이터에 거주국가의 정보는 없음. 대신 Gabriel Pereira, Mousinho da Silveira라는 샘플(학생)이 재학중인 학교 이름 정보가 있음. 이는 우리의 예측 모델이 두 학교에 거주중인 학생에 한해서 예측 신뢰도가 높다는 것을 의미. 또한 샘플의 신분이 학생이므로 그 외의 신분을 가진 샘플의 술 섭취량을 예측하긴 힘듬. -- 현제 모델의 예측도가 무척 높아 국가 피처를 추가하지 않아도 됨. 재학중인 학교 피처를 거주중인 지역 피처로 변환한다면 예측 샘플의 범위를 학교 바깥으로 확장할 수 있음. 예측 샘플의 대상 범위를 학생보다 넓게 확장할 수도 있을 거라 기대됨. 그러나 검증이 필요한 사항임. \ No newline at end of file + +- 알코올 섭취량에 직접적인 영향을 끼치는 환경 변수는 '술'과 관련돼 있다. 예를 들어 주변에 술을 파는 주점이 많거나, 술의 가격이 싸거나, 주민들의 술 섭취량 평균이 높으면 알코올 섭취량이 높아짐. + +- 그러나 우리가 사용한 카글 데이터의 피처들은 '술'과 직접전인 연관이 없음. 카글 데이터는 부모님 직업, 성별, 밖으로 나가는 빈도 등의 피처들로 구성돼 있음. 이 피처들이 알코올 섭취량을 예측하는데 유의미한 영향을 끼치는지 직관으론 알기 힘듬. + +- 팀원 박우현의 최종 모델은 Test Accuarcy가 0.9임. 이 수치는 카글 데이터의 피처들이 알코올 섭취량에 영향을 끼친다는 것을 의미함. 그러나 여전히 이 피처들과 알코올 섭취량 사이의 관계를 직관적으로 이해할 순 없음. 하지만 카글 데이터 피처들을 조합하면 '술'과 관련된 환경 변수로 변환된다는 가설을 세울 수 있음. 그리고 이 가설은 0.9라는 Test Accuarcy로 뒷받침할 수 있음. + +- 우리가 예측할 'label'은 'dalc', 'walc'임. 팀원 김동현이 제시한 'hitmap'에 의하면 라벨과 연관도가 높은 변수는 'goout', 'freetime'임. 그러나 그마저도 연관도가 높지는 않음. 'goout', 'freetime' 둘 중 하나라도 데이터 테이블에서 드랍하면 예측 정확도가 0.1가량 떨어짐. 라벨과 연관도가 낮은 변수를 드랍시켰으나 마찬가디로 예측 정확도가 감소함. 피처가 드랍되면 샘플의 특성을 자세히 알기 힘들어짐. 우리한테 필요한 샘플의 특성은 '술'과 관련됨. 그러나 연관도가 낮은 어느 피처들을 드랍시켜도 예측 정확도가 감소함. 이는 모든 피처가 '술'과 관련된 샘플의 특성에 한 몫 하고 있다고 이해할 수 있음. 따라서 카글 데이터의 모든 피처들이 조합되어 '술'과 관련된 하나의 환경 변수로 변환된다고 이해하게 됨. + +- 모델 예측과 카글 데이터 사이의 연관성에 대한 신뢰도를 보장하고자 직관적인 환경 변수를 추가하고자 함. 그 피처는 샘플(사람)이 거주하고 있는 국가나 지역에 관한 정보임. 샘플(사람)의 거주 환경을 나타내는 가장 직관적인 피처는 거주국가의 술 섭취량임. 물론 국가의 지역마다 값은 다르겠지만 대부분 국가 평균 섭취량에 근사하게 되있음. 이 피처를 통해 연관성에 대한 신뢰도를 보장하고 모델 예측 정확도를 더욱 높이고자 함. + +- 그러나 우리가 채택한 카글 데이터에 거주국가의 정보는 없음. 국가 정보가 들어가 있지 않기 때문에 내 시도는 무산됨. 대신 Gabriel Pereira, Mousinho da Silveira라는 샘플(학생)이 재학중인 학교 이름 정보가 있다는 걸 발견함. 이는 우리의 모델이 두 학교에 거주중인 학생에 한해서 유의미함을 의미함. 또한 샘플의 신분이 학생이므로 그 외의 신분을 가진 샘플의 술 섭취량을 예측하긴 힘듬. + +- 결국 직관적인 환경 변수를 추가하진 못 했으나, 결과적으로 모델의 테스트 정확도가 무척 높게 나와서 국가 피처를 추가할 필요성이 없어짐. 재학중인 학교 피처를 거주중인 지역 피처로 변환한다면 예측 샘플의 범위를 학교 바깥으로 확장할 수 있음. 예측 샘플의 대상 범위를 학생보다 넓게 확장할 수도 있을 거라 기대됨. 그러나 검증이 필요한 사항임. \ No newline at end of file -- GitLab