Diary of Chanjun 데이터 분석가의 다이어리

Chanjun's 포트폴리오


Info


큰 숲을 가지고 있되 깊은 바다도 두려워하지 않는 사람!

사람 냄새가 나는 사람!

효율적이고 합리적인 목적을 가진 사람!








주요 수행 업무

프로젝트명 소속 기간 언어 및 환경
센텐스 버트(문장 임베딩)을 활용한 상담 사례 재분류 매핑 로앤컴퍼니 2022년 4월 ~
2022년 5월
GCP, Bigquery, Python, Pytorch

프로젝트 개요

광고 분야 별 광고주의 불균형을 해결하고자, 분류 재개편을 기획하였고 그 중간에서 한 분야에서 여러 분야로 개편되는 경우가 존재하여 기획 일정에 맞춰 빠르게 적용할 수 있도록 분야 재매핑을 시도하였습니다.

담당 업무

현재 가지고 있는 데이터셋에서 얻을 수 있는 힌트들을 가지고 정답 가정 데이터셋(정답1, 정답2, 정답3, 정답4)을 만든 뒤 센텐스 버트 임베딩을 활용하여 그 값을 코사인 유사도를 통하여 정답 가정 데이터셋을 유사도 상위 3개를 연결시켜 Multi-label 로 가공하여 해결하였습니다.

프로젝트명 소속 기간 언어 및 환경
Bert 모델을 활용한 상담 카테고리 예측 딥러닝 모델링 로앤컴퍼니 2022년 1월 ~
2022년 3월
GCP, Bigquery, Python, Pytorch

프로젝트 개요

법률 상담 텍스트 데이터에서 카테고리를 선분류하여 해당 카테고리 전문 변호사에게 우선하여 상담 사례를 보여주어 상담글의 답변율을 높이고 답변을 빠르게 받을 수 있도록 하여 상담자와 변호사 모두의 편의를 높이고자 하였습니다.

담당 업무

EDA을 통한 당시 카테고리 매칭에 대한 현황 탐색을 진행하였고 이를 기반으로 모델링에 대한 설계를 하였습니다. 이후 Bert계열의 딥러닝 모델 중 하나인 Kc-electra와 상담 데이터에 있던 추가 vocab을 만들어 상담 텍스트 데이터에 대한 분류 모델 및 성능을 측정, Explainable AI(Shap)를 통하여 예측 주요 키워드 추출 및 시각화를 진행하였습니다.


프로젝트명 소속 기간 언어 및 환경
상담 변호사 선택을 위한 후기 데이터 키워드 추출 로앤컴퍼니 2022년 10월 ~
2022년 2월
GCP, Bigquery, Python, Airflow

프로젝트 개요

데이터 관점에서 변호사 상담을 원하는 고객이 후기 갯수가 많은 변호사가 아닌 상담자 본인이 원하는 스타일의 변호사를 찾도록 도와주는 업무를 진행하였습니다. 전체 변호사의 후기 대비 해당 변호사에게 많이 나오는 키워드 추출하여 고객들이 후기를 다 읽지 않아도 변호사의 특징을 알고 쉽게 비교하여 선택할 수 있도록 하였습니다.

담당 업무

정규화를 거친 형태소 분석을 통하여 단어를 중심이 되는 핵심 명사 키워드를 추출하였고 정규표현식을 이용한 n-gram을 실시하여 핵심 명사 키워드 주변 키워드를 추출하여 변호사의 특징을 나타낼 수 있도록 하였습니다. 그리고 단어들이 잘 표현될 수 있도록 단어 사전 구축하였고, 이를 Airflow를 활용하여 스케쥴에 맞게 운영될 수 있도록 시스템화하였습니다.


프로젝트명 수행사 기간 언어 및 환경
LG UPLUS 유동인구 고도화 사업 LG Uplus 2021년 5월 ~
2021년 8월
R, Impala, Linux

프로젝트 개요

LG UPLUS의 유동인구를 고도화하여 일시체류지/관광/OD 의 세 꼭지에 대한 데이터를 생성하는 프로젝트를 수행하였습니다.
데이터를 생산하기 위한 기존 유동인구 데이터의 보완점과 검증 포인트를 구성하였습니다. 또한, 검증을 위한 데이터셋을 구축하고 검증 방법론을 통하여 데이터 검증을 하였습니다.

담당 업무

유동인구 데이터를 활용하여 관광지별 관광객을 뽑아내기 위한 체류시간 및 이동수단 별 케이스 및 관광지에 대한 범위를 설계하였습니다. 또한, 검증을 위한 검증 데이터셋 구축과 보정계수를 뽑아내기 위한 업무를 진행하였습니다.

성과

적정 관광객 CASE 및 관광지 BUFFER 산출 및 검증 데이터셋을 이용한 보정계수 판별


프로젝트명 수행사 기간 언어 및 환경
건물 단위 인빌딩
DB 구축 프로젝트
LG Uplus 2021년 1월 ~
2021년 2월
R, Impala, Linux

프로젝트 개요

LG UPLUS는 통신 품질과 고객 만족 향상을 위한 객관적인 인빌딩 셀 투자 기준을 세우고자 직장인 - 직장 건물 매칭을 통해 건물 별 통화 품질 측정을 하기 위한 프로젝트를 진행하였습니다.
고객 정보 데이터, 측위 데이터, 유동인구 데이터, 건물 데이터를 활용하여 LG 유플러스의 고객 중 직장인을 선별하고 직장 건물을 매칭하여 1차적인 기저 직장인 고객과 기저 직장 건물 DB를 구축 후 통화데이터, Wifi 접속로그 데이터를 통하여 직장 동료를 추정하여 직장인 – 직장건물 DB를 구축하여 건물 내 발생하는 통신 불량을 카운트하여 투자 건물에 대한 객관적인 지표를 생성할 수 있도록 하였습니다.

담당 업무

유동인구 데이터를 활용하여 직장인 구분 로직을 세우고, 통화, Wifi 데이터를 활용하여 기저 직장인에서 파생된 직장 동료를 유동인구 데이터와의 비교를 통하여 직장 동료/가족 구분에 대한 로직 구성

성과

LG 유플러스의 고객 만족도 향상과 객관적인 투자 기준이 되는 데이터 베이스를 구축. Wifi, 통화 데이터와 주/야간 체류지 비교를 통하여 동료 구분 판단


프로젝트명 수행사 기간 언어 및 환경
빅데이터 통합플랫폼 구축 경찰청 2020년 6월 ~
2020년 12월
Python, R, HIVE, Linux

프로젝트 개요

경찰청 범죄 및 교통 데이터와 공공 데이터를 사용하여 위험지역에 대한 효과적인 사고 및 범죄 예방과 출동 시스템을 구축하기 위한 프로젝트를 진행하였습니다.
범죄의 사전 예방과 즉각적일 출동 시스템을 구축하기 위해 방범 시설물과 유흥시설 등 경찰청이 가진 빅데이터와 날씨, 주거 인구 등 공공 데이터의 융합을 통하여 전국을 100m x 100m 단위로 나눈 격자 단위를 기반으로 범죄유형별 시간(2시간)단위로 예측하는 모델링 및 시스템을 구축하였습니다.
그리고 교통 사고 발생 위험지역 및 정체 구간은 전국 표준노드링크를 기반으로 일, 시간(1시간)단위로 데이터를 생성하여 효과적인 교통 정리를 위한 시스템을 구축하였습니다.

담당 업무

범죄 위험 지역을 예측하기 위하여 경찰청의 범죄, 유흥시설, 방범시설물 데이터와 날씨, 주거인구 등 공공 데이터를 100m x 100m 단위 격자에 속성을 부여하여 범죄 유형 별 2시간 단위 범죄 위험도를 LSTM, 부스팅 모델 활용한 예측 서비스 제공

성과

날씨를 반영한 100m x 100m 단위 격자의 범죄 위험도를 2시간 단위로 예측하여 범죄 예방을 위한 순찰 노선과 신속한 출동 대기를 할 수 있도록 지원


프로젝트명 수행사 기간 언어 및 환경
개인사업자 CB사업을 위한
종합신용관리서비스 개발
KB 카드 2020년 3월 ~
2020년 6월
Python, Impala, Linux

프로젝트 개요

상권영역 재정의를 통한 개인사업자 대출 평가 항목에 공간적 특성을 부여하여 성장성-안정성-영업력-구매력-집객력 5개 영역에서의 신용평가 항목(CPS)기획 및 개발하였습니다.
또한, 젠트리피케이션 관련 상권변동지수 설계 및 부여, 6개월 단기 매출예측의 결과를 신용평가 항목에 포함시켰습니다.

담당 업무

개인 사업자 대출 평가를 위한 CPS 목록 개발 및 정의와 KB 매출액 데이터를 SQL 및 파이썬으로 정제하여 상권 및 점포별 CPS 리스트업 자동화

성과

개인 사업자의 안전한 대출을 위한 지표를 파이썬 병렬 처리를 통한 시스템 구축


프로젝트명 수행사 기간 언어 및 환경
경기도청 빅데이터 분석
(관광, CCTV, 119)
경기도청 2019년 9월 ~
2019년 12월
R, Window

프로젝트 개요

경기도청은 외부 관광객 유치와 경기도민의 안전을 위한 빅데이터 분석 프로젝트를 진행하였습니다. 관광 부분은 SKT 유동인구 데이터와 신한카드 매출 데이터를 통하여 경기 그랜드투어 관광지 50개와 지자체 축제 대한 프로파일링을 진행하였습니다.

담당 업무

관광지 및 축제 지역을 대상으로한 SKT 유동인구 및 신한카드 매출액 데이터 프로파일링 정보를 ggplot, leaflet을 사용하여 시각화하였고, officeR을 사용하여 보고서 자동화를 진행
Causal Impact를 활용한 축제 효과도 분석
그랜드투어 영역에 대한 SKT OD 데이터에 네트워크 알고리즘과 TMAP API를 적용하여 관광 코스를 생성하고 leafelt을 활용하여 서비스 화면을 구성

성과

커뮤니티 탐지 알고리즘과 이동 시간 및 거리를 고려한 관광지 코스 생성. 경기도 성별 맞춤 코스를 leaflet을 활용하여 서비스 화면을 구성
각 지자체 축제 별 보고서를 officeR을 활용한 자동화를 통해 업무 효율성을 높이고 정형화된 보고서를 작성


프로젝트명 수행사 기간 언어 및 환경
공항 이용객
교통수단 판별 및 규모 분석
한국공항공사/KT 2019년 8월 ~
2019년 10월
R, HIVE, Linux

프로젝트 개요

한국공항공사는 국내 공항의 사용 편의성을 높이기 위해, 공항별 노선 및 서비스 개선을 위한 프로젝트를 진행하였습니다.
프로젝트를 진행하며, KT 통신 데이터를 활용하여 국내/국제노선을 이용한 내/외국인 수와 공항 도착 전/후 사용한 교통 수단을 판별하고 국내 노선 이용 현황을 파악하였습니다

담당 업무

통신 로그 데이터 전처리를 통하여 고객의 체류시간 및 이동 속도를 구하여 국내 입/출국 공항 및 공항 이용 전/후 사용 교통수단 판별 한국 공항 공사의 통계 자료와 KT 데이터 비교 검증

성과

KT 통신 로그 데이터를 전처리하여 처리 속도 개선 및 시스템 계산량 축소


프로젝트명 수행사 기간 언어 및 환경
MICE 빅데이터 조사 한국관광공사/KT 2019년 5월 ~
2019년 8월
R, HIVE, Linux

프로젝트 개요 :

한국관광공사는 국내 컨벤션 및 이벤트를 목적으로 내방하는 외국인들의 MICE 센터 이용 만족도를 높이기 위해 입/출국 및 관광 패턴을 파악하여 센터와 관광지/공항간의 연계서비스 제공을 위한 프로젝트를 진행하였습니다.
프로젝트를 진행하며, MICE센터 이용 외국인의 입출국 및 관광 패턴을 찾기 위해 KT 통신 데이터를 이용, MICE 센터에 체류한 외국인들의 사용 교통수단을 판별하고, 관광 및 입출국 패턴을 분류하였습니다.

담당 업무 :

KT 통신 로그 데이터를 정제하여 MICE 센터 내 체류 외국인에 대한 속도 및 체류 시간을 통한 관광 패턴과 교통수단 판별

성과 :

KT 통신 로그의 로직 및 SQL 최적화를 통하여 처리 속도 개선 및 시스템 계산량 축소 MICE 센터를 이용한 외국인 중 개최자와 참석자를 구분하기 위한 통계적 분석 및 분류 모델링 시도