Answer Sheet / Global Bike Case Study

Practical Analytics Chapter 12 | Exercise 3 | Edition 2

Nitin Kalé & Nancy Jones © 2020 1 of 23

12.3 Answer Sheet / Global Bike Case Study Nitin Kalé, University of Southern California

Nancy Jones, San Diego State University

STUDENT NAME 60161051 김동현

Provide screenshots to support your answers.

Question 1: Identify two (2) interesting and distinctly different relationships amongst three or more variables of the data set and discuss each briefly. You might hypothesize as to why the relationships are what they are. For example, “It makes sense that X is positively related to Y and Z because they are ….”

과제 수행에 앞서 ETL 과정을 거쳐 Geographical Hierarchy, Time Hierarchy와

새롭게 계산된 Dimension을 생성하는 작업을 진행한다.

현재 MEASURE 에 위도와 경도가 SUM 으로 집계된 값으로 저장되어있다. 따라서 집계를

NONE 으로 바꿔주는 작업을 거쳐야한다.

추가적으로 Geographical HIERARCHY 를 생성하기 위해 다음의 작업을 진행한다.





이 과정을 통해 앞으로 각 Geography 에 대한 데이터를 드릴다운으로 사용할 수 있다.

이어서 Time Hierarchy 를 생성하기 위해 다음의 작업을 진행한다.



위 두 작업을 통해 geo, time Hierarchy 를 생성해주며 앞으로의 분석작업에 유용하게 사용할 수

있다.

추가적으로 New Calculated Dimension 기능을 이용해 Gross Margin in USD, Gross Margin

Ratio 를 생성한다.



Gross Margin Ratio의 경우 SUM의 의미가 없어 Average로 지정하고

Percentage로 포맷팅을 변경한다.



Q.1) GBI 데이터셋을 이용한 데이터의 관계 식별

먼저 GBI 에서 판매하는 제품들에 대해 Revenue USD, Gross Margin Ratio, ProdCat, SalesOrg 를

이용해 아래의 트리맵을 시각화 하였다.

위 차트는 Weight 를 Revenue 로, Color 를 Gross Margin Ratio 로 지정해 각 Sales Org 별 GBI 의

Key Figure 들에 대한 정보를 한 눈에 확인할 수 있다. 위 차트를 살펴보면 대부분의 매출액을

담당하는 SalesOrg 는 TOU, ROB, ORB 인 것을 확인할 수 있다. 하지만 Gross Margin Ratio 를

확인했을 때 실제 수익률이 높은 SalesOrg 는 ACC 에 해당하는 것을 알 수 있다. 따라서 현재

GBI 의 가장 많은 매출액을 기여하는 TOU SalesOrg 는 실제 UE00, UW00 에서 수익률이 현저히

낮은 것으로 파악되기 때문에 이 시장에 대한 전략기획이 필요할 것으로 분석된다.

이어서 Animation 시각화를 통해 시간이 흐름에 따라 각 지역별 매출액이 어떻게 변하는지

확인해보았다.



Revenue USD, Region, Country, Year 변수를 사용해서 애니메이션 시각화를 진행한 결과 연도가

지남에 따라 초기 US 시장의 주 매출액을 기여하던 캘리포니아의 매출액이 감소하며

Germany 의 매출액이 증가하는 추세를 보인다.

따라서 독일과 미국 시장의 가장 많은 매출액을 기여하는 Bavaria 와 California 에 집중해

필터링을 진행하고 매출액과 매출수량에 대한 지역과 연도별 라인차트를 시각화 한 결과

아래와 같은 차트를 얻을 수 있다.



위 차트를 통해 연도가 지남에 따라 Germany 의 매출액과 매출수량은 상승하는 추세에 있으며

양의 상관관계를 갖는다고 설명할 수 있다.

반대로 US 의 경우 California 의 데이터를 통해 연도가 지남에 따라 매출액과 매출수량이

하락하는 추세에 있으며 음의 상관관계를 갖는다고 설명할 수 있다.

Question 2: Explain to Nina why each of these visualizations is important to her team.

Q.2 ) 1 차 시각화 시사점

위의 첫번째 차트를 통해 각 SalesOrg 와 ProdCat 에 따른 Revenue 와 Gross Margin Ratio 를

분석하고 두번째 차트를 통해 2007 년 이후부터 미국의 주 시장이었던 캘리포니아가 위축됨과

동시에 미국 동부와 독일 시장이 활성화되고 있다는 것을 확인했다.

첫번째 차트를 통해 알 수 있는 사실은 TOU PrudCat 으로 부터 나오는 대부분의 매출액이 실제

수익율은 가장 낮은 것으로 파악되었고 오히려 매출액이 가장 작은 ACC ProdCat 에서 수익율이

가장 높은 것으로 나타났다. 제품의 원가가 비쌀수록 매출액이 높아지는 것은 당연하기 때문에



이러한 결과가 나타날 수 있지만 GBI 의 이익을 증진시키기 위해선 Cost 와 Discount 에 대한

절감 정책이 필요할 것으로 분석된다.

두번째 차트에서 알 수 있는 사실은 미국에서 가장 많은 매출액을 기여하던 캘리포니아 시장이

위축되면서 점차 미국 동부시장과 독일 시장이 활성화 되고 있다는 사실을 발견했다. 이를

통해 시간이 지나면서 캘리포니아의 매출액이 줄어든 이유를 분석할 필요가 있으며

GBI 에서는 고객 이탈 방지를 위한 정책이 필요할 것으로 분석된다.

Question 3: Nina Kane and her colleagues in Germany believe that Global Bike has 4 groups of customers with distinct characteristics. She also knows that customers have changed over the past few years and so any analysis that you provide on the groups should be focused on the newest data available. Create a cluster analysis for Nina. What can you tell Nina about the 4 customer groups? Use the following as a guide to help you answer this question.

Q.3 ) R-K means Clustering 기법을 이용한 고객 분류

기존의 고객 분류는 그들의 뚜렷한 특성을 이용하여 4 개의 그룹으로 구분했지만 지난 몇 년 동안

고객의 특성이 변했다는 사실을 인지한 상태이기에 Preprocessor 의 Filter 를 이용해 아래와 같이

2019 년의 데이터로 필터링을 지정한다.



이후 R-K-Means 알고리즘을 이용해 4 개의 Cluster 로 고객을 분류하는데 전체 Revenue USD,

Costs USD, Sales Quantity, Discounts USD, Gross Margin 를 알고리즘에 사용한다.



마지막으로 CSV Writer를 이용해 각 고객이 속하는 Cluster에 대한 레이블을

추가한 CSV 파일을 로컬에 저장한다.

Question 4: Define how you clustered the transactions for Nina. What variables did you use? Did you have any preprocessors? If so, what were they?

현재 독일에서 근무하는 Nina와 그녀의 동료들은 고객이 4개의 뚜렷한 특성을

기반으로 구분된 4개의 그룹이 존재한다고 생각한다. 하지만 최근 시장의 변화로

고객의 특성이 변하였고 최근의 데이터를 이용해 고객을 새롭게 군집화 하자는

것이 이번 Task의 목표이다.

따라서 R-K means Clustering을 진행하기 전 Filter Preprocessor를 이용해 Year

Dimension이 2019년인 데이터를 추출했고 그 데이터에 대해 새롭게 군집화를

진행하였다.

추가적으로 R-K means는 데이터의 수치적 거리를 이용해 군집화를 진행하기

때문에 수치형 데이터를 선택해 군집화를 집행하였다.



Question 5: What can you tell Nina about the relationships of the members of each cluster and the clusters’ relationships to each other? Perhaps a simple way to do this is to explain the Summary and/or the Cluster Representations produced by the algorithm. Include screen shots of the cluster results.

Cluster 의 결과를 확인하기 위해 Summart/Cluster Representation 을 사용해 아래의 도표들을

확인한다.

아래의 결과를 확인하면 Cluster 1, 2, 3, 4 중 1 과 2 에 해당하는 고객이 가장 많은 것으로

나타난다.



또한 Cluster Density 와 Distance 를 확인한 결과 Cluster 4, 2, 3, 1 순서로 Density 가 낮은 것을

확인할 수 있으며 Density 가 낮다는 것은 해당 군집에 속하는 데이터의 유사성이 낮다는 것을

의미합니다. 따라서 4 번 cluster 의 경우 군집의 응집도가 낮으며 향후 Decision Cycle 에서

개선이 필요할 경우 Elbow Point 를 조정해 더 많은 Cluster 로 분할하는 작업을 고려할 수 있다.



마지막으로 Feature Distribution 을 통해 각 Cluster 가 전체 Gross Margin 에 기여하는 분포를

확인한다.

아래의 결과를 통해 Cluster 1 과 Cluster 2 가 많은 데이터 분포를 가지고 있지만 실질적으로

높은 매출액을 기여하는 그룹은 아닌 것을 확인할 수 있다. 반대로 Cluster 3 와 4 의 경우 데이터

분포는 작지만 실제 높은 매출액을 기여하는 그룹으로 확인할 수 있다.





Question 6: Explain other characteristics of the clusters by creating properly structured visualizations, (one visualization each), of the following. Hint: be sure to use the cluster number as one of the dimensions in your visualization. Be sure to identify the aggregation of your measures for each chart, perhaps in the title.

a. Sales revenues by region and product category

Region, Product Category, Sales Revenue, Cluster number 를 이용한 시각화를 진행하기 위해

Region Dimension 을 직관적으로 시각화 할 수 있는 Geo Bubble chart 를 선택했다.

Geo Bubble Chart 의 Value 를 Revenue USD 로, Geography 를 미리 생성해두었던 regoin

하이라키로 지정한 후 Row 와 Column 의 Trellis 를 ProdCat 과 ClusterNumber 로 지정했다. 그

결과 ACC, TRE 제품군에 대해선 각각 ClusterNumber 1 과 1, 2 에게만 판매되고 있다.



또한 ORB 제품군은 2, 4 번 Cluster 가 주 소비층이며 TOU 제품군은 4 번 Cluster 가 주

소비층임을 알 수 있다. (언급하지 않은 제품군은 골고루 분포)



b. Profitability (gross margin ratio) by customer and division

Customer 와 Division, ClusterNumber 에 따른 Profitability(Gross Margin Ratio)를 분석하기 위해

여러 차원의 변수를 직관적으로 표현하기 알맞은 Heatmap 차트를 이용하여 Area Color 를 Gross

Margin Ratio 로, Area Name 을 CustDescr 로, Area Name2 를 ClusterNumber, Division 으로

지정하고 시각화를 진행한 결과 아래의 그래프를 그릴 수 있는데 아래의 시각화 결과를 통해

AS Division 에는 ClusterNumber 1 의 Customer 가 존재하고 Division BI 에는 모든

ClusterNumber 의 고객이 존재한다.

여기서 주목할 점은 모든 고객층과 Division 을 통틀어서 AS Division 의 ClusterNuber 1 고객층이

가장 높은 수익성을 보유한 것으로 분석된다.

또한 BI Division 에서의 수익성이 높은 집단으로는 Cluster 1 과 2 고객층이 수익성이 높은

집단으로 분석된다.

고객층 군집화 시각화 시사점

R-K means Clustering 알고리즘을 이용한 고객층 군집화 작업을 통해 각 군집에 대한 특성과

응집도를 비교 분석했고 그 결과 4 번 Cluster 의 응집도가 낮은 것을 확인했다. 따라서 Decision



Cycle 에서 개선이 필요한 경우 Elbow Point 를 조정해 군집의 개수를 늘려 클러스터의

응집도를 높이는 방안을 해결책으로 제시할 수 있다.

앞의 두 시각화 결과를 통해 각 고객층이 어떤 제품을 선호하고 실제 수익성과 매출액은

어떻게 분포하는지 쉽게 파악할 수 있다. 실제 차트 결과를 통해 각 고객층에 따라 선호하는

제품군이 명확히 다르게 분포한 것을 확인할 수 있다.

Question 7: The sales team is also interested in sales trends overall. Create a forecast of sales for the next 48 months. Hint: use Triple Exponential Smoothing instead of R-Triple Exponential Smoothing for this forecast for “better” results.

a. Explain what value of alpha, beta, and gamma you chose and why you chose what you did.

SAP PA 의 Predict 탭으로 이동해 Time Series 의 Triple Exponential Smoothing 을 선택해 아래와

같이 Outcome Mode 를 Forecast 로 지정하고 향후 48 개월의 데이터를 예측하겠다고 지정한다.

또한 예측이 수행되는 Target Values 는 Revenue USD 이며 Date Column 으로 Time Series

하이라키를 선택한 후 Period 를 Month 를 지정한다.

이번 Task 의 목적은 Sales 팀에서 전반적인 Sales Trend 를 원하기 때문에 Currency 의 USD 와

EUR 의 필터링은 생략한다. 왜냐하면 이미 EUR 이 Revenue USD 로 환율이 변경되어 있고 그

환율이 변경된 Revenue USD 로 Forecasting 을 진행하기 때문이다.



위 작업이 끝나면 Advanced 탭으로 이동해 Triple Exponential Smoothing 에 사용할 Alpha, Beta,

Gamma 를 지정할 수 있는데 알파는 평활상수로 최근 데이터를 반영하는 비율을 의미하며

베타는 Trend, 감마는 Seasonality 를 의미한다.

이 작업에서는 Alpha, Beta, Gamma 를 각각 0.3, 0.1, 0.2 로 지정해주었다.

여기서 Gamma 값을 0.2 로 지정한 이유는 GBI 에서 판매하는 제품은 자전거로 Sales Revenue

데이터가 계절성을 가지기 때문이다.

b. Is the forecast reliable? Why or why not?

Triple Exponential Smoothing 이 완료되고 성능 평가지표를 확인하면 대표적으로 직관적인 평가

지표로 RMSE 를 사용할 수 있는데 이를 통해 실제 약 2 천 ~ 3 천만에 이르는 Revenue 와 약

1 백만 정도 차이가 날 수 있다고 판단할 수 있다.



Reference : https://dailyheumsi.tistory.com/167#rmse-root-mean-squared-error

Reference :https://otexts.com/fppkr/least-squares.html

또한 R-square 값이 약 0.93으로 측정되며 이는 예측 값과 실제 값이 가까운

정도를 나타내는 지표로 0과 1 사이의 값을 갖기 때문에 위 모델은 신뢰도가 높은

Forecast 모델이라고 할 수 있다.

https://dailyheumsi.tistory.com/167#rmse-root-mean-squared-error



아래의 Forecasting 결과를 통해 향후 48 개월, 4 년간의 Revenue 를 예측하였고 차트의 Trend 를

통해 해가 지날수록 점차 Revenue 가 증가할 것으로 예측되고 2023 년에 Total Revenue 가 약

4 천만에 이를 것으로 예상된다.

아래의 Forecasting 결과를 통해 향후 48 개월, 4 년간의 Revenue 를 예측하였고 차트의 Trend 를

통해 해가 지날수록 점차 Revenue 가 증가할 것으로 예측되고 2023 년에 Total Revenue 가 약

4 천만에 이를 것으로 예상된다.

Triple Exponential Forecasting 시사점

Triple Exponential Forecasting 을 진행하여 GBI 의 향후 48 개월의 Sales Revenue 를 예측했다.

Triple Exponential Forecasting 기법은 수많은 예측 모델에 비해 수식이 단순하면서도 예측 성능

또한 우수한 모델이다. 따라서 일별, 주별, 월별로 잦은 예측이 필요한 경우에 적합한 예측

방법이며 지금과 같은 경우 외에도 특정 지역의 특정 고객층에 대한 제품 수요를 예측하는

상황에도 적합하게 사용할 수 있다.

Triple Exponential Forecasting 을 진행하면서 Alpha, Beta, Gamma 를 세팅하는 작업이 필요한데

이는 상황과 데이터에 따라 지속적으로 적합한 조정이 필요할 것이다.



과제 수행 후기

이번 기말 과제를 수행하면서 실제 GBI 의 데이터 분석 업무를 맡은 직원이라고 상상했습니다.

이번 과제는 이전의 과제와는 달리 이번 한 학기 동안 배운 모든 내용을 종합적으로 다룬다는

점에서 매우 인상적이었습니다. 또한 개인적으로 이번 과제에서 가장 가치 있게 느껴진 부분은

SAP PA 라는 시각화 툴을 이용해 수많은 시행착오를 겪으며 차트를 생성했다는 것이고 그

과정에서 시각화 하기 원하는 추상적인 이미지가 머릿속에 그려지면 자연스럽게 툴을

조작하는 능력이 함양되었습니다.

ERP DA 강의를 수강하며 얻은 지식과 경험을 바탕으로 앞으로 한걸음 더 성장하는 학생이

되겠습니다. 한 학기 동안 고생 많으셨습니다. 감사합니다 교수님!

Hints

• Create a geo hierarchy with targeted dimension of City and Geographical level City.

• Avoid using column or bar charts for every answer.

Documents

Answer Sheet / Global Bike Case Study