Churnprediktion baserat på kundens första köp
2022 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Churn prediction based on the customer's first purchase (English)
Abstract [sv]
Många företag drabbas regelbundet av churn, ett tillstånd som innebär att existerande kunder slutar handla hos företaget eller använda företagets tjänster för att istället vända sig till konkurrenter. För att säkerställa lojalitet bland kunderna behöver företag därför etablera metoder för att tidigt vinna kundens tillit. Med hjälp av maskininlärning kan processen att identifiera churn automatiseras, så kallad churnprediktion. Mycket forskning finns kring churnprediktion, framförallt inom telekomsektorn och inom företag som erbjuder prenumerationstjänster. Majoriteten av tidigare exempel bygger dock på kunddata som samlats in från flera tidpunkter och syftar till att predicera churn inom en längre tidsperiod, vanligtvis inom ett år. Det finns färre exempel inom kontexten e-handeln, samt forskning om hur maskininlärning kan tillämpas för att enbart utifrån data från kundens första köp och inom en kortare tidsperiod identifiera churn. I denna studie har två maskininlärningsmodeller utvecklats baserat på Random Forest-algoritmen och Logistisk Regression-algoritmen. Syftet var att undersöka vilken algoritm som är bäst lämpad för att predicera om en given kund kommer handla igen eller inte inom en tremånadersperiod, enbart med data från kundens första köp. Undersökningen baserades på data från ett svenskt e-handelsföretag. Modellerna utvärderades med mått för klassificeringsproblem, bland annat Cohen’s kappa och AUC. Trots att Logistisk regression visar sig prestera något bättre tyder resultaten på att båda modellerna har generellt svårt att avgöra om kunden kommer utsätta företaget för churn eller ej. En möjlig förklaring anses vara datamängdens restriktivitet som endast innehåller data från kundens första köp. Däremot konstateras båda modellernas möjlighet att filtrera ut kunder som löper hög risk att utsätta företaget för churn, där Random Forest visar sig vara något bättre på detta. Slutligen konstaterades att modellerna inte påvisar kraftig förbättring jämfört med en naiv lösning där alla kunder antas utsätta företaget för churn, men eftersom även små förbättringar innebär att företaget kan spara pengar kan dock modellernas användbarhet motiveras.
Abstract [en]
Companies are continuously affected by churn, a condition where existing customers turn to competitors instead using the company’s services. To ensure customer loyalty, it is vital for the company to establish methods to gain the customers trust early on. With the help of machine learning, the process for identifying churn can be automated, known as churn prediction. Research on churn prediction is abundant, especially concerning the telecom sector and subscription-based services. Most of these articles, however, are based on additional, historical data surrounding the customer, aiming to predict churn within a longer time frame, usually a year. The articles focusing on e-commerce, combined with how machine learning can be applied to identify churn within a short period, based solely on data from the customer’s first purchase, are scarce. Two machine learning models are developed based on the Random Forest-algorithm and the Logistic Regression-algorithm. These are tested to see which algorithm is best suited for predicting whether a given customer will buy again or not within a three-month period, with only data from the customer's first purchase from a Swedish e-commerce company. The models were then evaluated with classification metrics, including Cohen’s kappa and AUC. Despite the fact that Logistic Regression performed slightly better, the results showed that both models struggled with the churn prediction. A possible explanation is the restrictiveness of the data set. However, with the option of changing the calibration points on the models’ confidence, allowing the filtration of customers who have a greater chance of leading to churn, both models performed better with Random Forest being slightly superior. The models are considered a slight improvement to a naïve solution where all customers are treated as possible churn. They are also useful given the context, where even minor prevention of churn can lead to profit for the company.
Place, publisher, year, edition, pages
2022.
Keywords [en]
Random Forest, Logistic Regression, Churn Prediction, E-commerce
Keywords [sv]
Random Forest, Logistisk Regression, Churnprediktion, E-handel
National Category
Information Systems
Identifiers
URN: urn:nbn:se:hb:diva-28232OAI: oai:DiVA.org:hb-28232DiVA, id: diva2:1681918
Subject / course
Informatics
2022-07-082022-07-072022-07-08Bibliographically approved