Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • harvard-cite-them-right
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Churnprediktion baserat på kundens första köp
University of Borås, Faculty of Librarianship, Information, Education and IT.
University of Borås, Faculty of Librarianship, Information, Education and IT.
University of Borås, Faculty of Librarianship, Information, Education and IT.
2022 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Churn prediction based on the customer's first purchase (English)
Abstract [sv]

Många företag drabbas regelbundet av churn, ett tillstånd som innebär att existerande kunder slutar handla hos företaget eller använda företagets tjänster för att istället vända sig till konkurrenter. För att säkerställa lojalitet bland kunderna behöver företag därför etablera metoder för att tidigt vinna kundens tillit. Med hjälp av maskininlärning kan processen att identifiera churn automatiseras, så kallad churnprediktion. Mycket forskning finns kring churnprediktion, framförallt inom telekomsektorn och inom företag som erbjuder prenumerationstjänster. Majoriteten av tidigare exempel bygger dock på kunddata som samlats in från flera tidpunkter och syftar till att predicera churn inom en längre tidsperiod, vanligtvis inom ett år. Det finns färre exempel inom kontexten e-handeln, samt forskning om hur maskininlärning kan tillämpas för att enbart utifrån data från kundens första köp och inom en kortare tidsperiod identifiera churn. I denna studie har två maskininlärningsmodeller utvecklats baserat på Random Forest-algoritmen och Logistisk Regression-algoritmen. Syftet var att undersöka vilken algoritm som är bäst lämpad för att predicera om en given kund kommer handla igen eller inte inom en tremånadersperiod, enbart med data från kundens första köp. Undersökningen baserades på data från ett svenskt e-handelsföretag. Modellerna utvärderades med mått för klassificeringsproblem, bland annat Cohen’s kappa och AUC. Trots att Logistisk regression visar sig prestera något bättre tyder resultaten på att båda modellerna har generellt svårt att avgöra om kunden kommer utsätta företaget för churn eller ej. En möjlig förklaring anses vara datamängdens restriktivitet som endast innehåller data från kundens första köp. Däremot konstateras båda modellernas möjlighet att filtrera ut kunder som löper hög risk att utsätta företaget för churn, där Random Forest visar sig vara något bättre på detta. Slutligen konstaterades att modellerna inte påvisar kraftig förbättring jämfört med en naiv lösning där alla kunder antas utsätta företaget för churn, men eftersom även små förbättringar innebär att företaget kan spara pengar kan dock modellernas användbarhet motiveras. 

Abstract [en]

Companies are continuously affected by churn, a condition where existing customers turn to competitors instead using the company’s services. To ensure customer loyalty, it is vital for the company to establish methods to gain the customers trust early on. With the help of machine learning, the process for identifying churn can be automated, known as churn prediction. Research on churn prediction is abundant, especially concerning the telecom sector and subscription-based services. Most of these articles, however, are based on additional, historical data surrounding the customer, aiming to predict churn within a longer time frame, usually a year. The articles focusing on e-commerce, combined with how machine learning can be applied to identify churn within a short period, based solely on data from the customer’s first purchase, are scarce. Two machine learning models are developed based on the Random Forest-algorithm and the Logistic Regression-algorithm. These are tested to see which algorithm is best suited for predicting whether a given customer will buy again or not within a three-month period, with only data from the customer's first purchase from a Swedish e-commerce company. The models were then evaluated with classification metrics, including Cohen’s kappa and AUC. Despite the fact that Logistic Regression performed slightly better, the results showed that both models struggled with the churn prediction. A possible explanation is the restrictiveness of the data set. However, with the option of changing the calibration points on the models’ confidence, allowing the filtration of customers who have a greater chance of leading to churn, both models performed better with Random Forest being slightly superior. The models are considered a slight improvement to a naïve solution where all customers are treated as possible churn. They are also useful given the context, where even minor prevention of churn can lead to profit for the company.

Place, publisher, year, edition, pages
2022.
Keywords [en]
Random Forest, Logistic Regression, Churn Prediction, E-commerce
Keywords [sv]
Random Forest, Logistisk Regression, Churnprediktion, E-handel
National Category
Information Systems
Identifiers
URN: urn:nbn:se:hb:diva-28232OAI: oai:DiVA.org:hb-28232DiVA, id: diva2:1681918
Subject / course
Informatics
Available from: 2022-07-08 Created: 2022-07-07 Last updated: 2022-07-08Bibliographically approved

Open Access in DiVA

KANI12(1154 kB)95 downloads
File information
File name FULLTEXT01.pdfFile size 1154 kBChecksum SHA-512
212c1750096d36205d2157afa4023f2fa07f2106ca9b18cff919202bbe04d1936f9d8186903ed791f7ab52783d3bc81ad0ec5dece5bbfb6a35f4f2fb7340860c
Type fulltextMimetype application/pdf

By organisation
Faculty of Librarianship, Information, Education and IT
Information Systems

Search outside of DiVA

GoogleGoogle Scholar
Total: 95 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 221 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • harvard-cite-them-right
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf