Trong các bài viết trước về tương quan (Correlation), hồi quy tuyến tính (Simple linear regression) đơn biến, thanhchien3d.vn và các bạn đã tìm hiểu về khái niệm, đặc điểm, cách phân biệt, cũng như cách triển khai các công thức của từng phương pháp trong việc đánh giá mối liên hệ giữa 2 biến phụ thuộc, biến độc lập. Chúng tôi cũng đã trình bày sơ lược về mô hình hồi quy tuyến tính đa biến (Multi linear regression), phương pháp đánh giá mối liên hệ giữa biến mục tiêu Y với nhiều biến đầu vào X. Ở bài viết lần này chúng ta sẽ đi vào ví dụ cụ thể, ứng dụng của mô hình hồi quy tuyến tính trong kinh doanh và bán lẻ.
Đang xem : Phương trình hồi quy tuyến tính
Trong bối cảnh thay đổi liên tục, đặc biệt trong ngành bán lẻ, dữ liệu cần thu thập hàng ngày và phân tích là rất nhiều, do đó các kỹ thuật phân tích, khai phá dữ liệu được yêu cầu phải ngày càng tinh vi, có thể áp dụng linh hoạt, nhiều ưu điểm hơn. Đối với Regression cũng vậy, khi dữ liệu được cập nhật, đổi mới, các chuyên gia, những nhà nghiên cứu trong lĩnh vực khoa học dữ liệu sẽ quan tâm hay áp dụng nhiều các mô hình hồi quy chuyên sâu hơn, phù hợp hơn, thích ứng tốt với các thuộc tính, vấn đề mới của bộ dữ liệu. Điều này khiến cho phương pháp hồi quy tuyến tính – Linear regression không còn phổ biến, bị đánh giá là không còn thích hợp để áp dụng. Tuy nhiên, Linear regression vẫn là kiến thức nền tảng quan trọng nhất trong lĩnh vực thống kê và vẫn là công cụ phân tích đóng vai trò cốt lõi trong lĩnh vực kinh tế. Phương pháp hồi quy tuyến tính có ưu điểm đơn giản, dễ giải thích, thực hiện, diễn giải bằng đồ thị dựa vào phương trình hồi quy lập được, trực quan, rõ ràng, không cần phải nắm quá nhiều kiến thức nền tảng khác trong lĩnh vực khoa học dữ liệu để tiếp thu và triển khai. Bên cạnh đó Linear regression là công cụ đầu tiên, sơ khai, cơ bản nhất trong các công cụ phân tích được dùng để nghiên cứu nhanh chóng mối liên hệ giữa các yếu tố, đối tượng từ khoa học đến xã hội, mọi khía cạnh của đời sống và đưa ra những dự báo trong tương lai.
Đối với những ai đang tiếp cận Data science, hoặc Data mining, hay Data analytics chưa quen với các phương pháp xử lý dữ liệu thông thường, thì hồi quy tuyến tính có thể giúp hình thành những tư duy, am hiểu về dữ liệu, giúp nắm được bản chất của chính các công việc liên quan đến dữ liệu dễ dàng hơn, một phần giảm bớt các suy nghĩ nặng nề, chán nản khi khối lượng kiến thức phải tiếp thu là quá nhiều. Đặc biệt trong kinh tế, các nhà kinh doanh, thậm chí những nhân viên bán hàng, nhân viên marketing có thể sử dụng hồi quy tuyến tính để tự mình tìm ra câu trả lời cho các vấn đề, câu hỏi gặp phải hàng ngày dựa trên dữ liệu có sẵn. Bất kể phần mềm phân tích dữ liệu, trực quan dữ liệu, khai phá dữ liệu từ Excel, Minitab, SPSS, Rapid Miner, SAS,… cho đến ngôn ngữ lập trình xử lý dữ liệu như R, Python,… đều có tích hợp mô hình hồi quy tuyến tính cho phép chúng ta thực hiện và triển khai trên dữ liệu của mình.
Mặc dù quốc tế đang đổi khác một cách chóng mặt, mọi hiện tượng kỳ lạ, sự vật đều hoạt động không ngừng và luôn bị những yếu tố xung quanh tác động ảnh hưởng, tài liệu do đó phải update liên tục thì tác dụng nghiên cứu và phân tích hồi quy tuyến tính không hề tuyệt đối tin yêu và vận dụng vào thực tiễn, phải sử dụng thêm những chiêu thức khác để nhìn nhận độ đúng chuẩn trong việc dự báo. Tuy nhiên không phải vì khuyết điểm rất lớn là không hề phản ánh đúng nhất những hiện tượng kỳ lạ trong trong thực tiễn mà tất cả chúng ta bỏ lỡ hồi quy tuyến tính. Đây vẫn là giải pháp được khoa học công nhận, được tin yêu, và luôn là kiến thức và kỹ năng không hề thiếu ở những bộ môn về giải quyết và xử lý thông tin, tài liệu tại hầu hết toàn bộ những trường ĐH. Như theo tập đoàn lớn công nghệ tiên tiến số 1 quốc tế IBM “ Linear regression – A proven way to scientifically and reliably predict the future ”. Cũng theo SAS, công ty số 1 khác về những ứng dụng nghiên cứu và phân tích tài liệu, Linear regression là chiêu thức quan trọng nhất trong thống kê, giúp tất cả chúng ta tìm ra những thông tin có giá trị từ bộ tài liệu lớn, về mối quan hệ giữa những đối tượng người tiêu dùng trong bộ tài liệu và là công cụ không hề thiếu trong Predictive analytics – nghiên cứu và phân tích dự báo .
Dựa trên những lập luận trên, tất cả chúng ta hoàn toàn có thể khẳng định chắc chắn hồi quy tuyến tính vẫn là công cụ hữu hiệu trong nghành kinh tế tài chính nói chung, và kinh doanh bán lẻ nói riêng trong việc khám phá mối quan hệ giữa những yêu tố điều tra và nghiên cứu quan trọng như giá thành, lệch giá, chiến dịch marketing, kế hoạch bán hàng, … và đưa ra những dự báo, giải pháp hài hòa và hợp lý. Tuy nhiên tất cả chúng ta cũng cần chăm sóc nhiều hơn về những phương pháp nhìn nhận độ hiệu suất cao của quy mô hồi quy bảo vệ tính tối ưu .
Nói một chút ít về nghành kinh doanh bán lẻ, thì thời nay kinh doanh nhỏ cùng với thương mại điện tử là 2 ngành kinh tế tài chính được coi là tăng trưởng mạnh nhất trong thời hạn vừa mới qua, nhờ vào sự tăng trưởng của công nghệ tiên tiến. Đối với những công ty trong ngành này, dẫn chứng là những tập đoàn lớn lớn như Amazon, Walmart đã từ lâu coi tài liệu là gia tài, là nguồn sống của mình, phải tận dụng và khai thác triệt để mục tiêu : đồng cảm người mua trải qua hành vi, phương pháp thanh toán giao dịch, đưa ra những mẫu sản phẩm dịch vụ cá thể hóa nhắm đúng chuẩn đối tượng người dùng người mua, thiết kế xây dựng mạng lưới hệ thống giá linh động, tối ưu hoạt động giải trí logistics, …
Trở lại với hồi quy tuyến tính, thì trong bài viết trước, tất cả chúng ta đã làm quen với những công thức, những bước cần thực thi khi tiến hành Multi linear regression – hồi quy tuyến tính đa biến. Thông thường trong trong thực tiễn khi tất cả chúng ta muốn đưa ra dự báo về một đối tượng người tiêu dùng điều tra và nghiên cứu, tất cả chúng ta phải xem xét đến rất nhiều yếu tố khác tác động ảnh hưởng lên nó cùng lúc không chỉ là một, cho nên vì thế hồi quy tuyến tính đa biến được ứng dụng nhiều hơn. Ở bài viết này chúng tôi sẽ chỉ tập trung chuyên sâu vào ví dụ sử dụng multi linear regression trong kinh doanh nhỏ, còn về simple linear regression – hồi quy đơn biến, chúng tôi đã trình diễn rất đầy đủ ở những bài viết trước, những bạn hoàn toàn có thể tìm hiểu thêm trải qua link dưới đây :
Tổng quan về Regression (phân tích hồi quy)
Correlation (tương quan) & Simple linear regression (hồi quy tuyến tính đơn giản)
Phương pháp kiểm định trong tương quan và hồi quy tuyến tính đơn biến
Dự báo trong Simple linear regression và sơ lược về Multi linear regression (chèn link vô sau)
Ứng dụng của hồi quy tuyến tính trong ngành kinh doanh bán lẻ hay kinh doanh thương mại là rất nhiều tùy vào từng trường hợp khác nhau, những tiềm năng nghiên cứu và điều tra khác nhau của những nhà nghiên cứu và phân tích, những thuộc tính tài liệu khác nhau, tuy nhiên tổng quan thường thì có những ứng dụng đa phần :
Khai phá thông tin hữu dụng, giá trị của những đối tượng người tiêu dùng điều tra và nghiên cứu ( ví dụ khám phá sự liên hệ giữa chiến dịch marketing và doanh thu ) Đưa ra dự báo trong tương lai ( ví dụ dự báo lệch giá của một shop tại khu vực bất kể dựa trên những yếu tố tác động ảnh hưởng đã được tìm thấy ) Tối ưu quy trình quản lý và vận hành, hoạt động giải trí ( ví dụ dựa trên hiệu quả dự báo doanh thu, lập ra những kế hoạch tiến hành hàng tồn dư, kế hoạch logistics ) Hỗ trợ ra quyết định hành động, kế hoạch ( ví dụ dựa trên mối quan hệ giữa chiến dịch marketing và doanh thu để nhìn nhận hiệu suất cao kế hoạch tiếp thị hiện tại, và cần làm gì để biến hóa )
Trước khi đi vào ví dụ đơn cử, tất cả chúng ta cùng review lại những kỹ năng và kiến thức, công thức cần nắm trong hồi quy tuyến tính đa biến .
Hồi quy tuyến tính đa biến là giải pháp nghiên cứu và điều tra mối quan hệ giữa biến tiềm năng ( biến nhờ vào ) với nhiều hơn 2 biến độc lập ( biến nguồn vào ) .
Mô hình tổng quan với Y là biến phụ thuộc vào và những biến độc lập X1, X2, X3, …, Xp .
Giống như quy mô tổng quan của hồi quy tuyến tính đơn thuần, β0 là giá trị ước đạt của Y khi những giá trị của những biến X đều bằng 0. Các thông số hồi quy chưa biết từ β1 … βp giờ đây sẽ được gọi là thông số hồi quy riêng bộc lộ mức độ biến hóa của giá trị trung bình Y khi biến X1 … Xp biến hóa 1 đơn vị chức năng mà những biến còn lại không biến hóa. Tức là βp biểu lộ mối liên hệ của riêng biến Xp đến giá trị trung bình của y. ε là sai số có phân phối chuẩn, trung bình bằng 0, là phần giá trị biểu lộ những yếu tố mà quy mô không điều tra và nghiên cứu đến .
Bên trên cũng chính là phương trình tổng quan hồi quy tuyến tính đa biến. Trong thực tiễn những thông số hồi quy trong toàn diện và tổng thể không để tìm ra đúng mực nên tất cả chúng ta chỉ hoàn toàn có thể ước đạt bằng những thông số b0, b1, .. bp tính được từ tài liệu mẫu. Phương trình hồi quy đa biến được dùng cho ước đạt, dự báo giá trị y
Y^ là các giá trị dự báo của biến mục tiêu, b0,…bp là các giá trị ước lượng của các hệ số β0,…,βp. Mặc dù cùng sử dụng phương pháp bình phương bé nhất (Least square method) nhưng điểm khác biệt giữa hồi quy tuyến tính đơn giản và hồi quy đa biến đó chính là quá trình tính toán. Với bộ dữ liệu mẫu nhỏ và chỉ có 2 biến, thì hồi quy tuyến tính đơn giản quá trình tính toán nhanh, có thể thực hiện bằng Excel lập bảng và sử dụng hàm để tính nếu số quan sát không quá lớn. Tuy nhiên với hồi quy đa biến công việc tính toán phức tạp hơn rất nhiều vì có rất nhiều biến, chưa kể tính tới số lượng quan sát trong tập dữ liệu.
Mô hình hồi quy đơn biến và đa biến đều dựa trên phương pháp bình phương bé nhất để hình thành phương trình và chỉ khác biệt về thời gian, chi phí tính toán, một bên 2 biến đơn giản hơn, một bên nhiều biến phức tạp hơn. Do áp dụng phương pháp bình phương bé nhất cùng với công thức ma trận đại số (Matrix Algebra) và không có các công thức toán nào khác có thể giúp mình tự tính toán (tính tay) đối với những dữ liệu đó nên thông thường khi tiến hành lập phương trình cho mô hình hồi quy đa biến chúng ta sẽ sử dụng các công cụ, phần mềm để phân tích và dựa vào kết quả để diễn giải mô hình. Đây là phần quan trọng nhất, nếu không hiểu các hệ số hồi quy diễn tả cái gì chúng ta sẽ khó đánh giá độ hiệu quả mô hình và đưa ra dự báo
Các công thức quan trọng bên cạnh việc diễn giải phương trình hồi quy đa biến
Các bạn hoàn toàn có thể xem lại bài viết theo link dưới đây để hiểu hơn về ý nghĩa của từng công thức .
Dự báo trong Simple linear regression và sơ lược về Multi linear regression (chèn link vô sau)
Correlation matrix để tìm hiểu mối quan hệ giữa tất cả các biến một cách tổng quan xem trước biến nào có thể sẽ có ích cho mô hình và ngược lại, dựa trên hệ số tương quan Pearson của từng cặp biến và ngăn chặn vấn đề đa cộng tuyến (Multicolinearity, các biến độc lập có tương quan với nhau ảnh hưởng đến kết quả dự báo Y không chính xác). Multicolinearity sẽ được chúng tôi trình bày rõ hơn ở bài viết tới.Hệ số xác định r2
Hệ số xác định R2 đã được hiệu chỉnh hay còn gọi là (Adjusted Coefficient of Determination)
Công thức ước đạt thông số hồi quy
t tra bảng với bậc tự do là n-p-1, n là tổng số quan sát, p là số biến trong phương trình
Công thức kiểm định F ( kiểm định có hay không mối liên hệ giữa Y và một trong những biến X
Nguyên tắc bác bỏ :
p – value nhỏ hơn mức ý nghĩa α ( hoàn toàn có thể sử dụng bảng tra hay Excel để tìm ra dựa trên bậc tự do của F như dưới đây ) Giá trị F tính được phải lớn hơn giá trị F tra bảng phân phối F ( với bậc tự do thứ nhất là p ở hàng trên cùng, và bậc tự do thứ hai là n – p – 1 ở cột ngoài cùng, α ở cột thứ 2 tính từ cột ngoài cùng ) Công thức kiểm định t ( kiểm định mối quan hệ theo từng cặp biến X và Y )
Chúng ta hoàn toàn có thể đặt những giả thuyết như sau, tùy theo mục tiêu kiểm định :
H0 : βp = 0 H0 : βp ≤ 0 H0 : βp ≥ 0
H1 : βp ≠ 0 H1 : βp > 0 H1 : βp Với kiểm định 2 phía : H0 : βp = 0 được bác bỏ khi trị tuyệt đối của t lớn hơn t tra bảng ( tα / 2, n-p-1 ) Với kiểm định bên phải : H0 : βp ≤ 0 được bác bỏ khi giá trị t dương lớn hơn giá trị dương của t tra bảng ( tα, n-p-1 ) Với kiểm định bên trái : H0 : βp ≥ 0 được bác bỏ khi giá trị t Nếu xét trên giá trị p-value, bác bỏ H0 khi p-value
Kiểm định t sẽ được dùng để xác định biến X có ý nghĩa trong việc giải thích sự thay đổi của biến Y hay không, (chứ không nên kết luận theo kiểu có hay không có mối quan hệ giữa biến phụ thuộc Y với biến X như trong simple linear regression)
Công thức ước đạt, dự báo
Phương pháp ước lượng và dự báo trong hồi quy đa biến thì tương tự trong hồi quy đơn biến. Thứ nhất có thể thay giá trị của các biến độc lập X vào phương trình hồi quy đa biến ước lượng kiếm được (sau khi đã tìm được các giá trị ước lượng b0, b1,… để dự báo giá trị của Y. Đây là dạng ước lượng điểm, giá trị Y được dự báo hay ước lượng sẽ là trung bình của các giá trị Y với giá trị X cho trước.
Thứ 2, ước đạt giá trị Y theo khoảng chừng đáng tin cậy thì có 2 dạng :
Confident interval : vận dụng cho ước đạt giá trị trung bình của Y khi có những giá trị X cho trước. Công thức tổng quát :
Prediction interval : vận dụng cho dự báo một giá trị riêng của Y khi có những giá trị X cho trước. Công thức tổng quát :
Tương tự như khi lập phương trình hồi quy đa biến, tất cả chúng ta phải sử dụng ứng dụng nghiên cứu và phân tích tài liệu để ước đạt giá trị y trong hồi quy đa biến do khối lượng tài liệu nhiều, những công thức ma trận cần được vận dụng, nên việc tính tay là rất cồng kềnh và phức tạp, lúc bấy giờ mọi ứng dụng nghiên cứu và phân tích tài liệu đều tính giùm tất cả chúng ta những khoảng chừng ước đạt của giá trị dự báo y y ở cả 2 loại, Confident và Prediction .
Lưu ý quan trọng:
Ngoài ra bên cạnh các công thức trên, thì trong hồi quy tuyến tính đa biến chúng ta còn có thêm các phương pháp quan trọng khác như phân tích sai số giữa giá trị thực tế và giá trị dự báo dựa theo phương trình hồi quy tìm được – Residual analysis (áp dụng cho mọi loại phân tích hồi quy), ngoài ra phương pháp này còn được dùng để kiểm tra những giả định về sai số ε; phương pháp Stepwise để đánh giá xem biến độc lập X nào nên giữ lại trong mô hình, và ma trận hệ số tương quan. Những phương pháp kể trên chúng tôi sẽ trình bày ở các bài viết sắp tới, đồng thời bàn luận sâu hơn về Multicolinearity – đa cộng tuyến.
Tiếp theo phần quan trọng nhất của bài viết đó là ứng dụng của hồi quy tuyến tính trong kinh doanh nhỏ, đơn cử là ứng dụng quy mô Multi linear regression để tìm ra những thông tin hữu dụng và có giá trị về mối quan hệ giữa những đối tượng người tiêu dùng điều tra và nghiên cứu, mục tiêu đưa ra những dự báo và những kế hoạch từ bán hàng, tiếp thị, quản lý và vận hành, chuỗi đáp ứng hiệu suất cao nhất .
Dự báo lệch giá dựa trên những yếu tố ảnh hưởng tác động là ứng dụng quan trọng nhất của hồi quy tuyến tính đa biến vì tiềm năng cốt lõi sau cuối của bất kỳ công ty kinh doanh nhỏ nào cũng là lệch giá. Các yếu tố nào ( những biến X ) làm tăng giảm lệch giá ( Y ) trong tương lai ? Tại sao ? Cần làm gì để cải tổ hay hạn chế những yếu tố này .
Chủ đề về ứng dụng linear regression trong bán lẻ chúng tôi sẽ chia là 3 phần: phần thứ nhất thông qua một ví dụ đơn giản để hiểu những công thức liên quan, diễn giải ý nghĩa của kết quả phương trình hồi quy để nêu bật lợi ích của linear regression; phần thứ 2 sẽ trình bày về về các phương pháp chọn biến điển hình là Stepwise, phần thứ 3 sử dụng ví dụ khác để tổng hợp lại kiến thức và phương pháp đánh giá các giả định tham số ε thông qua Residual analysis như đã nói ở trên và bàn về các vấn đề có trong hồi quy đa biến ví dụ như Multicolinearity – đa cộng tuyến.
Phần 1 bài viết ngày hôm nay ứng dụng linear regression trong kinh doanh nhỏ, tất cả chúng ta sẽ bàn về ví dụ dự báo số tiền mà một người mua hoàn toàn có thể bỏ ra ở lần mua hàng sắp tới. Số liệu và ví dụ lấy từ tài liệu quốc tế về thống kê và ứng dụng “ The Basic Practice of Statistics ” của David S.Moore.
Một quản trị tại một shop kinh doanh nhỏ thời trang tích lũy ngẫu nhiên tài liệu lịch sử dân tộc thanh toán giao dịch của 60 người mua thân thiện, người quản trị này muốn dự báo ở lần mua hàng tiếp theo thì trung bình 1 người mua hoàn toàn có thể sẽ bỏ ra bao nhiêu tiền để mua mẫu sản phẩm của shop. Nhiệm vụ của tất cả chúng ta là sẽ tìm ra quy mô hồi quy đa biến với những biến độc lập khác nhau để dự báo giá trị của biến tiềm năng là khoản tiền người mua bỏ ra. Các biến dữ liệu gồm có :Amount ( Target ) : Khoản tiền bỏ ra trong một lần thanh toán giao dịch của một người mua tại shop kinh doanh nhỏ. Đơn vị : USDRecency : số tháng kể từ lần cuối người mua mua hàngFrequency12 : số lần mua hàng trong 12 tháng gần nhấtDollar12 : tổng số tiền người mua đã bỏ ra để mua hàng trong 12 tháng gần nhấtFrequency24 : số lần mua hàng trong 24 tháng gần nhấtDollar24 : tổng số tiền người mua đã bỏ ra để mua hàng trong 24 tháng gần nhấtCard : đây là biến thay phiên, giá trị = 0 là người mua không có thẻ tín dụng, giá trị = 1 người mua có thẻ tín dụng
Lưu ý phương trình được tìm ra trong ví dụ dưới đây chưa được tối ưu nhất.
Đầu tiên tất cả chúng ta phải vô hiệu những tài liệu ngoại lệ, tại cột biến Amount, 3 khách hàng đầu giá trị thanh toán giao dịch bằng 0, trường hợp này có nghĩa là những người mua này đã mua hàng nhưng đã trả lại hàng, và shop phải trả lại tiền. Tại người mua thứ 60, giá trị thanh toán giao dịch một là hơn 1 triệu USD, đây hoàn toàn có thể là lỗi nhập thông tin, nên tất cả chúng ta cũng cần loại trừ ra .
Tiếp sau khi vô hiệu những tài liệu ngoại lệ tất cả chúng ta sẽ lập ma trận thông số đối sánh tương quan để tìm mối liên hệ giữa biến tiềm năng. Các bạn hoàn toàn có thể triển khai trên Excel, SPSS để tìm ra ma trận .
Xem thêm : Top trò chơi Quản Lý Bóng Đá Offline Android, Top trò chơi Quản Lý Bóng Đá Cho Androidios
Dựa vào ma trận thông số đối sánh tương quan phía trên tất cả chúng ta xác lập được 2 biến Dollar12 và Dollar 24 có mối quan hệ mạnh với biến tiềm năng là Amount, thông số Pearson Correlation lần lượt là 0.804 và 0.677, tuy nhiên giữa 2 biến này lại có mối quan hệ bền vững và kiên cố với thông số Pearson Correlation là 0.827, nên để tránh trường hợp đa cộng tuyến như đã nói ở trên tất cả chúng ta chỉ lấy một trong 2 biến Dollar12 và Dollar24 để đưa vào nghiên cứu và phân tích, tất cả chúng ta sẽ lấy Dollar12 vì thông số Pearson cao hơn .
Biến Recency có ý nghĩa đưa vào nghiên cứu và phân tích vì nó là biến duy nhất có mối quan hệ ngược chiều khi thông số đối sánh tương quan với biến tiềm năng có giá trị âm nghĩa là những người mua nào mua hàng liên tục ( Recency sẽ thấp, do số tháng từ lần cuối mua hàng sẽ giảm đi ) sẽ có năng lực chi cao hơn người mua ít mua hàng ( Recency cao, tức số tháng từ lần cuối mua hàng sẽ tăng lên ). Biến Recency là biến hoàn toàn có thể cung ứng thông tin có ích về người mua, tất cả chúng ta hoàn toàn có thể xem xét đưa vào nghiên cứu và phân tích. Các giá trị Sig ( 2 – tailed ) là giá trị P-value, tác dụng kiểm định thông số đối sánh tương quan để nhìn nhận có hay không có mối quan hệ giữa 2 biến, P-value càng bé, nhỏ hơn 0.005 thì chứng tỏ có mối quan hệ đối sánh tương quan giữa 2 biến
Lưu ý cực kỳ quan trọng, ma trận hệ số tương quan chỉ cho chúng ta biết về mối quan hệ giữa các biến, biến độc lập nào có hệ số tương quan cao với biến mục tiêu có thể có ý nghĩa phân tích trong mô hình hồi quy đa biến nhưng biến độc lập nào có hệ số tương quan thấp hơn nghĩa là chúng không phù hợp để đưa vào mô hình, ngoài ra chúng ta phải xem xét thêm các hệ số R2 và R2 điều chỉnh hay sử dụng phương pháp Stepwise sẽ được chúng tôi trình bày ở bài viết tới. Ở bài viết lần này chúng ta sẽ đưa vô mô hình các biến mà chúng ta cho là quan trọng để phân tích, bên cạnh kết hợp với ma trận hệ số tương quan.
Lưu ý phương trình dưới đây không phải là tối ưu nhất, nguyên nhân tại sao chúng tôi sẽ chỉ ra trong bài viết sắp tới cũng về linear regression trong bán lẻ, nhấn mạnh tầm quan trọng của phương pháp Stepwwise.
Giả sử sau khi xem xét tất cả chúng ta xác lập được 3 biến độc lập X quan trọng cần đưa vào là Recency, Frequency12 và Dollar12. Như đã nói ở phía trên và bài viết trước, khi thiết kế xây dựng quy mô hồi quy đa biến, tất cả chúng ta phải sử dụng những công thức ma trận để giám sát những thông số hồi quy và khá cồng kềnh. Các ứng dụng thống kê, nghiên cứu và phân tích tài liệu lúc bấy giờ đều được cho phép tất cả chúng ta tìm những thông số hồi quy nhanh gọn và lập phương trình hồi quy đa biến dùng để ước đạt và dự báo giá trị biến tiềm năng :
Phía trên là kết quả có được từ SPSS, B chính là hệ số hồi quy của các biến, Standard Error là sai số chuẩn của hệ số hồi quy, chúng ta sẽ dùng hệ số này để ước lượng hệ số hồi quy theo khoảng tin cậy của từng biến X. Các bạn lưu ý giá trị p-value (cột Sig.) tại biến Recency, đây là nguyên nhân tại sao phương trình dưới đây không tối ưu hoàn toàn, trong bài viết thứ 2 chúng ta sẽ tìm hiểu, còn trước mắt chúng ta sẽ áp dụng và làm quen các công thức ước lượng, dự báo.
Chúng ta có phương trình hồi quy như sau :
Giải thích tác dụng :
75 là giá trị ước đạt của Y khi những giá trị của tổng thể những biến độc lập X đều bằng 0. Nghĩa là không xét đến những yếu tố tương quan khác, thì khoản tiền người mua bỏ ra một lần thanh toán giao dịch hoàn toàn có thể bằng 88.75 USD44 là khoản tiền tăng thêm trong số tiền mua hàng người mua hoàn toàn có thể bỏ ra lần tiếp theo khi tổng số tiền thanh toán giao dịch trong 12 tháng gần nhất tăng 1 USD với điều kiện kèm theo những biến lại được giữ nguyên không đổi khác. – 1.1 là khoản tiền giảm đi trong số tiền mua hàng người mua hoàn toàn có thể bỏ ra lần tiếp theo khi số tháng kể từ lần gần nhất người mua mua hàng tăng lên 1, cùng với điều kiện kèm theo là những biến khác không biến hóa. – 36.5 là khoản tiền giảm đi trong số tiền mua hàng người mua hoàn toàn có thể bỏ ra lần tiếp theo khi tổng số lần mua hàng trong 12 tháng gần nhất tăng lên 1, cùng với điều kiện kèm theo là những biến khác không biến hóa .
Tiếp theo tất cả chúng ta sẽ ước đạt thông số hồi quy của từng biến. Lưu ý rằng những thông số hồi quy trong phương trình trên là ước đạt điểm của thông số hồi quy của những biến trong toàn diện và tổng thể và đương nhiên chúng sẽ không hề đúng mực tuyệt đối. Quay lại công thức ước đạt thông số hồi quy chúng tôi đề cập ở đầu bài viết, những bạn hoàn toàn có thể vận dụng để tìm khoảng chừng ước đạt cho từng thông số hồi quy, với độ đáng tin cậy 95 %
bp là thông số hồi quy của từng biến có được từ phương trình, Sb là sai số chuẩn của thông số hồi quy của chính biến đó, ta / 2 là giá trị t tra bảng với α = 5 %, bậc tự do n-p-1 = 56 – 3 – 1 = 52, , Sb lấy từ tác dụng ở trên
Chúng ta cùng ước đạt thử thông số hồi quy của biến Dollar12 .
T0. 025, ( 52 ) = 2.007, Sb = 0.024 .
Suy ra : 0.44 ± 2.007 * 0.024 => 0.44 ± 0.048 => thông số hồi quy của Dollar12 nằm trong khoảng chừng ( 0.39, 0.485 )
Lưu ý quan trọng các bạn hãy nhìn lại kết quả ở trên, tại cột Lower 95% và Upper 95% đây là của Dollar12 các bạn sẽ thấy giống kết quả ước lượng như trên. Nghĩa là thay vì tính tay các bạn có thể lấy kết quả thông qua phần mềm phân tích.
Diễn giải : khi tổng số tiền thanh toán giao dịch trong 12 tháng gần nhất tăng 1 USD thì số tiền thanh toán giao dịch lần tiếp theo người mua bỏ ra sẽ tăng từ 0.39 USD đến 0.485 USD
Tiếp theo tất cả chúng ta cùng xem qua tác dụng kiểm định F. Còn kiểm định t thì giống như hồi quy đơn biến chỉ khác phương pháp Kết luận nên những bạn hoàn toàn có thể xem lại theo link bài viết dưới đây .
Phương pháp kiểm định trong tương quan và hồi quy tuyến tính đơn biến
SSR = 605797.437 SSE = SST – SSR = 86445.992
SST = 692243.429
Bậc tự do của SSR là 3, là số biến độc lập trong phương trình. MSR = SSR / 3 = 201932.479
Bậc tự do của SSE là n – p – 1 = 56 – 3 – 1 = 52. MSE = SSE / 52 = 1662.423
Chúng ta có giá trị kiểm định F = 121.469, các bạn có thể tra bảng phân phối F với bậc tự do thứ nhất là 3 và thứ 2 là 52 cùng α là 5%. Với giá trị F rất lớn và lớn hơn rất nhiều so với F tra bảng có giá trị khoảng 8.59, thì chứng tỏ một cách tổng thể là một trong các biến độc lập (recency, freq12, dollar12) đều có mối quan hệ với biến mục tiêu (amount). Lưu ý điểm này vì bài viết sắp tới chúng tôi sẽ nói lại ở bài viết sắp tới, điểm này rất rất quan trọng?
Tiếp theo là phần quan trọng nhất : liệu quy mô có ý nghĩa để đưa ra dự báo cho giá trị của biến Y, tất cả chúng ta sẽ xem xét thông số kiểm soát và điều chỉnh R2 .
R2 = SSR / SST = 0.875
Nghĩa là 87.5 % phần biến thiên trong giá trị của biến tiềm năng Y hoàn toàn có thể được lý giải bởi những biến độc lập X. Nói cách khác 87.5 % phần biến thiên trong khoản tiền người mua bỏ ra trong lần thanh toán giao dịch sắp tới của người mua hoàn toàn có thể được lý giải bởi số lần thanh toán giao dịch trong 12 tháng gần nhất, số tháng kể từ lần thanh toán giao dịch ở đầu cuối, và tổng số tiền thanh toán giao dịch trong 12 tháng gần nhất. Hệ số R2 kiểm soát và điều chỉnh 0.868 khá cao nên tất cả chúng ta hoàn toàn có thể Kết luận quy mô tương thích để đưa ra dự báo .
Phương thức dự báo thứ nhất là tất cả chúng ta hoàn toàn có thể thay trực tiếp những giá trị biến độc lập vào .
Giả sử người quản trị muốn dự báo số tiền trung bình một người mua hoàn toàn có thể bỏ ra cho lần mua hàng tiếp theo nếu lần cuối người mua này mua hàng là 6 tháng trước, tổng số tiền người mua bỏ ra trong 12 tháng gần nhất là 200 USD, số lần mua hàng trong 12 tháng gần nhất là 2
Y = 88.75 + 0.44 * 200 – 1.1 * 6 – 36.5 * 2 = 97.15 USD .
Đối với 2 dạng ước đạt giá trị Y trong khoảng chừng đáng tin cậy là Confidental và Prediction Interval, tất cả chúng ta sẽ sử dụng SPSS để tìm ra tác dụng ước đạt. Dưới đây là tác dụng có được, lấy ví dụ 10 người mua .
Diễn giải :
Chúng ta lấy ví dụ người mua ID 4, với Confidental interval cho giá trị Y dự báo ( với giá trị của những biến nguồn vào tất cả chúng ta lấy từ tài liệu mẫu không biến hóa ) là ( 20.2 ; 47.6 ), khoản tiền người mua bỏ ra trong lần mua hàng tiếp theo hoàn toàn có thể nằm trong khoảng chừng ước đạt trên. Còn Prediction interval ( 0 ; 116.87 ) ( giá trị âm tất cả chúng ta vô hiệu vì nó không có ý nghĩa ) là trường hợp người mua ID 4 là người mua mới với những giá trị của những biến độc lập giống như trong tập dữ liệu mẫu khởi đầu .
Trong SPSS, giả sử nếu các bạn muốn dự báo khoản tiền của 1 khách hàng mới có thể bỏ ra cho lần giao dịch tiếp theo dựa trên cùng mô hình hồi quy thì các bạn có thể thêm các giá trị mới của các biến độc lập muốn dự báo lên trên cùng của sheet data, dòng đầu tiên phía dưới ngay các cột biến độc lập (cụ thể thêm giá trị ngay dòng 1), sau đó vào Analyze => linear => save => click “Unstandardized” tại phần Predicted values => click vào Mean, và Invidual tại Prediction interval => click continue thì sang sheet data bạn sẽ thấy 5 cột trong đó cột đầu tiên là giá trị dự báo của từng khách hàng kể cả khách hàng mới, các cột còn lại là kết quả ước lượng.
Các bạn hoàn toàn có thể thấy đó, từ quy mô hồi quy tuyến tính tất cả chúng ta hoàn toàn có thể dự báo được lệch giá của một shop kinh doanh bán lẻ dựa trên những tài liệu thanh toán giao dịch của người mua qua đó khẳng định chắc chắn quyền lợi của giải pháp trong kinh doanh nhỏ. Kết quả dự báo có đúng mực hay không thì ở bài viết tới chúng tôi sẽ trình diễn đến những bạn những chiêu thức nhìn nhận quy mô hồi quy đa biến .
Tuy nhiên phương trình bên trên vẫn còn vấn đề mà các bạn chưa tìm ra, cụ thể như thế nào thì bài viết sắp tới chúng ta sẽ tìm hiểu ở phần 2 bài viết ứng dụng linear regression trong bán lẻ.
Xem thêm: Bộ Kế hoạch Đầu tư Tiếng Anh là gì?
Xem thêm : Cách Tải Thiện Nữ Pc Với Giả Lập, Tải Và Chơi Thiện Nữ
Như vậy đến đây là hết bài viết phần 1 về ứng dụng của lienar regression trong kinh doanh bán lẻ, mong những bạn liên tục ủng hộ chúng tôi trong những bài viết sắp tới .
Về chúng tôi, công ty thanhchien3d.vn với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.
Source: http://wp.ftn61.com
Category: Hỏi Đáp
Để lại một bình luận