Các khái niệm cơ bản
Trong thống kê, mọi phỏng đoán liên quan đến phân phối chưa biết F của một biến ngẫu nhiên X được gọi là giả thiết thống kê. Ở một giả thiết cụ thể, nếu mục đích của tiêu chuẩn thống kê là xác minh xem liệu giả thiết này có sai hay không mà không tiến hành điều tra các giả thiết khác, thì tiêu chuẩn như vậy được gọi là tiêu chuẩn ý nghĩa. Một giả thiết thống kê chỉ đề cập đến giá trị số của các tham số chưa biết của một phân bố được gọi là giả thiết tham số. Phương pháp để xác minh giả thiết thống kê được gọi là kiểm định thống kê. Kiểm định của các giả thiết tham số được gọi là kiểm định tham số. Cũng có thể có các giả thiết không tham số và các kiểm định không tham số.
Như vậy, giả thiết duy nhất cần được chỉ rõ trong kiểm định này và bộc lộ sự kiện chống lại được gọi là giả thiết null. Một hiệu quả được cho là có ý nghĩa thống kê nếu nó được cho phép bác bỏ giả thiết null ( “ null ” có tương quan tới động từ “ nullify-bác bỏ ” ). Theo lập luận bác bỏ một luận đề ( reductio ad adsurdum reasoning ), tác dụng có ý nghĩa thống kê sẽ rất khó khả thi nếu giả thiết null được cho là đúng. Việc bác bỏ giả thiết null ý niệm rằng, giả thiết chuẩn xác ( đối thiết – alternative hypothesis ) nằm trong phần bổ trợ logic của giả thiết null. Tuy nhiên, việc bác bỏ giả thiết null không cho biết cái nào trong số những đối thiết sẽ là đúng, trừ khi có một đối thiết đơn cho giả thiết null .Ví dụ, nếu một giả thiết null nói rằng, một thống kê giản lược nào đó tuân theo phân bổ chuẩn N ( 0,1 ) thì việc bác bỏ giả thiết null này hoàn toàn có thể có nghĩa là ( i ) giá trị trung bình không bằng 0, hoặc ( ii ) phương sai không phải là 1 hoặc ( iii ) phân bổ không là chuẩn tắc và nhờ vào vào loại kiểu của kiểm định được triển khai. Tuy nhiên, trong trường hợp cùng đạt được bác bỏ giả thiết trung bình bằng 0 và biết được phân bổ là chuẩn tắc, phương sai bằng 1 thì phép kiểm định giả thiết null cũng không cho biết giá trị khác 0 nào mà chỉ hoàn toàn có thể đồng ý nó là trung bình chuẩn xác .p-giá trị được sử dụng trong toàn cảnh kiểm định giả thiết null để định lượng khái niệm về ý nghĩa thống kê của vật chứng. Kiểm định giả thiết null là lập luận bác bỏ một luận đề được thích nghi cho khoa học thống kê. Về thực chất, một chứng minh và khẳng định được coi là hợp lệ nếu chứng minh và khẳng định trái chiều của nó không hề triển khai được .Nếu X là một biến ngẫu nhiên trình diễn tài liệu được quan sát và H là giả thiết thống kê đang được xem xét, thì khái niệm về ý nghĩa thống kê hoàn toàn có thể được định lượng một cách đơn thuần bởi Phần Trăm có điều kiện kèm theo Pr ( X | H ), đưa ra năng lực của một sự kiện quan sát nhất định X nếu giả thiết H được cho là đúng. Tuy nhiên, nếu X là một biến ngẫu nhiên liên tục, Phần Trăm quan sát được một trường hợp đơn cử của x là bằng 0. Nghĩa là, Pr ( X = x | H ) = 0. Do đó, định nghĩa đơn thuần này là không đủ và cần phải đổi khác để tương thích với những biến ngẫu nhiên liên tục .Điều này giúp làm rõ rằng những p-giá trị không nên bị nhầm lẫn với Tỷ Lệ về giả thiết ( như được triển khai trong kiểm định giả thiết Bayes ) ví dụ điển hình như : Pr ( H | X ) – Phần Trăm của giả thiết khi tài liệu đã được cho, hoặc Pr ( H ) – Phần Trăm của giả thiết là đúng, hoặc Pr ( X ) – Phần Trăm của việc quan sát được tài liệu đã cho .
Định nghĩa p-giá trị
p-giá trị được định nghĩa là Xác Suất, dưới giả thiết null H ( nhiều lúc được ký hiệu là H0 trái ngược với Habiểu thị giả thiết thay thế sửa chữa ( alternative ), null còn có nghĩa là “ 0 ” ) về phân phối chưa biết F của biến ngẫu nhiên X, cho biến được quan sát như thể một giá trị bằng hoặc thái cực ( extreme ) hơn giá trị quan sát được ( hoàn toàn có thể là “ lớn hơn ” hay “ nhỏ hơn ” ). Nếu x là giá trị quan sát được, thì tùy thuộc vào cách mà tất cả chúng ta diễn giải nó. Quan điểm bằng hoặc thái cực hơn so với cái mà trong thực tiễn đã quan sát được hoàn toàn có thể ý niệm rằng { X ≥ x } ( sự kiện đuôi bên phải ), { X ≤ x } ( sự kiện đuôi bên trái ) hoặc sự kiện đưa ra Phần Trăm nhỏ nhất trong số { X ≤ x } và { X ≥ x } ( sự kiện có hai đuôi ) .Tức là, p-giá trị được cho bởi 3 giá trị : Pr ( X ≥ x | H ) cho sự kiện đuôi bên phải ; Pr ( X ≤ x | H ) cho sự kiện đuôi bên trái và 2.min { Pr ( X ≤ x | H ), Pr ( X ≥ x | H ) } cho sự kiện có hai đuôi .Có một vài cách trình diễn p-giá trị như : p-value theo Thương Hội Thống kê Hoa Kỳ ; P value theo Thương Hội Y học Hoa Kỳ còn theo Thương Hội Tâm lý Hoa Kỳ thì nó được ký hiệu là p value .
Hình 1. Ví dụ của việc tính p-giá trịHình 1 diễn đạt một ví dụ về việc tính p-giá trị. Trong đó, trục tung là tỷ lệ Xác Suất của mỗi hiệu quả, được tính dưới giả thiết null. p-giá trị là diện tích quy hoạnh được số lượng giới hạn bởi đường thẳng đứng đi qua điểm quan sát được và phía dưới đường tỷ lệ Xác Suất. Đó là Tỷ Lệ của tác dụng quan sát được ( hoặc thái cực hơn ) với giả thiết rằng giả thiết null đúng .p-giá trị càng nhỏ thì ý nghĩa càng cao bởi, nó giúp người tìm hiểu nhận ra, giả thiết đang được xem xét hoàn toàn có thể không lý giải thỏa đáng quan sát. Giả thiết null H bị bác bỏ nếu một trong ba Phần Trăm trên nhỏ hơn hoặc bằng một giá trị ngưỡng nhỏ, cố định và thắt chặt nhưng được xác lập trước một cách tùy ý α, được gọi là mức ý nghĩa. Không giống như p-giá trị, mức α không xuất phát từ bất kỳ dữ liệu quan sát nào và không nhờ vào vào giả thiết nằm ở cơ sở. Thay vào đó, giá trị của α được đặt ra bởi nhà nghiên cứu trước khi kiểm tra tài liệu, nêngiá trị của αlà tùy ý. Theo quy ước, α thường được đặt bằng 0,05 ; 0,01 ; 0,005 hoặc 0,001 .Vì giá trị của x xác lập sự kiện đuôi bên trái hoặc đuôi bên phải là một biến ngẫu nhiên, nên p-giá trị trở thành một hàm của x và nó là một biến ngẫu nhiên. Dưới giả thiết null, p-giá trị được xác lập đều trên khoảng chừng < 0, 1 >, giả sử rằng x là liên tục. Do đó, p-giá trị không cố định và thắt chặt .Ví dụ, một thí nghiệm được thực thi để xác lập xem tác dụng của việc tung đồng xu có cân đối hay không ( thời cơ bằng nhau của việc hạ cánh sấp ( tails ) hay ngửa ( heads ) hoặc có lệch không cân đối ( một hiệu quả có nhiều năng lực hơn so với hiệu quả khác ) .Giả sử, những tác dụng thí nghiệm cho thấy đồng xu quay mặt ngửa lên trên 14 lần trong tổng số 20 lần tung. Giả thiết null là đồng xu là cân đối và thống kê kiểm định là số lần rơi mặt ngửa. Nếu kiểm định đuôi bên phải được xem xét, p-giá trị của hiệu quả này là thời cơ để một đồng xu cân đối rơi trên mặt ngửa tối thiểu 14 lần trong số 20 lần tung. Xác suất đó hoàn toàn có thể được tính từ những thông số nhị thức là :
Xác suất này là p-giá trị, chỉ xem xét những tác dụng cực đoan mà có lợi cho mặt ngửa. Đây được gọi là thí nghiệm một đuôi ( bên phải ). Tuy nhiên, thiên lệch hoàn toàn có thể theo một trong hai hướng, thiên về những mặt ngửa hoặc những mặt sấp. Thay vào đó hoàn toàn có thể tính p-giá trị hai phía, xem xét thiên lệch nghiêng về những mặt ngửa hoặc những mặt sấp. Vì phân phối nhị thức là đối xứng cho một đồng xu tiền cân đối, p-giá trị hai phía chỉ đơn thuần là gấp đôi p-giá trị một phía đã tính được tính, cho tác dụng p-giá trị 0,116 .Phân tích đơn cử ví dụ trên, ta có :- Giả thiết null ( H0 ) : đồng xu tiền là cân đối với Pr ( rơi với mặt ngửa ) = 0,5 .- Thống kê kiểm định : Số lần rơi với mặt ngửa .- Mức : 0,05 .- Quan sátO : 14 lần mặt ngửa trong số 20 lần tung .
– p-giá trị hai phía của quan sát O khi có H0 = 2.min{Pr(số mặt ngửa ≥14), Pr (số mặt ngửa ≤14)} = 2.min{0,058, 0,978} = 0,116.
Lưu ý, Pr ( số mặt ngửa ≤ 14 đầu ) = 1 – Pr ( số mặt ngửa ≥ 14 ) + Pr ( số mặt ngửa = 14 ) = 1 – 0,058 + 0,036 = 0,978. Tuy nhiên, tính đối xứng của phân bổ nhị thức nên phải tính để thực thi tìm Tỷ Lệ nhỏ hơn trong hai Xác Suất. Ở đây, p-giá trị được tính vượt quá 0,05, có nghĩa là tài liệu nằm trong khoanh vùng phạm vi của những gì sẽ xảy ra 95 % số lần nếu đồng xu tiền trong trong thực tiễn cân đối. Do đó, giả thiết null không bị bác bỏ ở mức 0,05 .Xem thêm : Học Hỏi Cách Xếp Đồ Vào Vali Đi Du Học Bạn Cần Biết, Hướng Dẫn Sắp Xếp Hành Lý Khi Đi Du Học
Tuy nhiên, nếu có thêm một mặt ngửa nữa, p-giá trị kết quả (hai phía) sẽ là 0,0414 (4,14%). Trong trường hợp đó, giả thiết null sẽ bị từ chối ở mức 0,05.
Xem thêm: Bài 34: Kính thiên văn
Lịch sử ra đời
Việc giám sát những p-giá trị có từ những năm 1700. Khiđó, chúng được ứng dụng cho bài toántỷ lệ giới tính con người khi sinh vàý nghĩa thống kê so với giả thiết null về Phần Trăm sinh con trai và gái bằng nhau. Năm 1710, John Arbuthnot – người điều tra và nghiên cứu câu hỏi nàyđãkiểm tra hồ sơ sinh tạiLondon trong 82 năm ( từ 1629 đến 1710 ). Mỗi năm, số phái mạnh sinh ra ở London đều vượt quá số nữ. Khi xem số lần sinh con trai nhiều hơn hay số lần sinh con gái nhiều hơn có năng lực như nhau, thì Xác Suất của hiệu quả quan sát được là 0,582, hoặc khoảng chừng 1 trong 4.836.000.000.000.000.000.000.000 trường hợp. Trong thuật ngữ tân tiến, đó chínhlà p-giá trị. Giá trị này nhỏ đến đáng kinh ngạc, khiến Arbuthnot đi đến kết luậnrằng, đây là điều không hề đo lường và thống kê được mà do tự nhiên. Theo thuật ngữ văn minh, ông bác bỏ giả thiết null về năng lực sinh con trai và con gái có năng lực như nhau ở mức ý nghĩa p = 1/282 .
Hình 4. Karl PearsonViệc sử dụng p-giá trị trong thống kê đã được phổ cập bởi Ronald Fisher và nó đóng vai trò TT trong cách tiếp cận củaông so với chủ đề này. Trong cuốn sách có tác động ảnh hưởng lớn Statistical methods for research workers ( 1925 ), Fisher đã yêu cầu mức p = 0,05 hoặc năng lực vượt quá 1 trong 20, do vô tình, như thể một số lượng giới hạn cho ý nghĩa thống kê và vận dụng điều này cho phân bổ chuẩn tắc ( như một kiểm định hai phía ) .Sau đó, ông đã giám sát một bảng những giá trịtương tự như Elderto. Tuy nhiên, ôngđảo ngược vai trò của χ2 và p. Nghĩa là, thay vì tính p cho những giá trị khác nhau của χ2 ( và bậc tự do n ), ông đã tính những giá trị của χ2 mà mang lại những p-giá trị được chỉ định, đơn cử : 0,99 ; 0,98 ; 0,95 ; 0,90 ; 0,80 ; 0,70 ; 0,50 ; 0,30 ; 0,20 ; 0,10 ; 0,05 ; 0,02 và 0,01. Điều đó được cho phép so sánh những giá trị tính được của χ2 so với ngưỡng và khuyến khích sử dụng những p-giá trị ( đặc biệt quan trọng là 0,05 ; 0,02 và 0,01 ) làm điểm cắt .
Hình 5. Ronald FisherNhư một minh họa về việc vận dụng những p-giá trị vào mục tiêu và lý giải những thí nghiệm, trong cuốn sách The Design of Experiment ( 1935 ), Fisher đã trình diễn thí nghiệm nếm trà của một phụ nữ tên là Muriel Bristol. Đâylà ví dụ nổi bật của p-giá trị. Để nhìn nhận công bố, Muriel Bristol hoàn toàn có thể phân biệt cách pha trà bằng cách nếm ( cho sữa vào cốc trước, rồi sau đó mới cho trà, hoặc ngược lại ). Muriel Bristol được đưa cho 8 cốc trà pha theo hai cách trên với tỉ lệ như nhau và được nhu yếu xác lập cách pha trà mỗi cốc. Trong trường hợp giả thiết null là cô ấy không có năng lực đặc biệt quan trọng, kiểm định là kiểm định đúng chuẩn của Fisher và p-giá trị là :
Fisher chuẩn bị sẵn sàng khước từ giả thiết null ( xem xét hiệu quả rất khó xảy ra do vô tình ) nếu tổng thể những cốc được phân loại một cách đúng mực. Trong thí nghiệm trong thực tiễn, Bristol đã phân loại đúng mực tổng thể 8 cốc .Fisher nhắc lại ngưỡng p = 0,05 và lý giải tính hài hòa và hợp lý rằng, thường thì, để thuận tiện, những nhà thí nghiệm lấy 5 % làm mức ý nghĩa tiêu chuẩn, theo đó, họ sẵn sàng chuẩn bị bỏ lỡ toàn bộ những tác dụng mà không đạt được tiêu chuẩn này. Bằng cách này, họ loại khỏi cuộc tranh luận tiếp theo hầu hết hơn của những dịch chuyển mà những nguyên do vô tình đã đưa vào những tác dụng thí nghiệm .
Phân bố và cách tính
Khi giả thiết null là đúng, nếu nó có dạng H0 : ϴ = ϴ0 ( kiểm định tham số ) và biến ngẫu nhiên nằm ở cơ sở là liên tục, thì phân phối Tỷ Lệ của p-giá trị là đều trên khoảng chừng < 0,1 >. trái lại, nếu giả thiết thay thế sửa chữa ( đối thiết ) là đúng, phân bổ nhờ vào vào size mẫu và giá trị thực của tham số đang được điều tra và nghiên cứu < 4,5 > .Thông thường, X là một thống kê kiểm định, thay vì bất kỳ quan sát nào trong số những quan sát thực tiễn. Thống kê kiểm định là đầu ra của một hàm vô hướng của tổng thể những quan sát. Thống kê này phân phối một số ít duy nhất, ví dụ điển hình như trung bình hoặc thông số đối sánh tương quan, tóm tắt những đặc thù của tài liệu theo cách có tương quan đến một cuộc tìm hiểu đơn cử. Như vậy, thống kê kiểm định tuân theo một phân bổ được xác lập bởi hàm, được sử dụng để xác lập số lượng thống kê của kiểm định đó và phân bổ của tài liệu quan sát nguồn vào .Đối với trường hợp quan trọng trong đó tài liệu được giả định tuân theo phân bổ chuẩn tắc, tùy thuộc vào thực chất của thống kê kiểm định mà giả thiết cơ sở của thống kê kiểm định, những cách kiểm định giả thiết null khác nhau đã được tăng trưởng. Một số bài kiểm định như vậy là z-kiểm định cho phân bổ chuẩn tắc, t-kiểm định cho t-phân bố của Student, f-kiểm định cho f-phân bố. Khi tài liệu không tuân theo phân bổ chuẩn tắc, vẫn hoàn toàn có thể xê dịch phân bổ của những thống kê kiểm định này qua phân bổ chuẩn tắc bằng cách gọi định lý số lượng giới hạn TT cho những mẫu lớn, như trong trường hợp kiểm định chi-bình phương của Pearson .Việc thống kê giám sát p-giá trị yên cầu một giả thiết null, thống kê kiểm định ( cùng với việc quyết định liệu nhà nghiên cứu đang thực thi kiểm định một phía hay hai phía ) và tài liệu. Mặc dù điều này hoàn toàn có thể thuận tiện nhưng việc tính phân bổ lấy mẫu theo giả thiết null và sau đó việc tính hàm phân bổ tích góp thường là một yếu tố khó khăn vất vả. Ngày nay, việc đo lường và thống kê này được triển khai bằng ứng dụng thống kê trải qua những chiêu thức tính số ( chứ không phải là công thức đúng mực ). Thực tế, vào nửa đầuthế kỷ XX, điều này đã được thực thi trải qua những bảng giá trị và người ta đã ngoại suy hoặc nội suy ra những p-giá trị từ những giá trị rời rạc này. Thay vì sử dụng một bảng của những p-giá trị, Fisher đã tính ngược những hàm phân bổ tích góp, công bố một list những giá trị của thống kê kiểm định cho những p-giá trị cố định và thắt chặt cho trước. Điều này tương ứng với việc tính hàm phân vị ( hàm phân bổ tích góp nghịch đảo với những khoảng chừng chia bằng nhau ) .
Sử dụng
p-giá trị được sử dụng thoáng rộng trong kiểm định giả thiết thống kê, đặc biệt quan trọng trong kiểm định ý nghĩa của giả thiết null. Trong giải pháp này, nó là một phần của mục tiêu thí nghiệm. Trước khi thực thi thí nghiệm, người ta chọn một quy mô ( giả thiết null ) và giá trị ngưỡng cho p, được gọi là mức ý nghĩa của kiểm định, theo truyền thống lịch sử là 5 % hoặc 1 % và được ký hiệu là α. Nếu p-giá trị nhỏ hơn mức ý nghĩa đã chọn ( α ), điều đó cho thấy, tài liệu được quan sát không tương thích một cách thích đáng với giả thiết null và giả thiết null hoàn toàn có thể bị bác bỏ. Tuy nhiên, trong trường hợp ngược lại, điều đó không chứng tỏ rằng giả thiết được kiểm định là đúng. Khi p-giá trị được đo lường và thống kê đúng mực, kiểm định này bảo vệ rằng tỷ suất lỗi loại I nhiều nhất là α. Đối với nghiên cứu và phân tích nổi bật, sử dụng ngưỡng cắt α = 0,05 tiêu chuẩn, giả thiết null bị khước từ khi p 0,05. Bản thânp-giá trị tự nó không hỗ trợ lý luận về những Tỷ Lệ của những giả thiết mà chỉ là một công cụ để quyết định hành động có phủ nhận giả thiết null hay không .
Một số sai lầm thường gặp
Sử dụng sai những p-giá trị hoặc lý giải sai về p-giá trị khá phổ cập trong nghiên cứu và điều tra khoa học và giảng dạy khoa học .Từ cách tiếp cận kiểm định giả thiết Neyman-Pearson cho những suy luận thống kê, tài liệu thu được bằng cách so sánh p-giá trị với mức ý nghĩa sẽ mang lại một trong hai tác dụng : giả thiết null bị khước từ ( tuy nhiên không chứng tỏ rằng giả thiết null là sai ) hoặc giả thiết null không hề bị bác bỏ ở mức ý nghĩa đó ( tuy nhiên điều đó không chứng tỏ rằng giả thiết null là đúng ) .Từ cách tiếp cận kiểm định thống kê của Fisher cho những suy luận thống kê, một p-giá trị thấp có nghĩa là : giả thiết null là đúng và một sự kiện rất khó có năng lực đã xảy ra hoặc giả thiết null là sai .Một trong thực tiễn đã bị chỉ trích kinh hoàng là gật đầu giả thiết thay thế sửa chữa cho bất kể p-giá trị nào dưới 0,05 mà không có dẫn chứng tương hỗ khác. Mặc dù p-giá trị rất có ích trong việc nhìn nhận mức độ không thích hợp của tài liệu với một quy mô thống kê đơn cử, những yếu tố theo ngữ cảnh cũng phải được xem xét, ví dụ điển hình như : mục tiêu điều tra và nghiên cứu, chất lượng của những phép đo, dẫn chứng bên ngoài cho hiện tượng kỳ lạ đang điều tra và nghiên cứu và tính hợp lệ của những giả định làm cơ sở cho nghiên cứu và phân tích tài liệu .p-giá trị không phải là Xác Suất mà giả thiết null là đúng hoặc Xác Suất mà giả thiết sửa chữa thay thế là sai. p-giá trị hoàn toàn có thể chỉ ra mức độ thích hợp giữa tập dữ liệu và một lý giải giả thiết đơn cử ( ví dụ điển hình như giả thiết null ). Cụ thể, p-giá trị hoàn toàn có thể được coi là Xác Suất tiên nghiệm để tối thiểu cũng có được tác dụng tối thiểu là lớn nhất hay bé nhấtnhư hiệu quả quan sát được, cho rằng giả thiết null là đúng. Không nên nhầm lẫn nó với Tỷ Lệ hậu nghiệm rằng giả thiết null là đúng khi đã cho hiệu quả quan sát được. Điều này được bộc lộ bằng công thức như sau :Pr ( quan sát | giả thiết ) # Pr ( giả thiết | quan sát )
Xác suất của việc quan sát thấy một kết quả khi biết rằng một giả thiết nào đó là đúng không tương đương với xác suất rằng giả thiết đó là đúng khi biết rằng kết quả đã nói trên được quan sát thấy. Trong trường hợp này, việc sử dụng p-giá trị như một “điểm số” cho giả thiết là phạm một lỗi logic nghiêm trọng khi nhầm lẫn khái niệm và vị trí giữa “giả thiết” và “quan sát”.
p-giá trị không phải là Phần Trăm mà những tác dụng quan sát được tạo ra chỉ bởi thời cơ ngẫu nhiên. p-giá trị được tính dưới giả định rằng một quy mô nhất định ( thường là giả thiết null ) là đúng. Điều này có nghĩa là p-giá trị là một công bố về mối quan hệ của tài liệu với giả thiết đó .Mức ý nghĩa 0,05 ( mức α ) chỉ là một quy ước, thường được sử dụng làm ranh giới giữa một p-giá trị có ý nghĩa thống kê và một p-giá trị không có ý nghĩa thống kê. Tuy nhiên, điều này không có nghĩa rằng có một nguyên do khoa họcđể xem xét hiệu quả ở những phía trái chiều của bất kể ngưỡng nào ( khác với 0,05 ) là khác nhau về chất .p-giá trị không cho biết size hoặc tầm quan trọng của hiệu quả quan sát được. Một p-giá trị nhỏ hoàn toàn có thể được quan sát cho một hiệu quả trọn vẹn không có ý nghĩa hoặc có giá trị quan trọng. Trong thực tiễn, nếu cỡ mẫu càng lớn thìkết quả tối thiểu thiết yếu để tạo ra p-giá trị có ý nghĩa thống kê càng nhỏ .
Source: http://wp.ftn61.com
Category: Thủ Thuật
Để lại một bình luận