ჰიპოთეზის ტესტირება

პითონის გამოყენებით ჰიპოთეზის ტესტირების მარტივი და მოკლე გაკვეთილი

სურათი: http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

ამ ბლოგში, პითონში, სტატისტიკური მეთოდების გამოყენებით, ვასწავლი ჰიპოთეზის ტესტირების მოკლე გაკვეთილს. ჰიპოთეზის ტესტირება იმ სამეცნიერო მეთოდის ნაწილია, რომელსაც ჩვენ ყველამ ვიცნობთ, რაც ალბათ ადრეულ სასწავლო წლებში ვისწავლეთ. ამასთან, სტატისტიკაში, მრავალი ექსპერიმენტი კეთდება მოსახლეობის ნიმუშზე.

”იმის დადგენა, თუ რა მაგალითზე გვიყვება დაკვირვების ნიმუში, შემოთავაზებული ახსნის შესახებ, ზოგადად, მოითხოვს, რომ დავუშვათ დასკვნა, ან, როგორც ამას სტატისტიკოსები ვუწოდებთ, გაურკვევლობის მიზეზად. გაურკვევლობაში დასაბუთება სტატისტიკური დასკვნის საფუძველია და ჩვეულებრივ ხდება მეთოდის გამოყენებით, რომელსაც ეწოდება ნული ჰიპოთეზის მნიშვნელობის ტესტირება. ” -გამარჯობა.

ამ ბლოგის მაგალითს გამოვიყენებ Kaggle– ზე ნაპოვნი ევროპულ ფეხბურთის მონაცემთა ნაკრებზე და ჩავატარებ ჰიპოთეზის ტესტირებას. მონაცემთა ბაზის ნახვა აქ შეგიძლიათ.

Ნაბიჯი 1

გააკეთეთ დაკვირვება

პირველი ნაბიჯი არის მოვლენების დაკვირვება. ამ შემთხვევაში, ეს იქნება: არის თუ არა გავლენა თავდაცვის აგრესიაზე საშუალოდ დაშვებულ მიზნებზე?

ნაბიჯი 2

შეისწავლეთ კვლევა

კარგი აზროვნება, რომ ჭკვიანური საქმე არ არის რთული. ერთი კარგი რამ უნდა ნახოთ, არის თუ არა თქვენს დაკვირვებასთან დაკავშირებული კვლევები. თუ ასეა, ეს შეიძლება დაეხმაროს ჩვენს კითხვაზე პასუხის გაცემაში. უკვე არსებული კვლევების ან ექსპერიმენტების გაცნობიერება დაგვეხმარება უკეთესად ჩამოაყალიბოთ ჩვენი ექსპერიმენტი, ან იქნებ პასუხი გასცეს ჩვენს კითხვას და არ გვქონდეს პირველ რიგში ექსპერიმენტის ჩატარება.

ნაბიჯი 3

შექმენით ნულოვანი ჰიპოთეზა და ალტერნატიული ჰიპოთეზა

ალტერნატიული ჰიპოთეზა არის ჩვენი განათლებული გამოცნობა და ნულოვანი ჰიპოთეზა უბრალოდ საპირისპიროა. თუ ალტერნატიულ ჰიპოთეზაზეა ნათქვამი, რომ ორ ცვლადს შორის მნიშვნელოვანი კავშირი არსებობს, ნულოვანი ჰიპოთეზა აცხადებს, რომ არანაირი მნიშვნელოვანი ურთიერთობა არ არსებობს.

ჩვენი Null ჰიპოთეზა იქნება: არ არსებობს სტატისტიკური სხვაობა მიზნებში დაშვებულ გუნდებთან, რომლებსაც თავდაცვის აგრესიის ნიშანი აქვთ 65 წელზე მეტი ვიდრე ან ტოლი, 65 გუნდთან შედარებით.

ალტერნატიული ჰიპოთეზა: არსებობს სტატისტიკური სხვაობა მიზნებში დაშვებულ გუნდებთან, რომლებსაც აქვთ თავდაცვის აგრესიის ნიშანი 65-ზე მეტი ან ტოლი, ვიდრე 65 წლამდე გუნდები.

ნაბიჯი 4

დაადგინეთ, არის თუ არა ჩვენი ჰიპოთეზა ერთჯერადი ტესტი ან ორმხრივი ტესტი.

ერთჯერადი ტესტი

”თუ იყენებთ 0.05 მნიშვნელობის დონეს, ერთჯერადი ტესტის ჩატარება ყველა თქვენს ალფას საშუალებას აძლევს შეამოწმოთ სტატისტიკური მნიშვნელობა ინტერესის ერთი მიმართულებით.” ერთჯერადი ტესტის მაგალითი იქნება ”ფეხბურთის გუნდები, რომელთაც 65-ზე დაბალი აგრესიული ნიშანი აქვთ, სტატისტიკურად მნიშვნელოვნად მეტ გოლს ანიჭებენ, ვიდრე გუნდებს, რომელთაც 65-ით ნაკლები აქვთ.”

ორსართულიანი ტესტი

”თუ თქვენ იყენებთ 0.05 მნიშვნელოვნების დონეს, ორსართულიანი ტესტი საშუალებას აძლევს თქვენი ალფას ნახევარს შეამოწმოთ სტატისტიკური მნიშვნელობა ერთი მიმართულებით, ხოლო თქვენი ალფადან ნახევარი შეამოწმოთ სტატისტიკური მნიშვნელობა სხვა მიმართულებით. ეს ნიშნავს, რომ 0.025 არის თქვენი ტესტის სტატისტიკის განაწილების თითოეულ კუდში. ”

ორმხრივი ტესტით, თქვენ გასინჯავთ სტატისტიკურ მნიშვნელობას ორივე მიმართულებით. ჩვენს შემთხვევაში, ჩვენ ვამოწმებთ სტატისტიკურ მნიშვნელობას ორივე მიმართულებით.

ნაბიჯი 5

დააყენეთ ბარიერის მნიშვნელობის დონე (ალფა)

(ალფა ღირებულება): ზღვრული ზღვარი, რომლის დროსაც ჩვენ კარგად ვართ ნული ჰიპოთეზის უარყოფა. ალფა შეიძლება იყოს ნებისმიერი მნიშვნელობა, რომელსაც ჩვენ დავადგენთ 0 – დან და 1. – მდე. მეცნიერებაში ყველაზე გავრცელებული ალფა არის 0.05. ალფა 0.05 მითითებული ნიშნავს, რომ ჩვენ უარი ვიტყვით უარი ჰიპოთეზაზე, მიუხედავად იმისა, რომ არსებობს 5% ან ნაკლები შანსი, რომ შედეგები გამოწვეული იყოს შემთხვევითობის გამო.

P- მნიშვნელობა: ამ მონაცემებზე შემთხვევითი ჩამოსვლის გამოანგარიშებული ალბათობა.

თუ გამოვთვალეთ p- ის მნიშვნელობას და იგი გამოდის 0.03-ით, ჩვენ შეგვიძლია ინტერპრეტაცია გავუკეთოთ ამ სიტყვას: ”არსებობს 3% შანსი, რომ შედეგები, რასაც ვხედავ, რეალურად არის შემთხვევითობის ან სუფთა იღბლის გამო”

სურათი Learn.co- დან

ჩვენი მიზანია გამოთვალოთ p-ღირებულება და შევადაროთ იგი ჩვენს ალფას. რაც უფრო დაბალია ალფა, მით უფრო მკაცრია ტესტი.

ნაბიჯი 6

შეასრულეთ სინჯი

აქ გვაქვს ჩვენი მონაცემთა ბაზა, რომელსაც ფეხბურთი ჰქვია. ჩვენი ტესტისთვის მხოლოდ ორი სვეტი გვჭირდება ჩვენს მონაცემთა ნაკრებში: team_def_aggr_rating და მიზნები_ დაშვებული. ჩვენ გავფილტროთ მას ამ ორ სვეტზე, შემდეგ შევქმნით ორ ქვესადგურს გუნდებისთვის თავდაცვითი აგრესიის შეფასების 65-ზე მეტი ან ტოლი და გუნდებს თავდაცვითი აგრესიის რეიტინგი 65 წლამდე.

ჩვენი ჰიპოთეზის ტესტის დასადგენად:

თავდაცვის აგრესიის გავლენა საშუალოდ დაშვებულ მიზნებზე. ნულოვანი ჰიპოთეზა: არ არსებობს სტატისტიკური სხვაობა მიზნებში დაშვებულ გუნდებთან, რომლებსაც აქვთ თავდაცვის აგრესიის ნიშანი უფრო მეტი ვიდრე ტოლი 65 და 65 წლამდე ასაკის გუნდები. ვიდრე ან ტოლია 65-ზე ნაკლები გუნდების წინააღმდეგ. ორფეხა ტესტი ალფა: 0.05

ახლა ჩვენ გვაქვს ნიმუშების ორი სია, რომელთა საფუძველზეც შეგვიძლია ჩავატაროთ სტატისტიკური ტესტები. ამ ნაბიჯის დაწყებამდე, მე ვგეგმავ ორი ​​განაწილებას ვიზუალური მისაღებად.

ნაბიჯი 7

შეასრულეთ ორწლიანი ტესტის ტესტირება

ორსაფეხურიანი ტესტის ტესტს იყენებენ იმის დასადგენად, რამდენად თანაბარია ორი მოსახლეობის საშუალება. ამისათვის ჩვენ გამოვიყენებთ პითონის მოდულს, რომელსაც statsmodels ეწოდება. მე ზედმეტ დეტალებს არ გავითვალისწინებ statsmodels– ს შესახებ, მაგრამ აქ ნახავთ დოკუმენტაციას.

ნაბიჯი 8

შეაფასეთ და დაასკვნეთ

შეგახსენებთ, რომ ჩვენს მიერ დაყენებული ალფა იყო = 0.05. როგორც ჩვენი ტესტის შედეგიდან ვხედავთ, რომ p- ის ღირებულება ნაკლებია ვიდრე ჩვენი ალფა. ჩვენ შეგვიძლია უარყოთ ჩვენი ნულოვანი ჰიპოთეზა და 95% ნდობით მივიღოთ ჩვენი ალტერნატიული ჰიპოთეზა.

გმადლობთ კითხვისთვის! ჰიპოთეზის ტესტირების შესახებ უფრო სიღრმისეულისთვის შეგიძლიათ ნახოთ ეს ჯგუფური პროექტი GitHub- ში, რომელშიც მე ვიყავი ჩართული ჰიპოთეზის ტესტირებაში.

რესურსები:

ღუმელები, მათე. ”სტატისტიკა და” სამეცნიერო მეთოდი ”ამოღებულია YourStatsGuru– დან. https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

შესავალი SAS. UCLA: სტატისტიკური საკონსულტაციო ჯგუფი. https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-between-one-tailed-and-two-tailed-tests/ (შემოწმებულია მაისი 16, 2019).

საინჟინრო სტატისტიკის სახელმძღვანელო. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm