Huvud » mäklare » T-test

T-test

mäklare : T-test
Vad är ett T-test?

Ett t-test är en typ av inferensiell statistik som används för att bestämma om det finns en signifikant skillnad mellan medel för två grupper, som kan vara relaterade i vissa funktioner. Det används mest när datauppsättningarna, liksom den datauppsättning som registrerades som resultatet av att ett mynt vändes 100 gånger, skulle följa en normal distribution och kan ha okända avvikelser. Ett t-test används som ett test för verktyg för hypoteser, vilket gör det möjligt att testa ett antagande som är tillämpligt på en population.

Ett t-test tittar på t-statistiken, t-fördelningsvärdena och graden av frihet att bestämma sannolikheten för skillnad mellan två uppsättningar av data. För att genomföra ett test med tre eller flera variabler måste man använda en variansanalys.

01:38

T-test

Förklarar T-testet

I huvudsak tillåter ett t-test oss att jämföra medelvärdena för de två datamängderna och bestämma om de kommer från samma population. I ovanstående exempel, om vi skulle ta ett urval av elever från klass A och ett annat prov av elever från klass B, skulle vi inte förvänta oss att de skulle ha exakt samma medelvärde och standardavvikelse. På liknande sätt bör prover tagna från den placebo-matade kontrollgruppen och de som tagits från den läkemedelsföreskrivna gruppen ha något annorlunda medelvärde och standardavvikelse.

Matematiskt tar t-testet ett prov från var och en av de två uppsättningarna och fastställer problemuppgiften genom att anta en nollhypotes att de två medlen är lika. Baserat på tillämpliga formler, beräknas och jämförs vissa värden mot standardvärdena och den antagna nollhypotesen accepteras eller avvisas i enlighet därmed.

Om nollhypotesen kvalificerar sig att avvisas, indikerar det att datavläsningarna är starka och inte är av en slump. T-testet är bara ett av många tester som används för detta ändamål. Statistiker måste dessutom använda andra tester än t-testet för att undersöka fler variabler och tester med större provstorlekar. För en stor provstorlek använder statistiker ett z-test. Andra testalternativ inkluderar chi-square-testet och f-testet.

Det finns tre typer av t-test, och de kategoriseras som beroende och oberoende t-test.

Key Takeaways

  • Ett t-test är en typ av inferensiell statistik som används för att bestämma om det finns en signifikant skillnad mellan medel för två grupper, som kan vara relaterade i vissa funktioner.
  • T-testet är ett av många tester som används i syfte att testa hypoteser i statistik.
  • För att beräkna ett t-test krävs tre viktiga datavärden. De inkluderar skillnaden mellan medelvärdena från varje datamängd (kallad medelskillnaden), standardavvikelsen för varje grupp och antalet datavärden för varje grupp.
  • Det finns flera olika typer av t-test som kan utföras beroende på data och typ av analys som krävs.

Tvetydiga testresultat

Tänk på att en läkemedeltillverkare vill testa en nyuppfunnen medicin. Det följer standardförfarandet för att testa läkemedlet på en grupp patienter och ge placebo till en annan grupp, kallad kontrollgruppen. Placebo som ges till kontrollgruppen är ett ämne med inget avsett terapeutiskt värde och fungerar som ett riktmärke för att mäta hur den andra gruppen, som ges det verkliga läkemedlet, svarar.

Efter läkemedelsförsöket rapporterade medlemmarna i den placebo-matade kontrollgruppen en ökning av den genomsnittliga livslängden på tre år, medan medlemmarna i gruppen som har ordinerats det nya läkemedlet rapporterar en ökning av den genomsnittliga livslängden på fyra år. Omedelbar observation kan indikera att läkemedlet verkligen fungerar eftersom resultaten är bättre för gruppen som använder läkemedlet. Det är emellertid också möjligt att observationen kan bero på en tillfällig händelse, särskilt en överraskande lycka. Ett t-test är användbart för att dra slutsatsen om resultaten verkligen är korrekta och tillämpliga på hela befolkningen.

I en skola fick 100 elever i klass A i genomsnitt 85% med en standardavvikelse på 3%. Ytterligare 100 elever som tillhör klass B fick i genomsnitt 87% med en standardavvikelse på 4%. Medan medelvärdet för klass B är bättre än klass A är det kanske inte korrekt att hoppa till slutsatsen att elevernas totala prestanda är bättre än eleverna i klass A. Detta beror på, tillsammans med medelavvikelsen för klass B är också högre än den för klass A. Det indikerar att deras extrema procenttal på lägre och högre sidor var mycket mer utspridda jämfört med klass A. Ett t-test kan hjälpa till att bestämma vilken klass lyckades bättre.

T-test antaganden

  1. Det första antagandet som gjorts beträffande t-tester gäller mätvärden. Antagandet för ett t-test är att måttskalan som tillämpas på de insamlade uppgifterna följer en kontinuerlig eller ordinär skala, såsom poängen för ett IQ-test.
  2. Det andra antagandet är att för ett enkelt slumpmässigt urval, att uppgifterna samlas in från en representativ, slumpmässigt vald del av den totala populationen.
  3. Det tredje antagandet är att uppgifterna, när de planeras, resulterar i en normalfördelning, klockformad distributionskurva.
  4. Det fjärde antagandet är en ganska stor provstorlek används. Större provstorlek betyder att fördelningen av resultaten bör närma sig en normal klockformad kurva.
  5. Det sista antagandet är variansens homogenitet. Homogen eller lika varians existerar när standardavvikelserna för proverna är ungefär lika.

Beräkning av T-test

För att beräkna ett t-test krävs tre viktiga datavärden. De inkluderar skillnaden mellan medelvärdena från varje datamängd (kallad medelskillnaden), standardavvikelsen för varje grupp och antalet datavärden för varje grupp.

Resultatet av t-testet ger t-värdet. Detta beräknade t-värde jämförs sedan med ett värde erhållet från en kritisk värdetabell (kallad T-distributionstabellen). Denna jämförelse hjälper till att bestämma hur troligt skillnaden mellan medlen inträffade av en slump eller om datamängderna verkligen har inneboende skillnader. T-testet ifrågasätter om skillnaden mellan grupperna representerar en verklig skillnad i studien eller om det troligtvis är en meningslös statistisk skillnad.

T-distributionstabeller

T-distributionstabellen finns i formatet med en svans och två halar. Den förstnämnda används för att bedöma fall som har ett fast värde eller intervall med en tydlig riktning (positiv eller negativ). Till exempel, vad är sannolikheten för att utgångsvärdet förblir under -3 eller blir mer än sju när du rullar ett par tärningar? Den senare används för intervallbunden analys, till exempel för att fråga om koordinaterna faller mellan -2 och +2.

Beräkningarna kan utföras med standardprogram som stöder nödvändiga statistiska funktioner, som de som finns i MS Excel.

T-värden och frihetsgrader

T-testet ger två värden som utgång: t-värde och frihetsgrader. T-värdet är ett förhållande mellan skillnaden mellan medelvärdet av de två provuppsättningarna och skillnaden som finns inom provuppsättningarna. Medan räknarvärdet (skillnaden mellan medelvärdet för de två samplingsuppsättningarna) är enkel att beräkna, kan nämnaren (skillnaden som finns inom provuppsättningarna) bli lite komplicerad beroende på vilken typ av datavärden som är involverade. Nämnaren för förhållandet är en mätning av spridningen eller variationen. Högre värden på t-värdet, även kallad t-poäng, indikerar att det finns en stor skillnad mellan de två provuppsättningarna. Ju mindre t-värdet, desto mer likhet finns mellan de två provuppsättningarna.

  • En stor t-poäng indikerar att grupperna är olika.
  • En liten t-poäng indikerar att grupperna är lika.

Grader av frihet hänvisar till värdena i en studie som har friheten att variera och är avgörande för att bedöma vikten och giltigheten av nollhypotesen. Beräkningen av dessa värden beror vanligtvis på antalet dataposter som finns tillgängliga i provuppsättningen.

Korrelerat (eller parat) T-test

Det korrelerade t-testet utförs när proverna vanligtvis består av matchade par av liknande enheter, eller när det finns fall av upprepade åtgärder. Till exempel kan det finnas fall av samma patienter som testas upprepade gånger - före och efter att ha fått en viss behandling. I sådana fall används varje patient som ett kontrollprov mot sig själva.

Denna metod gäller också för fall där proverna är relaterade på något sätt eller har matchande egenskaper, som en jämförande analys som involverar barn, föräldrar eller syskon. Korrelerade eller parade t-tester är av en beroende typ, eftersom dessa involverar fall där de två uppsättningarna prov är relaterade.

Formeln för beräkning av t-värdet och frihetsgraderna för ett parat t-test är:

  • Medel1 och medelvärde2 är medelvärdena för var och en av provuppsättningarna, medan var1 och var2 representerar variansen för var och en av provuppsättningarna.

De återstående två typerna hör till de oberoende t-testerna. Proverna av dessa typer väljs oberoende av varandra - det vill säga datauppsättningarna i de två grupperna hänvisar inte till samma värden. De inkluderar fall som en grupp på 100 patienter som delas upp i två uppsättningar med 50 patienter vardera. En av grupperna blir kontrollgruppen och ges placebo, medan den andra gruppen får den föreskrivna behandlingen. Detta utgör två oberoende provgrupper som är oparade med varandra.

Lika variant (eller poolad) T-test

T-testet med lika varians används om antalet sampel i varje grupp är lika, eller variansen för de två datasätten är lik. Följande formel används för att beräkna t-värde och frihetsgrader för lika varians t-test:

T-värde = medelvärde1 − medel2 (n1−1) × var12 + (n2−1) × var22n1 + n2−2 × 1n1 + 1n2 där: medelvärde1 och medelvärde2 = Medelvärden för var och en av provets setvar1 och var2 = Variation för var och en av sample setsn1 och n2 = Antal poster i varje provuppsättning \ börja {inriktad} & \ text {T-värde} = \ frac {medel1 - medel2} {\ sqrt {\ frac {(n1 - 1) \ gånger var1 ^ 2 + (n2 - 1) \ gånger var2 ^ 2} {n1 + n2 - 2}} \ gånger \ sqrt {\ frac {1} {n1} + \ frac {1} {n2}}} \\ & \ textbf { där:} \\ & mean1 \ text {och} mean2 = \ text {Genomsnittsvärden för varje} \\ & \ text {i provuppsättningarna} \\ & var1 \ text {och} var2 = \ text {Varians för var och en av provuppsättningar} \\ & n1 \ text {och} n2 = \ text {Antal poster i varje provuppsättning} \\ \ end {inriktad} T-värde = n1 + n2−2 (n1−1) × var12 + (n2 −1) × var22 × n11 + n21 medel1 − medel2 där: medelvärde1 och medelvärde2 = Genomsnittsvärden för vart och ett av provsatsvar1 och var2 = Variation för vart och ett av provetsetsn1 och n2 = Antal poster i varje prov uppsättning

och,

Degrees of Freedom = n1 + n2−2where: n1 och n2 = Antal poster i varje provuppsättning \ börja {inriktad} & \ text {Degrees of Freedom} = n1 + n2 - 2 \\ & \ textbf {var:} \\ & n1 \ text {och} n2 = \ text {Antal poster i varje provuppsättning} \\ \ end {inriktad} Degrees of Freedom = n1 + n2−2where: n1 och n2 = Antal poster i varje provuppsättning

Ojämn variation T-test

Ojämn varians-t-test används när antalet prover i varje grupp är annorlunda, och variansen för de två datamängderna också är annorlunda. Detta test kallas också Welchs t-test. Följande formel används för att beräkna t-värde och frihetsgrader för ett ojämnt varians t-test:

T-värde = medelvärde1 − medel2var12n1 + var22n2var: medelvärde1 och medelvärde2 = Genomsnittsvärden för vart och ett av provsatsvar1 och var2 = Variation för vart och ett av provsatsn1 och n2 = Antal poster i varje provuppsättning \ börja {inriktad} & \ text {T-värde} = \ frac {mean1 - mean2} {\ sqrt {\ frac {var1 ^ 2} {n1} + \ frac {var2 ^ 2} {n2}}} \\ & \ textbf {var:} \ \ & mean1 \ text {och} mean2 = \ text {Genomsnittsvärden för var och en} \\ & \ text {i provuppsättningarna} \\ & var1 \ text {och} var2 = \ text {Varians för varje provuppsättning} \ \ & n1 \ text {och} n2 = \ text {Antal poster i varje provuppsättning} \\ \ end {inriktad} T-värde = n1var12 + n2var22 medel1 − medel2 där: medelvärde1 och medelvärde = Genomsnittsvärden av var och en av provsatsvar1 och var2 = Variation för var och en av provsetsn1 och n2 = Antal poster i varje provuppsättning

och,

Degrees of Freedom = (var12n1 + var22n2) 2 (var12n1) 2n1−1 + (var22n2) 2n2−1where: var1 och var2 = Variation för vart och ett av provetsn1 och n2 = Antal poster i varje provuppsättning \ börja {inriktat } & \ text {Degrees of Freedom} = \ frac {\ left (\ frac {var1 ^ 2} {n1} + \ frac {var2 ^ 2} {n2} \ höger) ^ 2} {\ frac {\ left ( \ frac {var1 ^ 2} {n1} \ höger) ^ 2} {n1 - 1} + \ frac {\ vänster (\ frac {var2 ^ 2} {n2} \ höger) ^ 2} {n2 - 1}} \\ & \ textbf {var:} \\ & var1 \ text {och} var2 = \ text {Varians för var och en av provuppsättningarna} \\ & n1 \ text {och} n2 = \ text {Antal poster i varje provuppsättning } \\ \ end {inriktad} Degrees of Freedom = n1−1 (n1var12) 2 + n2−1 (n2var22) 2 (n1var12 + n2var22) 2 där: var1 och var2 = Variation för var och en av provet setsn1 och n2 = Antal poster i varje provuppsättning

Bestämma rätt T-test som ska användas

Följande flödesschema kan användas för att bestämma vilket t-test som ska användas baserat på provuppsättningens egenskaper. De viktigaste punkterna som ska beaktas inkluderar om exempelposterna är liknande, antalet dataposter i varje provuppsättning och variansen för varje provuppsättning.

Bild av Julie Bang © Investopedia 2019

Ojämn variation T-testexempel

Antag att vi tar en diagonal mätning av målningar mottagna i ett konstgalleri. En grupp prov inkluderar 10 målningar, medan den andra innehåller 20 målningar. Datauppsättningarna, med motsvarande medelvärde och variansvärden, är följande:

Set 1Set 2
19, 728, 3
20, 426, 7
19, 620, 1
17, 823, 3
18, 525, 2
18, 922, 1
18, 317, 7
18, 927, 6
19, 520, 6
21, 9513, 7
23, 2
17, 5
20, 6
18
23, 9
21, 6
24, 3
20, 4
23, 9
13, 3
Betyda19, 421, 6
Variation1, 417, 1

Även om medelvärdet för uppsättning 2 är högre än det för uppsättning 1, kan vi inte dra slutsatsen att alla målningar har en genomsnittlig längd runt 21, 6 enheter eftersom variationen i uppsättning 2 är betydligt högre än uppsättning 1. Är detta av en slump eller finns det egentligen skillnader i den totala befolkningen av alla målningar som tagits emot i konstgalleriet ">

Eftersom antalet dataregister är annorlunda (n1 = 10 och n2 = 20) och variansen också är annorlunda beräknas t-värdet och graderna av frihet för ovanstående datauppsättning med hjälp av formeln som nämns i T-testet Unequal Variance sektion.

T-värdet är -2.24787. Eftersom minustecknet kan ignoreras när man jämför de två t-värdena är det beräknade värdet 2.24787.

Graden av frihetsvärde är 24, 38 och reduceras till 24 på grund av formeldefinitionen som kräver avrundning av värdet till minst möjliga heltal.

Närhelst en normalfördelning antas kan man specificera en sannolikhetsnivå (alfa-nivå, nivå av betydelse, p ) som kriterium för acceptans. I de flesta fall kan ett 5% -värde antas.

Genom att använda graden av frihetsvärde som 24 och en 5% nivå av betydelse ger en titt på t-värdet fördelningstabellen ett värde på 2, 064. Jämförelse av detta värde mot det beräknade värdet på 2.247 indikerar att det beräknade t-värdet är större än tabellvärdet vid en signifikansnivå på 5%. Därför är det säkert att avvisa nollhypotesen att det inte finns någon skillnad mellan medel. Befolkningsuppsättningen har inneboende skillnader, och de är inte av en slump.

Jämför investeringskonton Leverantörs namn Beskrivning Annonsörens upplysning × Erbjudandena som visas i denna tabell kommer från partnerskap från vilka Investopedia erhåller ersättning.

Relaterade villkor

Hur analys av variation (ANOVA) fungerar Analys av varians (ANOVA) är ett statistiskt analysverktyg som separerar den totala variationen som finns i en datamängd i två komponenter: slumpmässiga och systematiska faktorer. mer Förstå T-distribution AT-distribution är en typ av sannolikhetsfunktion som är lämplig för att uppskatta populationsparametrar för små provstorlekar eller okända varianser. mer Degrees of Freedom Definition Degrees of Freedom hänvisar till det maximala antalet logiskt oberoende värden, som är värden som har frihet att variera, i dataprovet. mer Hur den återstående standardavvikelsen fungerar Den återstående standardavvikelsen är en statistisk term som används för att beskriva skillnaden i standardavvikelser för observerade värden kontra förutspådda värden som visas av punkter i en regressionsanalys. mer Hur Chi Square-statistiken fungerar En chi-kvadrat (χ2) -statistik är ett test som mäter hur förväntningarna jämförs med faktiska observerade data (eller modellresultat). Uppgifterna som används för att beräkna en chi-kvadratstatistik måste vara slumpmässiga, råa, ömsesidigt exklusiva, hämtade från oberoende variabler och dras från ett tillräckligt stort prov. mer Hur Wilcoxon-testet används Wilcoxon-testet, som hänvisar till antingen Rank Sum-testet eller Signed Rank-testet, är ett icke-parametriskt test som jämför två parade grupper. mer Partnerlänkar
Rekommenderas
Lämna Din Kommentar