İstatistik Analiz 2024 Üç Ders Soruları

0:00
Hoş geldiniz. Bugün istatistiksel
0:02
verilerin ve o karmaşık formüllerin
0:04
dünyasını hep birlikte çözeceğimiz
0:06
yepyeni bir görsel rehberle
0:08
karşınızdayım. Veri dedektifinin araç
0:10
çantasına hoş geldiniz diyelim.
0:12
Biliyorsunuz benim işim bu karmaşık
0:14
konuları alıp akılda kalıcı net
0:17
parçalara ayırmak. Hedefimiz çok net.
0:19
Sınavlarda veya projelerde sizi terleten
0:22
o korkutucu matematiksel jargonları
0:24
alacağız ve zihninizde anında canlanacak
0:27
mantıksal modellere dönüştüreceğiz. Yani
0:29
sadece ezberlemeyeceğiz. İstatistiğin
0:32
şifrelerini çözecek gerçekten dinamik
0:34
bir araç çantası oluşturacağız.
0:36
Hazırsanız lafı hiç uzatmadan hemen
0:38
konuya dalalım. Şimdi gerçek dünyada
0:42
veya zorlu bir sınav sorusunda sıkça
0:43
karşımıza çıkan adeta bir açmazla
0:46
başlayalım. Tüm stratejinizi bir anda
0:48
değiştirebilecek o kritik an şudur. Peki
0:51
ya verileriniz o mükemmel çan eğrisine
0:53
yani normal dağılıma uymuyorsa ne
0:55
yaparsınız? Standart matematiksel
0:57
araçların adeta kilitlendiği,
0:59
varyansların homojen olmadığı bir
1:00
durumda verilerinizi nasıl
1:02
karşılaştıracaksınız? İşte tam bu
1:04
noktada körü körüne ezberlenmiş
1:06
formüller yerine elimizdeki o araç
1:08
çantasının esnekliğine ihtiyacımız var.
1:11
Bu gizemi çözmek için izleyeceğimiz yol
1:13
haritamız aslında dört ana aşamadan
1:15
oluşuyor. Önce karşılaştırıcılar, sonra
1:18
tahmin ediciler, ardından toplayıcılar
1:20
ve son olarak da hüküm aşaması. 1ci
1:23
bölüm karşılaştırıcılar testler ve
1:25
alternatifleri.
1:27
İstatistikte iki bağımsız grubun
1:28
ortalamalarını karşılaştırmak
1:30
istediğimizde normal şartlar altında ne
1:32
yaparız? Parametrik bir test olan
1:34
bağımsız iki örneklem testi uygularız.
1:37
Ama durun bu parametrik testlerin çok
1:39
katı kuralları vardır. Bunu gerçekten
1:41
çok seçkin bir kulübe girmek gibi
1:43
düşünün. Verilerinizin normal dağılım
1:45
göstermesi ve varyansların homojen
1:47
olması kesinlikle şarttır. Peki ya
1:49
verileriniz bu kuralları ihlal ederse o
1:51
kulübün kapısında öylece boyunu bükük mü
1:53
kalacağız? Tabii ki hayır. İşte standart
1:56
kurallar yıkıldığında günü kurtaran o
1:58
gizli kahramanlar yani nonparametrik
2:01
alternatifler tam burada devreye
2:03
giriyor. Eğer az önce bahsettiğimiz
2:05
bağımsız iki örn eklem Testinin
2:07
varsayımları ihlal edilirse hemen yedeği
2:10
olan man withne U testini sahaya
2:12
sürüyoruz. Görebileceğiniz gibi her
2:14
parametrik testin bir yedeği var
2:16
aslında. Bağımlı iki grup için Wilcoxon,
2:19
ikiden fazla bağımsız grup yani K grup
2:21
için Criskan Vales ve bağımlı K grup
2:24
içinse Freedman testleri hemen yardıma
2:26
koşuyor. Bu yapıyı zihninizde bir tür
2:29
acil durum eylem planı olarak
2:30
kodlayabilirsiniz. Peki ya karşımızda
2:33
sayısal büyüklükler değil de nitel yani
2:36
kategorik veriler varsa ne olacak?
2:39
Mesela cinsiyet ile ürün tercihi
2:41
arasında bir ilişki var mı yok mu? İşte
2:44
bu tür nitel gizemleri çözerken kaykare
2:46
bağımsızlık testini kullanıyoruz. Bu
2:49
test bir kontenjans tablosundaki
2:51
gözlenen gerçek frekanslar ile olması
2:53
beklenen frekanslar arasındaki farkların
2:56
karesini alarak çalışıyor. Kısacası bize
2:59
beklenti ile gerçeklik arasındaki farkın
3:01
istatistiksel bir resmini çiziyor. Çok
3:04
havalı değil mi? Ve geldik ikinci
3:05
bölüme. Tahmin ediciler. Regresyon ve
3:08
korelasyon. Verileri karşılaştırma işini
3:10
hallettiğimize göre artık sadece
3:12
elimizdeki grupları kıyaslamıyoruz.
3:14
Değişkenler arasındaki o gizli
3:16
ilişkileri bulmaya ve bu ilişkileri
3:18
kullanarak geleceğe yönelik tahminlerde
3:20
bulunmaya başlıyoruz. Regresyon ve
3:22
korelasyon dünyasına adım atıyoruz.
3:24
Basit doğrusal regresyon modeli yani
3:26
hepimizin bildiği o ünlü y = a + bx
3:30
formülü aslında bu istatistiğin kristal
3:33
küresidir diyebiliriz. Buradaki yapıyı
3:35
anlamak gerçekten çok önemli. Formüldeki
3:38
a bizim sabit terimimizdir. İngilizce
3:41
tabiriyle intersept yani başlangıç
3:43
noktamızı belirliyor. B ise eğim
3:46
katsayısıdır. Bu da x'teki 1 birimlik
3:49
değişimin bağımlı değişkenimiz y'yi tam
3:51
olarak ne kadar etkileyeceğini gösterir.
3:54
Gelin bunu biraz somutlaştıralım.
3:56
Diyelim ki sınavdasınız ve karşınıza y =
3:59
4,3 + 9,9x şeklinde bir model çıktı. Ve
4:04
soru şu: Bağımsız değişken olan x 0
4:07
olduğunda y ne olur? Formüle bakıp hiç
4:09
paniğe kapılmayın. Eğer x 0sa o eğim
4:13
kısmı tamamen ortadan kaybolur ve
4:15
bağımlı değişken y doğrudan temel
4:17
seviyeye yani sabit terimimiz olan 4,3'e
4:20
eşit olur. Evet, inanın bana bu kadar
4:22
basit. İyi ama kurduğumuz bu tahmin
4:25
modeli ne kadar güvenilir? İşte bunu
4:27
ölçmek için belirginlik katsayısını yani
4:30
şu meşhur r kareyi kullanıyoruz. Eğer
4:32
r²are değeriniz8 ise bu modelinizin
4:36
verideki değişkenliğin %88'ini başarıyla
4:38
açıkladığı anlamına gelir. Müthiş bir
4:41
oran. Ancak istatistikte her şeyin
4:43
toplamı 1'e eşittir. Unutmayın. Geriye
4:45
kalan o %12'lik dilimse modelin
4:48
açıklayamadığı belirsizlik katsayısıdır.
4:50
Yani 1 - 088 = 012. Bu da verimizdeki o
4:55
açıklanamayan henüz çözülememiş gizemli
4:57
kısımdır. İki değişken arasındaki
4:59
ilişkinin yönünü ve şiddetini gösteren
5:02
korelasyon katsayısına yani o küçük R
5:05
harfine ulaşmak ise belirginlik
5:07
katsayısını biliyorsanız tam bir çocuk
5:09
oyuncağı. Korelasyon katsayısı R karenin
5:13
basitçe kareköküdür. Örneğin belirginlik
5:16
katsayınız 0,694
5:18
ise bunun karekökünü aldığınızda basit
5:21
doğrusal korelasyon katsayısını yani
5:23
0,833'ü
5:25
şıp diye elde edersiniz. Gördüğünüz gibi
5:28
tüm bu kavramlar birbirine sihirli bir
5:30
zincir gibi bağlı. 3üncü bölüme
5:32
geçiyoruz. Toplayıcılar, örneklem ve
5:35
standart hata. Tahmin yapmak veya
5:37
karşılaştırmak harika ama bunun için
5:39
elimizde sağlam veriler olması şart
5:41
değil mi? Ancak gerçek hayatta veya
5:43
devasa bir araştırmada gidip milyonlarca
5:46
insandan tek tek veri toplayamazsınız.
5:48
İmkansız. İşte tam da bu yüzden o devasa
5:51
ana kütleyi temsil edecek çok daha
5:53
yönetilebilir alt kümeler çekeriz. Buna
5:55
da örnekleme teorisi diyoruz. Öyleyse
5:57
asıl kritik soru şu: Ana kütlemiz
6:00
karmakarışık. Yani son derece heterojen
6:02
görünüyorsa ne yapacağız? Mesela koca
6:04
bir ülkenin tüm nüfusunu düşünün. Ancak
6:06
bu heterojen yapının kendi içinde
6:08
homojen yani türdeş alt zümreler
6:10
barındırdığını biliyorsak işimiz
6:12
inanılmaz kolaylaşır. İşte tabakalı
6:14
örnekleme stratejisi tam da burada bir
6:17
yıldız gibi parlıyor. Her alt gruptan
6:19
yani tabakadan o grubun ağırlığı
6:21
oranında tesadüfi seçimler yapıyoruz.
6:23
İnanın bana bu devasa bir çeşitliliği en
6:26
düzenli ve adil şekilde özetlemenin
6:28
tartışmasız en akıllıca yoludur. Tabii
6:31
bir de bu verileri toplamanın çok pratik
6:33
ve finansal bir gerçekliği var. Kağıt ve
6:36
kalemle yapılan o geleneksel yüz yüze
6:38
anket uygulamaları ne yazık ki veri
6:40
toplamanın en ama en yüksek maliyetli
6:43
yöntemidir. Neden mi? Düşünsenize
6:45
anketörlere ödenen maaşlar, o
6:47
anketörleri sahaya göndermenin devasa
6:49
lojistik masrafları, binlerce sayfalık
6:52
basın maliyeti ve elbette en değerli
6:54
kaynağımız olan zaman. Görüyorsunuz ya
6:56
istatistik sadece kuru bir matematikten
6:59
ibaret değil. Aynı zamanda çok ciddi bir
7:01
kaynak yönetimidir. Diyelim ki verimizi
7:03
bir şekilde topladık. Peki ya hata
7:05
payımız ne alemde? Örneklememiz
7:07
gerçekten o dev ana kütleyi tam olarak
7:09
yansıtıyor mu? İşte standart hata yani s
7:12
formülü bize tam olarak bunu söylüyor.
7:14
İster ana kütlenin standart sapmasını
7:16
bilin ister sadece örneklemin. Mantık
7:19
hep aynı çalışır. Standart sapmayı alır
7:21
ve örnek birim sayısının yani o meşhur n
7:23
harfinin kareköküne böleriz. Bu işlem ne
7:26
işe mi yarıyor? Varyasyonu örneklem
7:28
büyüklüğümüze göre dağıtarak hatamızı
7:30
normalize ediyor. Harika bir denge
7:31
mekanizması. Gelin bu formülü bir
7:34
örnekle anında pratiğe dökelim. Diyelim
7:36
ki elimizde bilinen bir ana kütle
7:38
standart sapması var. 35,75.
7:41
Örneklem hacmimiz ise 121. Formülü hemen
7:45
uyguluyoruz. 35,75'i
7:47
121'in kareköküne yani 11'e bölüyoruz.
7:51
Sonuç tam olarak 3,25 çıkıyor.
7:53
Gördüğünüz gibi matematik saat gibi
7:55
tıkır tıkır işliyor. Bir de ana kütleyi
7:59
hiç bilmediğimiz sadece elimizdeki
8:01
örneklem standart sapmasını
8:03
kullandığımız bir senaryoya bakalım.
8:05
Örnek standart sapmamız 18 ve örneklem
8:08
büyüklüğümüz 25 olsun. Bu kez 18'i 25'in
8:12
kareköküne yani 5'e bölüyoruz ve
8:14
sonucumuz 3,60. Şunu asla unutmayın.
8:18
Örneklem hacmi olan n ne kadar büyürse
8:20
alt kısımdaki bölücü de o kadar
8:22
büyüyecek ve sonuç olarak standart
8:24
hatamız o kadar küçülecektir. 4üncü ve
8:28
son bölüm hüküm. Güven aralıkları ve
8:30
hipotez. Ve nihayet yolculuğumuzun o
8:33
büyük finaline ulaştık. Araç çantamızı
8:36
kullandık. Verilerimizi topladık.
8:38
Standart hatamızı tıkır tıkır
8:39
hesapladık. Artık olasılık teorisini
8:41
arkamıza alarak matematiksel olarak
8:43
desteklenen o resmi yargılarımızı ve
8:45
kararlarımızı verme zamanı geldi. Yalnız
8:48
karar vermeden önce terminolojiyi asla
8:50
ama asla birbirine karıştırmamalıyız.
8:53
Ana kütleyi karakterize eden o büyük
8:55
ölçülere parametre diyoruz ve bunları
8:57
mü, sigma gibi havalı Yunan harfleri ile
9:00
gösteriyoruz. Kütleden çektiğimiz o
9:02
küçük örneklemden elde ettiğimiz
9:03
ölçülere ise istatistik diyoruz. Bunları
9:06
da X, çizgi ve S gibi bildiğimiz
9:08
standart harflerle ifade ediyoruz. Biz
9:10
karar verirken ne yapıyoruz? Aslında
9:12
istatistikleri kullanarak parametreleri
9:14
tahmin ediyoruz. Hepsi bu. Peki karar
9:16
aşamasında hangi dağılımı kullanacağız?
9:19
Eğer ana kütle varyansını bilmiyorsak ve
9:21
elimizdeki örneklem küçükse yani n
9:24
30'dan azsa normal dağılımı maalesef
9:27
kullanamayız. İşte burada hemen
9:29
student'ın t dağılımı devreye girer. Bu
9:31
dağılımda çok ama çok önemli bir kavram
9:33
vardır. Serbestlik derecesi yani n -1.
9:37
Örneğim serbestlik derecemiz 15 ve
9:40
anlamlılık düzeyimiz yani o alfamızın
9:42
değeri 0,1 ise istatistik tablosundan
9:46
okuduğumuz kritik t değeri tam olarak
9:48
1,753 olur. İşte bu değer bizim kesin
9:51
karar sınırlarımızı çiziyor. Güven
9:54
aralıkları oluştururken her zaman bir
9:56
ödünleşim, bir nevi takas vardır.
9:59
Anlamlılık düzeyi olan alfa aslında
10:01
doğrudan bizim hata payımızı ifade eder.
10:04
Eğer çok spesifik, daracık bir tahmin
10:06
aralığı istiyorsanız daha yüksek bir
10:08
hata payını mesela alfaı 015 olarak
10:10
kabul etmeyi göze almanız gerekir. Ancak
10:13
dikkat hata payınız büyüdükçe bu aralığa
10:16
duyduğunuz genel güven düzeyi maalesef
10:18
düşecektir. Yani en dar aralık tahmini
10:21
her zaman en yüksek alfa değerinde
10:23
gerçekleşir. Burada bir seçim yapmanız
10:25
gerekiyor. Hipotez kurarken
10:27
kullandığımız kelimelerin matematiğin
10:28
dünyasında devasa bir ağırlığı vardır.
10:31
Eğer bir araştırma iddiası a'den
10:33
farklıdır diyorsa ama büyüktür veya
10:35
küçüktür diye belirgin bir yön
10:37
göstermiyorsa hemen eşit değildir
10:39
mantığını kurarız. Yön belirtilmeyen bu
10:41
tür durumlar dağılımın her iki ucunda da
10:43
bize sürprizler olabileceğini gösterir.
10:45
Bu yüzden işimizi şansa bırakmamak ve
10:48
her iki ihtimali de kontrol etmek için
10:50
zorunlu olarak çift taraflı diğer bir
10:52
deyişle çift kuyuklu test kurarız. Tüm
10:55
bu anlattığımız süreç aslında 5 adımlık
10:58
harika bir hipotez testi yolculuğuna
11:00
dönüşür.
11:01
İddianı belirt, kriterleri koy, test,
11:03
istatistiğini hesapla ve kararını ver.
11:06
Ancak burada en çok üzerinde durmamız
11:08
gereken o altın vuruş kesinlikle son
11:10
adımdır. 5. adım tüm o karmaşık t
11:13
değerlerinin alfa yanılma paylarının ve
11:16
p değerlerinin bizim günlük anlaşılır
11:19
insan diline çevrildiği yerdir. Yani
11:21
test sonucunun sözel olarak
11:23
yorumlanması. Matematiği ne kadar
11:24
kusursuz yaparsanız yapın, eğer onu
11:27
karşı tarafa açık bir şekilde
11:28
yorumlayamıyorsanız inanın bana veri
11:30
dedektifliğiniz eksik kalır. Ve işle
11:32
başardık. Karşılaştırmayı, tahmin
11:34
etmeyi, doğru örneklemeyi ve sağlam
11:37
matematiksel kanıtlarla karar vermeyi o
11:39
muazzam görsel araç çantamıza sığdırdık.
11:42
Şimdi asıl o can alıcı soruyu kendinize
11:44
sormanızı istiyorum. Artık elinizde en
11:46
karmakarışık verileri bile çözümleyecek
11:48
zihinsel modeller ve tüm bu güçlü
11:50
araçlar var. Peki bu gücü kullanarak
11:52
kendi dünyanızdaki, kendi
11:54
projelerinizdeki hangi gizli gerçeği
11:56
ortaya çıkaracaksınız? Bir sonraki
11:58
incelememizde görüşmek üzere. Merak
12:00
etmeye ve veriyi sorgulamaya hep devam
12:02
edin.

İstatistik Analiz 2024 Üç Ders Soruları

lolonolo.com

Predictions for the collapse of our civilization

PLC Practical Exercise for Students: 3 Push Buttons 1 Lamp

Interview Question: Why Does 4–20 mA Current Loop Start at 4 mA?

Google Analytics 4 Full Course Tamil 2026 | Google Analytics for Blogger Tamil

1 Island, 1000 Languages

Countries Facing HUGE Challenges Right Now

Portugal's Forgotten Language

Heavy Duty Rail Machinery Explained in 15 Minutes

I Played Geography Quizzes for you to Fall Asleep Watching

These Population Stats Will Blow Your Mind

Peek Inside a 1990s Handbag

Tupperware's Golden Era: What We Can Learn from Its Fall

Misconceptions about Popular Stories - mental_floss on YouTube (Ep. 32)

Korean Railways - - Learn EVERYTHING About Them!

10 States that are Going Downhill in 2024 & 2025.

Up next in 10

İstatistik Analiz 2024 Üç Ders Soruları

lolonolo.com