0:00
Merhaba. Karmaşık kaynakları alıp sizin
0:02
için net ve anlaşılır bir hikayeye
0:04
dönüştürdüğümüz serimize hoş geldiniz.
0:07
Bugün adeta bir veri dedektifi gibi
0:10
düşüneceğiz ve onların alet çantasındaki
0:12
temel istatistik araçlarına yakından
0:14
bakacağız. İşte bütün meselenin özü bu
0:17
soruda gizli değil mi? Hadi gelin bu
0:19
işin sırrını çözmek için bir veri
0:21
dedektifi gibi düşünelim. Küçücük
0:23
ipuçlarından yola çıkıp büyük gerçekleri
0:25
nasıl ortaya çıkarabileceğimize bakalım.
0:28
Tamam. İlk olarak her iyi dedektifin
0:30
yaptığı gibi olay mahallen bir anlamamız
0:32
lazım. Yani verilerin geldiği o büyük
0:35
resmi bir görelim. Düşünsenize dünya
0:39
devasa bir bilgi okyanusu gibi ve biz bu
0:42
okyanustan sadece küçücük bir damla alıp
0:44
inceleyebiliyoruz. İşte istatistiğin
0:46
asıl görevi de tam burada başlıyor. O
0:48
küçük damlaya bakarak okyanusun tamamı
0:51
hakkında akıllıca tahminler yürütmek. E
0:54
bir dedektif de olayla ilgili herkes de
0:56
tek konuşamaz değil mi? O yüzden
0:58
kanıtlarını yani ipuçlarını çok dikkatli
1:01
seçmesi gerekir. İşte istatistikteki en
1:04
temel ayrım da bu aslında. Biz herkesten
1:06
mi bahsediyoruz? Yani popülasyondan mı
1:09
yoksa sadece konuştuğumuz, incelediğimiz
1:11
o küçük gruptan yani örneklemden mi? Bu
1:14
ayrım çok önemli. Eğer bir şekilde
1:17
popülasyonun tamamına ulaşıp bir
1:19
hesaplama yapabilseydik, mesela herkesin
1:21
yaş ortalamasını bulabilseydik işte o
1:24
bulduğumuz değere parametre derdik.
1:26
Parametre bizim tahmin etmeye
1:28
çalıştığımız o gerçek, o hakiki
1:31
değerdir. Yani işin özü şu. Eğer
1:34
topladığınız ipuçları birbirinden çok
1:37
farklıysa, herkes başka bir şey
1:39
söylüyorsa o zaman güvenilir bir sonuca
1:42
ulaşmak için çok daha fazla ipucu
1:44
toplamanız yani örneklemenizi büyütmeniz
1:47
gerekir. Bu kadar basit. Peki bu
1:50
ipuçlarını nasıl topluyoruz? İşte burada
1:53
iki temel yöntem karşımıza çıkıyor. Ya
1:56
her ipucuna eşit şans vererek tamamen
1:58
rastgele seçim yaparsınız ya da bir
2:01
dedektif gibi konuyu en iyi
2:03
yansıtacağını düşündüğünüz kişileri veya
2:05
verileri bilinçli olarak kendiniz
2:08
Tamam. İpuçlarını topladık. Şimdi de
2:10
sıra geldi elimizdeki bu kanıtları
2:13
anlamlı bir şekilde özetlemeye ve
2:15
tanımlamaya. Alet çantamızdaki bir
2:17
sonraki set bununla ilgili.
2:19
Ama önce ne tür bir kanıtla
2:21
uğraştığımızı bilmemiz lazım. Elimizdeki
2:24
veri, müşteri sayısı gibi sadece tam
2:26
sayılarla ifade edilebilen bir şey mi
2:28
yoksa bir insanın kilosu gibi bir
2:30
aralıktaki herhangi bir değeri alabilen
2:32
bir şey mi? Bu ayrım önemli. Elimizdeki
2:35
veriye şöyle bir baktığımızda en çok
2:37
tekrar eden şey ne? İşte mod yani tepe
2:40
değer bize bunu söyler. Verilerimizdeki
2:42
en popüler, en yaygın ipucudur aslında.
2:45
Peki bu ipuçları ne kadar geniş bir
2:47
alana yayılmış? İşte değişim aralığı
2:50
yani range en büyük değerle en küçük
2:53
değer arasındaki farkı göstererek bize
2:55
verilerin ne kadar dağınık olduğu
2:56
hakkında hızlıca bir fikir verir. Mesela
2:59
bakın bu vaka dosyasında 6 kişinin
3:01
kiloları var. En sık tekrar eden kilo
3:04
kaç? 60. Demek ki modumuz 60. En yüksek
3:08
kilo 75, en düşük 50. Aradaki fark 25.
3:13
Yani değişim aralığımız da 25'miş.
3:17
Bu da çok kullanışlı bir araç. Bize
3:19
belirli bir ipucunun veya kategorinin
3:21
tüm kanıtlar içindeki payının ne
3:23
olduğunu yüzde olarak söyler. Tıpkı bir
3:25
davada topladığınız tüm ipuçlarının
3:28
%20'sinin tek bir şüpheliyi göstermesi
3:30
gibi. Usta dedektifler başkalarının
3:33
göremediği örüntüleri yani desenleri
3:35
fark ederler. İşte veriler de böyledir.
3:38
Onların da kendilerine has bir şekli,
3:40
bir dağılımı vardır. Şimdi bu tabloya
3:43
baktığımızda şunu görüyoruz. Bütün
3:45
veriler o bildiğimiz mükemmel çan eğrisi
3:48
gibi simetrik olmak zorunda değil.
3:50
Bazıları mesela f ve kare dağılımları
3:52
gibi bir tarafa doğru yığılmış yani
3:54
çarpık bir yapıya sahip. Bu ne demek?
3:57
Her sorunun aynı tür kanıtla
3:58
çözülemeyeceğini anlamak gibi bir şey.
4:01
Ve geldik alet çantamızın son bölümüne.
4:05
Artık elimizdeki verilerle geleceğe dair
4:08
tahminler yapmamızı sağlayan araçlara
4:10
yani olasılık hesaplamalarına bakacağız.
4:14
Ama durun, herhangi bir olasılık
4:15
hesaplamadan önce olabilecek ama
4:18
gerçekten olabilecek her bir sonucu
4:20
bilmemiz lazım. İşte bu tüm olası
4:23
sonuçların oluşturduğu kümeye örnek uzay
4:25
diyoruz. Hadi bunu basit bir örnekle
4:28
test edelim. Bir madeni parayı tam dört
4:30
kez havaya attığımızı hayal edin. Sizce
4:33
kaç farklı sonuç dizisi ortaya
4:34
çıkabilir? Yani bizim örnek uzayımız ne
4:37
kadar büyük olabilir? Evet, doğru cevap
4:40
16. Eğer bunu bulduysanız harika. Peki
4:44
neden 16? Aslında mantığı çok basit. Her
4:47
bir atışta iki seeneğimiz var. Yazı ya
4:50
da tura. E bunu 4 kez tekrarladığımıza
4:53
göre yapmamız gereken tek şey 2'nin 4.
4:56
kuvvetini almak. Bu da 16 eder. Tamam.
4:59
Bir de şuna bakalım. Bu biraz daha
5:01
zorlayıcı olabilir. Diyelim ki 8
5:04
basketbolcunuz var ve bunlardan 5
5:06
kişilik bir takım kuracaksınız. Ama
5:09
kimin önce seçildiği önemli değil. kaç
5:11
farklı takım kurabilirsiniz? İşte bu tür
5:14
durumlarda yani sıranın önemli olmadığı
5:17
seçimlerde devreye kombinasyon giriyor.
5:20
Sonuçta takıma önce Ahmet'i sonra
5:23
Mehmet'i seçmekle önce Mehmet'i sonra
5:26
Ahmet'i seçmek arasında bir fark yok.
5:28
Takım aynı takım. İşte bu mantıkla hesap
5:31
yaptığımızda 56 farklı takım
5:33
oluşturabileceğimizi görüyoruz.
5:36
Evet. Böylece dünyayı verilerle anlamak
5:38
için gerçekten güçlü bir temel alet
5:41
çantası oluşturmuş olduk. Şimdi asıl
5:43
soru şu: Bu aletlerle ilk olarak siz
5:46
hangi gizemi çözmek istersiniz?