Auzef Veri Madenciliği 2024-2025 Vize Soruları
https://lolonolo.com/2026/04/09/veri-madenciligi-2024-2025-vize-sorulari/
https://lolonolo.com
Show More Show Less View Video Transcript
0:00
Herkese merhaba. Bugünkü konumuz veri
0:02
madenciliği. Birlikte bu konunun
0:04
ardındaki temel kavramları ve sırları
0:07
bir bir açığa çıkaracağız. Yani
0:09
verilerin bize fısıldadığı o hikayeleri
0:12
nasıl dinleyebileceğimizi adım adım
0:14
göreceğiz. Hazırsanız başlayalım. Şöyle
0:17
bir düşünün. Elinizdeki o devasa veri
0:20
yığınları aslında içinde ne gibi sırlar,
0:22
ne gibi hikayeler saklı olabilir? Peki
0:24
bu sırların kilidini açacak o sihirli
0:26
anahtar ne? İşte veri madenciliği tam da
0:29
bu noktada devreye giriyor ve bize o
0:31
anahtarı sunuyor. Veri madenciliğini bu
0:34
heyecanlı yolculuktaki dedektif çantamız
0:36
gibi düşünebilirsiniz. İçinde bir sürü
0:39
araç var. Bu araçlar sayesinde o devasa
0:41
karmaşık veri yığınlarının arasına dalıp
0:44
gizli örüntüleri yani o paha biçilmez
0:46
bilgileri bulup çıkarıyoruz. Kısacası
0:49
bir teknikler ve yöntemler bütünü. Hadi
0:52
şimdi bu çantanın içine daha yakından
0:53
bakalım. Peki bir dedektif işe nereden
0:56
başlar? Tabii ki elindeki ipuçlarından
0:59
işte bizim maceramızın ilk adımı da tam
1:01
olarak bu. Elimizdeki ham ipuçlarını
1:04
yani verinin ta kendisini anlamak. Çünkü
1:07
her şey burada başlıyor. Şimdi karşımıza
1:10
en temelde iki tür veri çıkıyor. Bir
1:13
yanda yapısal veriler var. Bunlar mesela
1:15
bir Excel tablosuna tık diye oturan
1:17
düzenli bilgiler. Bir müşterinin telefon
1:20
numarası ya da bir ürünün fiyatı gibi.
1:22
Gayet net değil mi? Diğer yandaysa
1:24
yapısal olmayan veriler var. Bunlar daha
1:26
serbest takılıyor. Mesela bir blog
1:28
yazısının metni ya da sosyal medyadaki
1:30
bir yorum. Geleneksel tablolara pek
1:32
uymazlar. İşte bu iki farklı dünyayı da
1:35
anlamak işin en temel kuralı. Biraz daha
1:38
derine inelim mi? Şimdi de değişken
1:40
türlerine bakalım. Mesela bir otomobilin
1:43
yakıt tüketimini düşünün. 100 ketrede
1:45
5.7 L, 6.2 L gibi sonsuz sayıda
1:49
ondalıklı değer alabilir, değil mi? İşte
1:51
bunlara sürekli değişken diyoruz. Bir de
1:54
madalyonun diğer yüzü var. Sadece iki
1:56
seçenek sunanlar. Mesela bir işe alım
1:59
kararı. Ya evet işe al ya da hayır alma.
2:03
İşte bu kadar basit. Bunlara da binomyal
2:06
değişken adını veriyoruz. Tamam.
2:08
İpuçlarımızı yani verimizi anladık.
2:10
Sırada ne var? Şimdi en kritik
2:12
aşamalardan birine geldik. O ipuçlarını
2:14
temizlemek, parlatmak ve düzenlemek.
2:17
Tıpkı bir olay yerini incelemeye
2:19
hazırlamak gibi. Bu adıma biz veri
2:21
hazırlama diyoruz. Ve inanın bana
2:23
soruşturmanın kaderini belirleyen yer
2:25
burası. Bazen olay yeri o kadar
2:27
kalabalıktır ki elimizde yüzlerce
2:29
binlerce ipucu yani değişken olur. Ama
2:32
bunların hepsi önemli mi? Hayır tabii
2:34
ki. İşte boyut azaltma dediğimiz şey tam
2:37
olarak bu. Gereksiz olanları, dikkat
2:40
dağıtanları bir kenara atıyoruz ve
2:42
sadece gerçekten önemli olanlara
2:44
odaklanıyoruz. Yani aslında ne yapıyoruz
2:46
biliyor musunuz? Gürültüyü kısıp
2:48
sinyalin sesini açıyoruz. Peki bunun
2:51
bize faydası ne? diye sorabilirsiniz.
2:53
Çok basit. Veri işleme süreleri kısalır.
2:55
Şöyle düşünün. Daha az ipucuyla uğraşmak
2:58
davayı çok daha hızlı çözmek demek. Daha
3:00
az veriyle çalışınca analizlerimiz de
3:03
ışık hızına çıkıyor. Bu da hem zamandan
3:05
hem de bilgisayarımızın işlem gücünden
3:07
inanılmaz bir tasarruf demek. Şimdi
3:09
düşünün ki önünüzde devasa bir kazan
3:12
çorba var. Tadına bakmak için hepsini
3:14
içmeniz gerekir mi? Tabii ki hayır. Bir
3:17
kaşık almanız yeterli. İşte örneklem
3:19
alma da tam olarak bu. O dev veri
3:21
setinin tamamıyla boğuşmak yerine onu
3:24
mükemmel şekilde temsil eden küçük bir
3:26
alt küme yani bir örneklem alıp onunla
3:29
çalışıyoruz. Peki neden bütün bir kazanı
3:32
değil de sadece bir kaşığı inceliyoruz?
3:35
Amaç çok net. Hem çok maliyetli hem de
3:37
günler sürebilecek o devasa analizleri
3:40
çok daha kolay, çok daha yönetilebilir
3:43
bir hale getirmek. Yani daha azıyla daha
3:46
fazlasını başarmak. Bazen de sayıları
3:49
olduğu gibi bırakmak yerine onları
3:51
gruplamak işimize çok yarar. Düşünsenize
3:54
bir sürü insanın yaşını tek tek analiz
3:56
etmek yerine onları genç, orta yaşlı,
3:59
yaşlı gibi daha anlamlı kategorilere
4:01
ayırmak çok daha pratik olmaz mıydı?
4:03
İşte bu akıllıca gruplama işlemine
4:05
ayrıklaştırma diyoruz. Verimizi anladık,
4:09
temizledik, hazırladık ve şimdi geldik
4:12
işin en heyecanlı, en zevkli kısmına
4:15
yani analiz sanatına. Artık noktaları
4:17
birleştirme, ipuçları arasındaki o gizli
4:20
bağlantıları, o görünmez ilişkileri
4:22
keşfetme zamanı. Karşımıza çıkan en
4:25
temel ilişkilerden biri pozitif
4:27
korelasyon. Bu ne demek? İki değişkenin
4:30
adeta birbiriyle uyum içinde dans etmesi
4:33
demek. Biri bir adım öne atınca diğeri
4:35
de atıyor. Biri artarken diğeri de
4:38
artıyor. Biri azalırken diğeri de onunla
4:41
beraber azalıyor. Tam bir takım oyunu.
4:44
Mesela arabanın gazına bastıkça yani
4:46
hızı arttırdıkça ne olur? Yakıt tüketimi
4:49
de artar. İşte bu pozitif korelasyonun
4:52
en basit, en akılda kalıcı örneği. İki
4:54
değişkenin nasıl birlikte hareket
4:56
ettiğini çok net gösteriyor. Gayet
4:58
mantıklı değil mi? Tamam. bir ilişki
5:01
olduğunu anladık. Ama işi bir adım öteye
5:04
taşıyabilir miyiz? Mesela bu ilişkiyi
5:06
matematiksel bir formülle, bir denklemle
5:09
ifade edebilir miyiz? İşte bu sorunun
5:11
cevabı regresyon analizi. Regresyon
5:15
aradaki bu ilişkiyi alıp bizim için bir
5:17
modele dönüştürüyor. Hadi gelin somut
5:20
bir örnek üzerinden gidelim. Bu tabloda
5:22
bir grup çalışanın aldığı eğitim
5:24
süresiyle ürettikleri hatasız parça
5:27
sayısı arasındaki ilişkiyi görüyoruz.
5:29
İlk bakışta bile bir şey fark ediliyor
5:30
değil mi? Eğitim süresi arttıkça sanki
5:33
hatasız üretim de artıyor gibi. Ve işte
5:37
regresyon analizinin büyüsü burada
5:38
başlıyor. Bu verileri analiz ettiğimizde
5:41
karşımıza sihirli bir formül çıkıyor. Y
5:43
= 0.625
5:46
+ 1.5 x x. Burada y ürettiğimiz hatasız
5:50
parça sayısı x ise verdiğimiz eğitim
5:53
saati. Elimizde artık geleceği tahmin
5:55
edebilen bir makine var. O zaman hadi bu
5:58
tahmin makinesini bir test edelim. Soru
6:00
şu: Eğer bir çalışana 6 saat eğitim
6:03
verirsek yani denklemdeki x yerine 6
6:06
koyarsak bu model bize kaç hatasız ürün
6:09
üreteceğini söyler? Bir düşünün bakalım.
6:12
Hesapları yaptığımızda cevap 10. Evet.
6:16
Modelimiz bize diyor ki 6 saatlik bir
6:19
eğitim yaklaşık 10 hatasız ürün demek.
6:22
Gördünüz mü? Elimizdeki basit bir
6:24
tablodan geleceğe dair somut bir tahmine
6:27
ulaştık. İşte veriden bilgiye uzanan
6:29
yolun gücü tam olarak bu. Harika bir
6:32
model kurduk. Geleceği tahmin ediyoruz.
6:35
Ama durun bir dedektif işini asla şansa
6:39
bırakmaz. Soruşturmadaki son ama belki
6:41
de en kritik adıma geldik. Vardığımız
6:44
sonuçlar ne kadar sağlam? Yani
6:47
modelimizi gerçek bir teste tabi tutma
6:50
zamanı. Elimizde çok havalı bir tahmin
6:52
makinesi var. Tamam. Ama asıl soru şu.
6:55
Bu makine ne kadar isabetli tahmin
6:57
yapıyor? Yaptığımız bu tahmine ne kadar
6:59
güvenebiliriz? İşte bu noktada doğrulama
7:02
ve değerlendirme adımı devreye giriyor.
7:05
Bu ne demek? Oluşturduğumuz modeli alıp
7:07
daha önce hiç görmediği yepyeni
7:10
verilerle karşılaştırıyoruz. Yani bir
7:12
nevi sınava sokuyoruz. Bu modelimizin
7:15
gerçek hayatta sahada ne kadar başarılı
7:17
olacağını anlamamız için hayati önem
7:19
taşıyor. Peki neden bu kadar üstünde
7:22
duruyoruz? Çünkü bu son kontrol
7:24
sayesinde birincisi modelimizin ne kadar
7:27
güvenilir olduğunu ölçüyoruz. İkincisi
7:30
gerçek dünyada nasıl bir performans
7:32
sergileyeceğini tahmin ediyoruz. Ve en
7:34
önemlisi bulduğumuz o harika örüntülerin
7:36
sadece birer tesadüf olmadığını
7:38
kendimize kanıtlamış oluyoruz. İşte
7:41
görüyorsunuz. Veri madenciliği aslında
7:43
verilerin içindeki o gizli hikayeleri, o
7:46
saklı kalmış sırları ortaya çıkarma
7:48
sanatı. Şimdi son bir soruyla bitirelim.
7:51
Peki sizin elinizdeki verilerde, sizin
7:53
işinizde, hayatınızda keşfedilmeyi
7:56
bekleyen hangi müthiş hikayeler yatıyor
7:58
olabilir?

