-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathCRISP-DM-2.py
62 lines (51 loc) · 1.8 KB
/
CRISP-DM-2.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
# CRISP-DM VERİNİN ANLAŞILMASI aşaması
import pandas as pd
import csv
import numpy as np
rawData = pd.read_csv('data/data-set.csv')
# Satır ve sütün sayısı
print("\nSatır ve sütün sayısı")
print("-" * 50)
print(rawData.shape)
print("\n")
# Eksik veri kontrolü gerçekleştirilir.
print("Eksik veri kontrolü:")
print("-" * 50)
print(rawData.info())
print("\n")
# Satırlar benzersiz mi?
print("Satırlar benzersiz mi?")
print("-" * 50)
print(rawData.text.duplicated(keep="first").value_counts())
print("\n")
# Categorilerin incelenmesi
print("Kategorilerin incelenmesi")
print("-" * 50)
print("Sayısı : ", len(rawData.category.unique()))
print("\n")
print("Her bir kategoriye ait kayıt sayısı")
print("-" * 40)
print(rawData.category.value_counts())
print("\n")
# Kategorilerin içerdiği veri sayısını csv olarak dışa aktarılması (sunum için)
categoryAnaliz = rawData.category.value_counts()
categoryAnaliz.to_csv(path_or_buf="data/category-count.csv")
category_istatistik = (categoryAnaliz.describe() / 100).astype(np.int64)
category_istatistik = category_istatistik.drop('count')
category_istatistik.to_csv("data/category-istatistik.csv")
# Her satırın kelime sayısının incelenmesi
print("Her satırın kelime sayısının incelenmesi")
print("-" * 50)
rawData.insert(2, "kelime", [len(data.split()) for data in rawData['text'].tolist()],True)
print(rawData.head(4))
print("\n")
print("Kelime sayısı analizi")
print("-" * 50)
print(rawData['kelime'].describe())
print("\n")
# Verilerin istatiski bilgilerinı csv olarak dışa aktarılması (sunum için)
desc = rawData.kelime.describe()
desc = desc.drop('count').astype(np.int64)
desc.to_csv("data/kelime-istatistikleri.csv")
desc = rawData.kelime.value_counts()
desc = desc.drop