Veri Bilimcisi Olmak İçin Bilmeniz Gerekenler
Veri bilimci olarak kariyerinize başlamak için bir rehber
Veri bilimi, hem yapılandırılmış hem de yapılandırılmamış verilerden yararlı eğilimler ve içgörüler elde etme gücüne sahip yeni ve gelişmekte olan alanlardan biridir. Kaos içindeki kalıpları ortaya çıkarmak için bilimsel araştırma, algoritmalar ve grafikler kullanan ve bu kalıpları şaşırtıcı şeyler yaratmak için kullanan disiplinler arası bir alandır.
Bir veri bilimcisi olarak, bazı temel matematik, programlama bilmeniz ve kalıplar ve trend bulma konusunda keskin bir göze sahip olmanız gerekir. Alanın disiplinler arası doğası nedeniyle, veri bilimcileri kendilerini teknolojinin farklı ve geniş yönleri üzerinde çalışırken bulacaklar.
Bir veri bilimcisi olmak için neye ihtiyacınız olduğuna girmeden önce, önce veri bilimindeki bir işin gerektirdiklerinden bahsedelim.
Veri bilimcileri ne yapar?
Veri biliminde çalışmak, hız trenine binmeye benzer. İşin bazı yönleri yavaş ve sabitken diğerleri hızlı ve çılgınca. Diğer kısımları tıpkı bir döngüye girmek gibidir ve her şeyi defalarca tekrarlarsınız.
Bir veri bilimcisi yeni bir projeye başladığında, nihai sonuca varmak için bilinen bir dizi adımdan geçecektir.
Herhangi bir veri bilimi projesi veriyle başlar ve verilerle biter ve ikisi arasında sihir gerçekleşir.
İnternet üzerinden bakarsanız, bir veri bilimi projesinde farklı sayıda adımı ele alan birçok makale bulacaksınız. Bununla birlikte, adımların sayısına bakılmaksızın, temel yönler aynıdır. Benim için herhangi bir veri bilimi projesi 6 ana adımdan geçiyor.
Adım 1: Veri arka planını anlayın.
Bir veri bilimi projesine başladığımızda, genellikle bir sorunu çözmeyi, performansı artırmayı veya gelecekteki eğilimleri tahmin etmeyi amaçlıyoruz. Bunlardan herhangi birini yapmak için, önce verilerin kaynağının geçmişini ve nasıl üretildiğini kavramamız gerekir.
Adım 2: Veri toplayın.
Bu verilerin arka planını anladıktan sonra, üzerinde çalışmaya başlamak için verileri toplamamız gerekir. Projenin doğasına bağlı olarak, veri toplamak için farklı yaklaşımlar vardır. Bunu bir veritabanından, bir API’den veya – yeni başlıyorsanız veya sadece becerileriniz üzerinde çalışıyorsanız – açık bir veri kaynağından alabiliriz. Veri toplamanın başka bir yolu da kamuya açık bilgiler için ağzı sıkmaktır.
Adım 3: Verileri temizleyin ve dönüştürün.
Çoğu zaman olmasa da çoğu zaman kaynaktan topladığımız veriler saf ve ham. Bu tür veriler, algoritmalarda ve ilerideki adımlarda kullanılmaya uygun değildir. Yani, yeni veri aldığımızda yaptığımız ilk şey, verileri temizlemek, kategorize etmek, etiketlemek ve anlamlandırmaktır.
Adım 4: Verileri analiz edin ve keşfedin.
Verilerimiz temizlendikten ve yapılandırıldıktan sonra, onu analiz etmeye başlayabilir ve içinde kalıplar bulmaya çalışabiliriz. Bu, verileri görselleştirerek ve tekrarlar veya ani artışlar arayarak yapılabilir.
Adım 5: Verileri modelleyin.
Sonunda büyülü adıma ulaşıyoruz ! Verilerimizi keşfedip analiz ettikten sonra, bir makine öğrenimi algoritmasını besleme ve bunu gelecekteki sonuçları tahmin etmek için kullanma zamanı. Bu gerçekten veri biliminin gücüdür.
Adım 6: Sonuçları görselleştirin ve iletin.
Son olarak ve sürecin en önemli adımı, projenin sonuçlarını etkin bir şekilde görselleştirmek ve sunmaktır.
Bu adımlar tamamlandığında, yeni bir proje gelir ve her şeye yeniden başlama zamanı gelir.
Veri bilimi için hangi beceriler gereklidir?
Veri projesi yaşam döngüsünün her adımı belirli bir bilgi ve beceri kümesi gerektirir. İhtiyaç duyulan becerileri daha iyi birleştirmek için, projenin her aşamasını o adımı tamamlamak için gerekli beceriyle eşleştireceğim.
- Veri araştırması yapmak için sadece meraklı bir zihne, bir kaleme ve bir kağıda ihtiyacınız var. Oturun ve ya veri kaynağına veriyi daha iyi anlamak için bazı sorular sorun ya da açık kaynaklı bir veri ise, verilere eşlik eden belgeleri okuyun.
- Veri toplamayı gerçekleştirmek için veritabanları ve API’ler ile nasıl iletişim kuracağınızı bilmeniz gerekir. Bu tür tekniklerin temel yapısını ve mekaniğini anlamak, veri toplamanızı kolaylaştıracaktır. Açık kaynaklı bir veri kümesi kullanıyorsanız, veri kümelerini ve bazı iyi kaynakları nasıl arayacağınızı öğrenmek büyük bir fark yaratabilir.
- Gerçekleştirmek için veri temizleme , temel veri madenciliği ve temizlik bazı teknikler iyi bilgiye ihtiyacımız var. Verilerinizi etiketlemeniz ve uygun şekilde kategorilere ayırmanız gerekecektir. Dahası, yazım hatalarını aramak için normal ifadeleri kullanabilir veya bu işlemi sizin için kolaylaştırmak için oluşturulmuş özel araçları kullanabilirsiniz.
- Veri keşfi yapmak için bazı temel istatistiklere ve olasılık teorisine ihtiyacınız olacak. Bazı veri görselleştirme ve deneysel tasarım bilgileri bu aşamada size çok yardımcı olabilir.
- Veri modelleme yapmak için birkaç makine öğrenimi algoritmasını ve nasıl çalıştıklarını bilmeniz gerekir. Her şeyi% 100 anlamanıza gerek yok; bunları doğru şekilde kullanabilir ve doğru veri biçimine uygulayabilirseniz, sorun olmayacaktır.
- Son olarak, veri iletişimi gerçekleştirmek için bazı temel bilim iletişimi 101’i kullanabilirsiniz. Hangileri hedef kitlenizi bilmek, onların arka plan bilgilerini ve karmaşık kavramları açıklamak için acımasız kelimeleri seçmektir? Ek olarak, etkili veri görselleştirme projenizi bu aşamada yapabilir veya bozabilir.
Teknik aletler
Az önce bahsettiğimiz becerilerden bazıları bir programlama dili, bir algoritma veya özel paketler gerektirir.
- Programlama dilleri: Python, R.
- Veritabanlarının işlenmesi ve oluşturulması için: MySQL , PostgreSQL , MongoDB veya Python’da SQLite . R kullanıyorsanız, RMySQL kullanabilirsiniz.
- Veri keşfi ve dönüşümü için paketler: Python Pandas , Numpy veya Scipy’de . Veya R GGplot2 ve Dplyr’de.
- Görselleştirmeler için Python kitaplıkları: Matplotlib , Plotly , Pygal .
- Python Scikit-learn ve CARET için R’de temel makine öğrenimi paketi .
Sonuç
Veri bilimine başlamak için istatistik, matematik, makine öğrenimi hakkında her şeyi bilmenize veya profesyonel bir programcı olmanıza gerek yok. Sadece bu bilginin temellerine ihtiyacınız var. Farklı projeler üzerinde çalışıp profilinizi oluşturdukça, bilgi tabanınız genişleyecek ve “veri bilimi anlayışınız” otomatik olarak gelişecektir.
Bu nedenle, sahadan veya iyi bir veri bilimcisi olmak için kaç şeyde “ustalaşmanız” gerektiğinden korkmayın. Temel bilgilerle başlayın ve ileri düzey konulara doğru ilerleyin. Sabırlı olun ve her şeyinizi verin, oraya varacaksınız.
Sara A. Metwalli – TARAFINDAN YAZILMIŞTIR (Haber Kaynağı)
Quantum Computing üzerine çalışan doktora öğrencisi. Gezgin, yazarlık aşığı ve bilim meraklısı ve bilgisayar bilimi eğitmeni. “Sara A.Metwalli” ile iletişime geçmek için: bit.ly/2CvFAw6
Geri bildirim: Nasıl Makine Öğrenimi Mühendisi Olunur? - Bilişim Profesyonelleri