Hot Post

6/recent/ticker-posts

Header Ads Widget

Data Science সিরিজ — পর্ব ১ / ২৫ (Data Science পরিচিতি)

📊
 Data Science সিরিজ — পর্ব ১ / ২৫
Data Science শেখো বাংলায়
Data Science পরিচিতি
Data Science কী, কেন শিখবে, Career কোথায়, কোন Tools লাগবে এবং কীভাবে শুরু করবে — সম্পূর্ণ বাংলায়
⏱ পড়তে সময় ~১৫ মিনিট  Beginner  Python 3.x

প্রতিদিন আমরা অসংখ্য ডিসিশন নিচ্ছি — কোন রাস্তায় যাব, কী কিনব, কোন চিকিৎসা নেব। এই ডিসিশনগুলো আরও ভালো হয় যখন ডেটার উপর ভিত্তি করে নেওয়া যায়। Data Science হলো সেই বিজ্ঞান যা ডেটা থেকে অর্থবহ তথ্য ও ভবিষ্যদ্বাণী বের করে।

 Data Science আসলে কী?

সহজ করে বললে — Data Science হলো ডেটা থেকে জ্ঞান বের করার বিজ্ঞান। এতে তিনটি বিষয় মিলে কাজ করে:

Statistics & Mathematics

ডেটা বোঝার ভাষা। গড়, বিচ্যুতি, সম্ভাবনা — এগুলো দিয়ে ডেটার মানে বের করা হয়।

Programming (Python)

ডেটা পরিষ্কার করা, বিশ্লেষণ করা ও মডেল তৈরি করার হাতিয়ার।

Domain Knowledge

ব্যবসা, স্বাস্থ্য বা বিদ্যুৎ — যে বিষয়ের ডেটা, সেই বিষয়ের জ্ঞান দরকার।

বাস্তব উদাহরণ: Grameenphone কোন এলাকায় নেটওয়ার্ক টাওয়ার বাড়াবে — এই সিদ্ধান্ত নিতে কোটি কোটি Call Record বিশ্লেষণ করে। এটাই Data Science।

 Data Science কেন শিখবে?

বিশ্বের সবচেয়ে দ্রুত বর্ধনশীল পেশাগুলোর একটি Data Science। কিছু কারণ:

 বেতন
বাংলাদেশে ৫০,০০০-২,০০,০০০+ টাকা। বিদেশে $80,000-$150,000+/বছর।
 চাহিদা
LinkedIn-এ "Data Scientist" সবচেয়ে বেশি search হওয়া job title।
易 Versatile
Healthcare, Finance, Agriculture, Energy — সব sector-এ কাজ।
 Bangladesh
BRAC, Dutch-Bangla Bank, bKash, Robi — সবাই Data Scientist খুঁজছে।
 Remote
Upwork, Toptal থেকে ঘরে বসে বিদেশী client-এর কাজ করা যায়।

তুমি যদি আগে Python সিরিজ শেষ করে থাকো, তাহলে Data Science শেখা তোমার জন্য অনেক সহজ হবে। NumPy ও Pandas তুমি আগেই শিখেছ!

樂 Data Science vs AI vs ML — পার্থক্য

অনেকে এই তিনটি term নিয়ে confused হয়। একটি সহজ তুলনা:

বিষয় Data Science Machine Learning AI
সংজ্ঞা ডেটা থেকে insight বের করা ডেটা থেকে শেখার Algorithm মানুষের মতো চিন্তা করা সিস্টেম
লক্ষ্য সিদ্ধান্ত নেওয়া ভবিষ্যদ্বাণী করা বুদ্ধিমত্তা তৈরি
Tools Pandas, SQL, Tableau scikit-learn, XGBoost TensorFlow, PyTorch
উদাহরণ বিক্রির Report বানানো পরের মাসের বিক্রি আন্দাজ ChatGPT, Self-driving car
কঠিনতা ★★★ ★★★★ ★★★★★

সহজে মনে রাখো: AI ⊃ ML ⊃ Data Science — AI সবচেয়ে বড় ছাতা, Data Science তার একটি অংশ। এই সিরিজে আমরা Data Science ও ML শিখব।

 Data Scientist কী কী কাজ করেন?

একজন Data Scientist-এর দৈনন্দিন কাজের ধাপগুলো:

Data Collection

Database, CSV, Web Scraping, API থেকে ডেটা সংগ্রহ। (আমাদের পর্ব ১০, ১৯)

Data Cleaning

Missing value, Duplicate, Outlier পরিষ্কার করা। সময়ের ৬০-৭০% এখানে যায়!

EDA (Exploratory Data Analysis)

Chart, Graph দিয়ে ডেটা বোঝা। Pattern ও Trend খোঁজা।

Model Building

ML Algorithm দিয়ে ভবিষ্যদ্বাণীর Model তৈরি।

Deployment & Storytelling

Model production-এ নিয়ে যাওয়া। Dashboard ও Report দিয়ে ফলাফল উপস্থাপন।

 Career ও Salary
Data Scientist BD: ৮০k-২L+ | Global: $90-130k

ডেটা বিশ্লেষণ ও ML Model তৈরি। সবচেয়ে চাহিদার পেশা।

Data Analyst BD: ৪০k-১L | Global: $60-85k

Report ও Dashboard তৈরি। Entry-level শুরুর জায়গা।

ML Engineer BD: ১L+ | Global: $110-150k

ML Model production-এ নেওয়া। Programming বেশি লাগে।

Data Engineer BD: ৮০k-১.৫L | Global: $95-130k

Data Pipeline তৈরি। SQL ও Cloud দক্ষতা দরকার।

শুরু করার পথ: Data Analyst → Data Scientist → ML Engineer। এই সিরিজ শেষে তুমি Data Analyst হিসেবে কাজ শুরু করার যোগ্য হবে।

 কোন Tools লাগবে?
NumPy

সংখ্যার Array ও Mathematical Operations। Data Science-এর ভিত্তি।

Pandas

Excel-এর মতো DataFrame। ডেটা পড়া, পরিষ্কার, বিশ্লেষণ।

Matplotlib & Seaborn

Chart ও Graph তৈরি। ডেটা Visualization।

scikit-learn

ML Algorithm-এর সবচেয়ে জনপ্রিয় Library।

Jupyter Notebook

কোড ও Result পাশাপাশি দেখানোর IDE। Local-এ চলে।

Google Colab

Browser-এ Jupyter। কোনো Installation লাগে না। GPU বিনামূল্যে!

এই সিরিজে আমরা Google Colab ব্যবহার করব — কারণ এটা বিনামূল্যে, ইনস্টল লাগে না এবং যেকোনো কম্পিউটারে চলে। পরে Jupyter Local-এ setup করা শেখাব।

 এই সিরিজের Roadmap

২৫টি পর্বে সম্পূর্ণ Data Science শেখার পথ:

Phaseপর্ববিষয়
 Foundation১-৫পরিচিতি, Setup, NumPy, Pandas, Data Cleaning
 Visualization৬-৯Matplotlib, Seaborn, Plotly, EDA
 Statistics১০-১৩Statistics, Probability, Hypothesis Testing
 Machine Learning১৪-২১Linear/Logistic Regression, Decision Tree, SVM, Clustering
 Advanced২২-২৫Neural Network, Pipeline, Final Project
 Environment Setup — Google Colab
 ৩ ধাপে শুরু করো (ইনস্টল কিছুই লাগবে না!)
colab.research.google.com-এ যাও

Google Account দিয়ে Login করো।

"New Notebook" ক্লিক করো

একটি নতুন Notebook খুলবে — Jupyter-এর মতো দেখতে।

প্রথম Cell-এ এই কোড লিখো ও Shift+Enter চাপো

সব Library আগেই installed — শুধু import করতে হবে!

# Colab-এ সব আগেই installed!
import numpy  as np
import pandas as pd
import matplotlib.pyplot as plt

print("NumPy  version:", np.__version__)
print("Pandas version:", pd.__version__)
print("✅ সব ঠিকঠাক! Data Science শুরু করা যাক!")
✔ আউটপুট
NumPy  version: 1.26.0
Pandas version: 2.1.0
✅ সব ঠিকঠাক! Data Science শুরু করা যাক!
⚡ প্রথম কোড — ৫ মিনিটে Data Analysis

চলো একটা বাস্তব উদাহরণ দিয়ে শুরু করি। এই কোড চালালেই Data Science-এর শক্তি বুঝতে পারবে:

import numpy  as np
import pandas as pd

# ৫ জন ছাত্রের বার্ষিক পরীক্ষার ফলাফল
data = {
    'নাম':      ['রাহিম', 'সালমা', 'করিম', 'নাসরিন', 'জামাল'],
    'বাংলা':    [85, 92, 72, 88, 65],
    'English':  [78, 95, 68, 91, 70],
    'গণিত':     [90, 88, 75, 82, 60],
    'বিজ্ঞান':  [82, 96, 70, 85, 55],
}

# DataFrame তৈরি
df = pd.DataFrame(data)

# গড় নম্বর যোগ করা — এক লাইনে!
df['গড়'] = df[['বাংলা','English','গণিত','বিজ্ঞান']].mean(axis=1).round(1)

# গ্রেড নির্ধারণ
def grade(avg):
    if   avg >= 80: return 'A+'
    elif avg >= 70: return 'A'
    elif avg >= 60: return 'B'
    else:           return 'C'

df['গ্রেড'] = df['গড়'].apply(grade)

# ফলাফল দেখাও
print("=" * 55)
print("    বার্ষিক পরীক্ষার ফলাফল")
print("=" * 55)
print(df[['নাম','বাংলা','English','গণিত','বিজ্ঞান','গড়','গ্রেড']].to_string(index=False))
print("=" * 55)
print(f"শ্রেণীর গড়:   {df['গড়'].mean():.1f}")
print(f"সর্বোচ্চ GPA: {df['গড়'].max()} ({df.loc[df['গড়'].idxmax(),'নাম']})")
print(f"A+ পেয়েছে:   {(df['গ্রেড']=='A+').sum()} জন")
✔ আউটপুট
======================================================
    বার্ষিক পরীক্ষার ফলাফল
======================================================
    নাম  বাংলা  English  গণিত  বিজ্ঞান   গড়  গ্রেড
  রাহিম     85       78    90       82  83.8    A+
  সালমা     92       95    88       96  92.8    A+
   করিম     72       68    75       70  71.2     A
 নাসরিন     88       91    82       85  86.5    A+
  জামাল     65       70    60       55  62.5     B
======================================================
শ্রেণীর গড়:   79.4
সর্বোচ্চ GPA: 92.8 (সালমা)
A+ পেয়েছে:   3 জন

মাত্র ২০ লাইন কোডে একটি সম্পূর্ণ Result Analysis! হাতে করতে ঘণ্টার কাজ Python-এ এক সেকেন্ডে। এটাই Data Science-এর সৌন্দর্য।

 এই পর্বে আমরা যা শিখলাম
  • Data Science হলো ডেটা থেকে জ্ঞান বের করার বিজ্ঞান
  • Statistics + Programming + Domain Knowledge — তিনের সমন্বয়
  • Data Science vs ML vs AI — পার্থক্য ও সম্পর্ক
  • Data Scientist-এর কাজের ৫টি ধাপ
  • Career পথ ও Bangladesh/Global Salary
  • NumPy, Pandas, Matplotlib, scikit-learn — মূল Tools
  • Google Colab — বিনামূল্যে Cloud IDE
  • প্রথম Data Analysis কোড — DataFrame দিয়ে Result Sheet
 নিজে চেষ্টা করো
  1. Colab খোলো এবং উপরের Result Analysis কোড চালাও।
  2. DataFrame-এ আরও ২ জন ছাত্র যোগ করো এবং নতুন ফলাফল দেখো।
  3. Grade function পরিবর্তন করে নতুন grade boundary দাও।
  4. Google Colab-এ একটি নতুন Notebook তৈরি করো এবং নিজের নামে Save করো।
  5. df.describe() লিখে চালাও — কী আউটপুট আসে দেখো।
⏭ পরের পর্বে কী থাকছে? — পর্ব ২: Jupyter Notebook ও Google Colab
  • Jupyter Notebook-এর সব Feature বিস্তারিত
  • Google Colab-এর Advanced ব্যবহার — GPU, Drive Mount
  • Markdown দিয়ে সুন্দর Notebook তৈরি
  • Notebook Share ও Publish করা
  • Local Jupyter vs Colab — কখন কোনটা?

Post a Comment

0 Comments