প্রতিদিন আমরা অসংখ্য ডিসিশন নিচ্ছি — কোন রাস্তায় যাব, কী কিনব, কোন চিকিৎসা নেব। এই ডিসিশনগুলো আরও ভালো হয় যখন ডেটার উপর ভিত্তি করে নেওয়া যায়। Data Science হলো সেই বিজ্ঞান যা ডেটা থেকে অর্থবহ তথ্য ও ভবিষ্যদ্বাণী বের করে।
সহজ করে বললে — Data Science হলো ডেটা থেকে জ্ঞান বের করার বিজ্ঞান। এতে তিনটি বিষয় মিলে কাজ করে:
ডেটা বোঝার ভাষা। গড়, বিচ্যুতি, সম্ভাবনা — এগুলো দিয়ে ডেটার মানে বের করা হয়।
ডেটা পরিষ্কার করা, বিশ্লেষণ করা ও মডেল তৈরি করার হাতিয়ার।
ব্যবসা, স্বাস্থ্য বা বিদ্যুৎ — যে বিষয়ের ডেটা, সেই বিষয়ের জ্ঞান দরকার।
বাস্তব উদাহরণ: Grameenphone কোন এলাকায় নেটওয়ার্ক টাওয়ার বাড়াবে — এই সিদ্ধান্ত নিতে কোটি কোটি Call Record বিশ্লেষণ করে। এটাই Data Science।
বিশ্বের সবচেয়ে দ্রুত বর্ধনশীল পেশাগুলোর একটি Data Science। কিছু কারণ:
তুমি যদি আগে Python সিরিজ শেষ করে থাকো, তাহলে Data Science শেখা তোমার জন্য অনেক সহজ হবে। NumPy ও Pandas তুমি আগেই শিখেছ!
অনেকে এই তিনটি term নিয়ে confused হয়। একটি সহজ তুলনা:
| বিষয় | Data Science | Machine Learning | AI |
|---|---|---|---|
| সংজ্ঞা | ডেটা থেকে insight বের করা | ডেটা থেকে শেখার Algorithm | মানুষের মতো চিন্তা করা সিস্টেম |
| লক্ষ্য | সিদ্ধান্ত নেওয়া | ভবিষ্যদ্বাণী করা | বুদ্ধিমত্তা তৈরি |
| Tools | Pandas, SQL, Tableau | scikit-learn, XGBoost | TensorFlow, PyTorch |
| উদাহরণ | বিক্রির Report বানানো | পরের মাসের বিক্রি আন্দাজ | ChatGPT, Self-driving car |
| কঠিনতা | ★★★ | ★★★★ | ★★★★★ |
সহজে মনে রাখো: AI ⊃ ML ⊃ Data Science — AI সবচেয়ে বড় ছাতা, Data Science তার একটি অংশ। এই সিরিজে আমরা Data Science ও ML শিখব।
একজন Data Scientist-এর দৈনন্দিন কাজের ধাপগুলো:
Database, CSV, Web Scraping, API থেকে ডেটা সংগ্রহ। (আমাদের পর্ব ১০, ১৯)
Missing value, Duplicate, Outlier পরিষ্কার করা। সময়ের ৬০-৭০% এখানে যায়!
Chart, Graph দিয়ে ডেটা বোঝা। Pattern ও Trend খোঁজা।
ML Algorithm দিয়ে ভবিষ্যদ্বাণীর Model তৈরি।
Model production-এ নিয়ে যাওয়া। Dashboard ও Report দিয়ে ফলাফল উপস্থাপন।
ডেটা বিশ্লেষণ ও ML Model তৈরি। সবচেয়ে চাহিদার পেশা।
Report ও Dashboard তৈরি। Entry-level শুরুর জায়গা।
ML Model production-এ নেওয়া। Programming বেশি লাগে।
Data Pipeline তৈরি। SQL ও Cloud দক্ষতা দরকার।
শুরু করার পথ: Data Analyst → Data Scientist → ML Engineer। এই সিরিজ শেষে তুমি Data Analyst হিসেবে কাজ শুরু করার যোগ্য হবে।
সংখ্যার Array ও Mathematical Operations। Data Science-এর ভিত্তি।
Excel-এর মতো DataFrame। ডেটা পড়া, পরিষ্কার, বিশ্লেষণ।
Chart ও Graph তৈরি। ডেটা Visualization।
ML Algorithm-এর সবচেয়ে জনপ্রিয় Library।
কোড ও Result পাশাপাশি দেখানোর IDE। Local-এ চলে।
Browser-এ Jupyter। কোনো Installation লাগে না। GPU বিনামূল্যে!
এই সিরিজে আমরা Google Colab ব্যবহার করব — কারণ এটা বিনামূল্যে, ইনস্টল লাগে না এবং যেকোনো কম্পিউটারে চলে। পরে Jupyter Local-এ setup করা শেখাব।
২৫টি পর্বে সম্পূর্ণ Data Science শেখার পথ:
| Phase | পর্ব | বিষয় |
|---|---|---|
| Foundation | ১-৫ | পরিচিতি, Setup, NumPy, Pandas, Data Cleaning |
| Visualization | ৬-৯ | Matplotlib, Seaborn, Plotly, EDA |
| Statistics | ১০-১৩ | Statistics, Probability, Hypothesis Testing |
| Machine Learning | ১৪-২১ | Linear/Logistic Regression, Decision Tree, SVM, Clustering |
| Advanced | ২২-২৫ | Neural Network, Pipeline, Final Project |
Google Account দিয়ে Login করো।
একটি নতুন Notebook খুলবে — Jupyter-এর মতো দেখতে।
সব Library আগেই installed — শুধু import করতে হবে!
# Colab-এ সব আগেই installed!
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
print("NumPy version:", np.__version__)
print("Pandas version:", pd.__version__)
print("✅ সব ঠিকঠাক! Data Science শুরু করা যাক!")
NumPy version: 1.26.0 Pandas version: 2.1.0 ✅ সব ঠিকঠাক! Data Science শুরু করা যাক!
চলো একটা বাস্তব উদাহরণ দিয়ে শুরু করি। এই কোড চালালেই Data Science-এর শক্তি বুঝতে পারবে:
import numpy as np
import pandas as pd
# ৫ জন ছাত্রের বার্ষিক পরীক্ষার ফলাফল
data = {
'নাম': ['রাহিম', 'সালমা', 'করিম', 'নাসরিন', 'জামাল'],
'বাংলা': [85, 92, 72, 88, 65],
'English': [78, 95, 68, 91, 70],
'গণিত': [90, 88, 75, 82, 60],
'বিজ্ঞান': [82, 96, 70, 85, 55],
}
# DataFrame তৈরি
df = pd.DataFrame(data)
# গড় নম্বর যোগ করা — এক লাইনে!
df['গড়'] = df[['বাংলা','English','গণিত','বিজ্ঞান']].mean(axis=1).round(1)
# গ্রেড নির্ধারণ
def grade(avg):
if avg >= 80: return 'A+'
elif avg >= 70: return 'A'
elif avg >= 60: return 'B'
else: return 'C'
df['গ্রেড'] = df['গড়'].apply(grade)
# ফলাফল দেখাও
print("=" * 55)
print(" বার্ষিক পরীক্ষার ফলাফল")
print("=" * 55)
print(df[['নাম','বাংলা','English','গণিত','বিজ্ঞান','গড়','গ্রেড']].to_string(index=False))
print("=" * 55)
print(f"শ্রেণীর গড়: {df['গড়'].mean():.1f}")
print(f"সর্বোচ্চ GPA: {df['গড়'].max()} ({df.loc[df['গড়'].idxmax(),'নাম']})")
print(f"A+ পেয়েছে: {(df['গ্রেড']=='A+').sum()} জন")
======================================================
বার্ষিক পরীক্ষার ফলাফল
======================================================
নাম বাংলা English গণিত বিজ্ঞান গড় গ্রেড
রাহিম 85 78 90 82 83.8 A+
সালমা 92 95 88 96 92.8 A+
করিম 72 68 75 70 71.2 A
নাসরিন 88 91 82 85 86.5 A+
জামাল 65 70 60 55 62.5 B
======================================================
শ্রেণীর গড়: 79.4
সর্বোচ্চ GPA: 92.8 (সালমা)
A+ পেয়েছে: 3 জন
মাত্র ২০ লাইন কোডে একটি সম্পূর্ণ Result Analysis! হাতে করতে ঘণ্টার কাজ Python-এ এক সেকেন্ডে। এটাই Data Science-এর সৌন্দর্য।
- Data Science হলো ডেটা থেকে জ্ঞান বের করার বিজ্ঞান
- Statistics + Programming + Domain Knowledge — তিনের সমন্বয়
- Data Science vs ML vs AI — পার্থক্য ও সম্পর্ক
- Data Scientist-এর কাজের ৫টি ধাপ
- Career পথ ও Bangladesh/Global Salary
- NumPy, Pandas, Matplotlib, scikit-learn — মূল Tools
- Google Colab — বিনামূল্যে Cloud IDE
- প্রথম Data Analysis কোড — DataFrame দিয়ে Result Sheet
- Colab খোলো এবং উপরের Result Analysis কোড চালাও।
- DataFrame-এ আরও ২ জন ছাত্র যোগ করো এবং নতুন ফলাফল দেখো।
- Grade function পরিবর্তন করে নতুন grade boundary দাও।
- Google Colab-এ একটি নতুন Notebook তৈরি করো এবং নিজের নামে Save করো।
- df.describe() লিখে চালাও — কী আউটপুট আসে দেখো।
- Jupyter Notebook-এর সব Feature বিস্তারিত
- Google Colab-এর Advanced ব্যবহার — GPU, Drive Mount
- Markdown দিয়ে সুন্দর Notebook তৈরি
- Notebook Share ও Publish করা
- Local Jupyter vs Colab — কখন কোনটা?

0 Comments