হিডেন লেয়ার (Hidden Layer) এবং ReLU বোঝা

পর্ব ১: হিডেন লেয়ারের গাণিতিক উদাহরণ

একটি আর্টিফিশিয়াল নিউরাল নেটওয়ার্কে, একটি হিডেন লেয়ার মূলত ইনপুট ভ্যালুগুলোকে ওয়েট (weights), বায়াস (bias) এবং একটি অ্যাক্টিভেশন ফাংশনের সাহায্যে প্রসেস করে। এর ফলে ইন্টারমিডিয়েট বা মধ্যবর্তী কিছু আউটপুট তৈরি হয় যা চূড়ান্ত প্রেডিকশন করতে সাহায্য করে।

ইনপুট

x₁ = 2

x₂ = 3

→

হিডেন লেয়ার

→

আউটপুট

Output

ধাপ ১: ওয়েট (Weights) নির্ধারণ

হিডেন নিউরন H1: w₁ = 0.5 (x₁ থেকে), w₂ = 0.4 (x₂ থেকে) | বায়াস = 0.1

হিডেন নিউরন H2: w₃ = 0.3, w₄ = 0.7 | বায়াস = 0.2

ধাপ ২: হিডেন লেয়ারের মান গণনা

নিউরন H1:

H1 = (2 × 0.5) + (3 × 0.4) + 0.1 = 1 + 1.2 + 0.1 = 2.3

নিউরন H2:

H2 = (2 × 0.3) + (3 × 0.7) + 0.2 = 0.6 + 2.1 + 0.2 = 2.9

ধাপ ৩: অ্যাক্টিভেশন ফাংশন (ReLU) প্রয়োগ

সূত্র: f(x) = max(0, x)

ReLU(2.3) = 2.3 (H1 আউটপুট)
ReLU(2.9) = 2.9 (H2 আউটপুট)

ধাপ ৪: চূড়ান্ত আউটপুট গণনা

হিডেন থেকে আউটপুটের ওয়েট: v₁ = 0.6, v₂ = 0.5 | বায়াস = 0.3

Output = (2.3 × 0.6) + (2.9 × 0.5) + 0.3

Output = 1.38 + 1.45 + 0.3 = 3.13

        ✓ মূল ধারণা: হিডেন লেয়ার ডেটার ভেতরের প্যাটার্ন শেখার জন্য ওয়েট এবং অ্যাক্টিভেশন ফাংশন ব্যবহার করে গাণিতিক হিসাব সম্পন্ন করে। আমাদের নেটওয়ার্কটির চূড়ান্ত প্রেডিকশন হলো: 3.13।
    

পর্ব ২: ReLU অ্যাক্টিভেশন ফাংশন

রেক্টিফাইড লিনিয়ার ইউনিট (ReLU) হলো আর্টিফিশিয়াল নিউরাল নেটওয়ার্কে ব্যবহৃত একটি সহজ কিন্তু অত্যন্ত জনপ্রিয় অ্যাক্টিভেশন ফাংশন। ইনপুট যদি পজিটিভ হয়, তবে এটি ঠিক সেই ইনপুটটিই আউটপুট হিসেবে দেয়, আর নেগেটিভ হলে শূন্য (zero) আউটপুট দেয়।

একনজরে কিছু তথ্য

বৈশিষ্ট্য	বিবরণ
সূত্র (Formula)	f(x) = max(0, x)
পরিচিতি লাভ	২০১০ সালে (Nair & Hinton এর মাধ্যমে জনপ্রিয় হয়)
ডেরিভেটিভ	1 (যখন x > 0), 0 (যখন x ≤ 0)
ভ্যারিয়েন্টসমূহ	Leaky ReLU, Parametric ReLU (PReLU), Exponential Linear Unit (ELU)
প্রধান ব্যবহার	ডিপ নিউরাল নেটওয়ার্কের হিডেন লেয়ারে

কৌশল বা মেকানিজম

ReLU জিরো বা শূন্যতে একটি থ্রেশহোল্ড প্রয়োগ করে: পজিটিভ সিগন্যালগুলো অপরিবর্তিত থাকে, আর নেগেটিভ সিগন্যালগুলো শূন্য হয়ে যায়। এই সিলেক্টিভ বা বাছাইকৃত অ্যাক্টিভেশনের ফলে একটি স্পার্স রিপ্রেজেন্টেশন (sparse representation) তৈরি হয়, যা নেটওয়ার্কের দক্ষতা এবং জেনারেলাইজেশন বাড়ায়। ব্যাকপ্রোপাগেশনের সময় এটি গ্র্যাডিয়েন্টকে স্থিতিশীল রাখে।

সুবিধা এবং প্রভাব

পজিটিভ ইনপুটের ক্ষেত্রে এর লিনিয়ারিটির কারণে ভ্যানিশিং গ্র্যাডিয়েন্ট (vanishing gradient) সমস্যা কমে যায়, যা ডিপ আর্কিটেকচারগুলোকে (যেমন CNN) দক্ষতার সাথে ট্রেইন করতে সাহায্য করে। এক্সপোনেনশিয়াল ফাংশনগুলোর তুলনায় এটি কম্পিউট করতে অনেক কম সময় নেয়, যে কারণে এটি TensorFlow এবং PyTorch-এর মতো ফ্রেমওয়ার্কে ডিফল্ট অ্যাক্টিভেশন ফাংশন হিসেবে ব্যবহৃত হয়।

সীমাবদ্ধতা এবং ভ্যারিয়েন্ট

এটি "ডেড নিউরন (dead neurons)" তৈরি করতে পারে, যেখানে ইনপুট সবসময় নেগেটিভ থাকলে নিউরনগুলো কাজ করা বন্ধ করে দেয়। এর সমাধানগুলো হলো:

Leaky ReLU: একটি ছোট নেগেটিভ স্লোপ (যেমন 0.01x) প্রদান করে।
PReLU: এই স্লোপটিকে ট্রেনিংয়ের সময় লার্নেবল বা শেখার যোগ্য করে তোলে।
ELU/SELU: নেগেটিভ অংশগুলোকে মসৃণ (smooth) করে।

ব্যবহার (Applications)

ইমেজ ক্লাসিফিকেশন, ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং, স্পিচ রিকগনিশন এবং রিইনফোর্সমেন্ট লার্নিংয়ের মডেলগুলোতে মূল ভিত্তি হিসেবে ReLU ব্যবহৃত হয়। এর সরলতা এবং শক্তিশালী পারফরম্যান্স ডিপ লার্নিংয়ের সাফল্যের অন্যতম চাবিকাঠি।