logo

শব্দ সনাক্তকরণে গভীর শিক্ষার মডেলগুলির প্রয়োগ

2022/09/10
শব্দ সনাক্তকরণে গভীর শিক্ষার মডেলগুলির প্রয়োগ
News Detail

শব্দ সনাক্তকরণে ডিপ লার্নিং মডেলগুলির প্রয়োগ একটি বিস্তৃত প্রযুক্তিগত কাঠামো তৈরি করেছে। এর মূল মূল্য হল এন্ড-টু-এন্ড লার্নিংয়ের মাধ্যমে উচ্চ-নির্ভুলতা, বহু-দৃশ্য শব্দ বৈশিষ্ট্য নিষ্কাশন এবং শব্দার্থিক উপলব্ধি অর্জন করা। নিম্নলিখিতগুলি হল মূল প্রযুক্তিগত প্রয়োগের দিকনির্দেশনা এবং সাধারণ মডেল আর্কিটেকচার:

১. অ্যাকোস্টিক বৈশিষ্ট্য নিষ্কাশন
সময়-ফ্রিকোয়েন্সি বিশ্লেষণের অপটিমাইজেশন
  • মেল-স্পেকট্রোগ্রাম থেকে স্থানীয় বৈশিষ্ট্য (যেমন হারমোনিক কাঠামো এবং ফরম্যান্ট) স্বয়ংক্রিয়ভাবে শিখতে CNN ব্যবহার করা, MFCCs ব্যবহার করে ঐতিহ্যবাহী ম্যানুয়াল বৈশিষ্ট্য প্রকৌশলের পরিবর্তে, এই পদ্ধতিটি UrbanSound8K ডেটাসেটে কোলাহলপূর্ণ পরিবেশে শ্রেণীবিভাগের নির্ভুলতা 27% বৃদ্ধি করে।
  • হালকা ওজনের মডেল যেমন MobileNetV3, গভীরতা-ভিত্তিক পৃথকীকরণযোগ্য কনভোলিউশন এবং PSA মনোযোগ মডিউল ব্যবহার করে, শুধুমাত্র 2.6M প্যারামিটার সহ 100% শীর্ষ-5 পাখির শব্দ সনাক্তকরণের নির্ভুলতা অর্জন করে।
উন্নত টাইম সিরিজ মডেলিং
  • CRNN হাইব্রিড আর্কিটেকচার (CNN + BiLSTM) শব্দ ইভেন্টগুলির বর্ণালী বৈশিষ্ট্য এবং অস্থায়ী নির্ভরতা উভয়ই একযোগে ক্যাপচার করে, কাঁচ ভাঙার মতো আকস্মিক ঘটনা সনাক্তকরণের জন্য 92.3% এর F1 স্কোর অর্জন করে।
  • ট্রান্সফরমার দীর্ঘ অডিও সিকোয়েন্স প্রক্রিয়া করতে একটি স্ব-মনোযোগ প্রক্রিয়া ব্যবহার করে, ক্ষুধা এবং ব্যথার জন্য শিশুদের কান্নার শ্রেণীবদ্ধকরণে 99% এর বেশি নির্ভুলতা অর্জন করে।
২. নির্দিষ্ট অ্যাপ্লিকেশন পরিস্থিতি
অ্যাপ্লিকেশন এলাকা প্রযুক্তিগত সমাধান কর্মক্ষমতা মেট্রিক্স
পোষা প্রাণীর স্বাস্থ্য পর্যবেক্ষণ RNN-ভিত্তিক ভয়েস ইমোশন বিশ্লেষণ সিস্টেম, 10টির বেশি ভয়েস প্রকারের শ্রেণীবিভাগ সমর্থন করে
স্মার্ট হোম নিরাপত্তা CNN+CTC ব্যবহার করে এন্ড-টু-এন্ড অস্বাভাবিক শব্দ সনাক্তকরণ প্রতিক্রিয়া বিলম্ব<200ms
চিকিৎসা সহায়তা রোগ নির্ণয় প্যাথলজিক্যাল কাশি সনাক্তকরণের জন্য ট্রান্সফার লার্নিং ভয়েসপ্রিন্ট মডেল (যেমন, Urbansound আর্কিটেকচার) AUC 0.98
৩. অত্যাধুনিক প্রযুক্তিগত অগ্রগতি
  • মাল্টিমোডাল ফিউশন: YOLOv8 ভিজ্যুয়াল মডেল এবং LSTM অডিও নেটওয়ার্কের যৌথ প্রশিক্ষণ একযোগে শিশুদের নড়াচড়া এবং কান্নার ফ্রিকোয়েন্সি বিশ্লেষণ করে, যা মিথ্যা পজিটিভ 38% কমিয়ে দেয়।
  • হালকা ওজনের স্থাপন: WT2605A-এর মতো চিপগুলি DNN ইনফারেন্স ইঞ্জিনকে একত্রিত করে, যা ভয়েসপ্রিন্ট স্বীকৃতি মডিউলের বিদ্যুতের ব্যবহার 15mW-এ কমিয়ে দেয়।

(দ্রষ্টব্য: টেবিলের রেফারেন্স সংখ্যাগুলি টেবিলের বাইরে নির্দেশিত হয়েছে।)