logo

শব্দ সনাক্তকরণে গভীর শিক্ষার মডেলগুলির প্রয়োগ

2022/09/10
শব্দ সনাক্তকরণে গভীর শিক্ষার মডেলগুলির প্রয়োগ
সংবাদ বিস্তারিত

শব্দ সনাক্তকরণে ডিপ লার্নিং মডেলগুলির প্রয়োগ একটি বিস্তৃত প্রযুক্তিগত কাঠামো তৈরি করেছে। এর মূল মূল্য হল এন্ড-টু-এন্ড লার্নিংয়ের মাধ্যমে উচ্চ-নির্ভুলতা, বহু-দৃশ্য শব্দ বৈশিষ্ট্য নিষ্কাশন এবং শব্দার্থিক উপলব্ধি অর্জন করা। নিম্নলিখিতগুলি হল মূল প্রযুক্তিগত প্রয়োগের দিকনির্দেশনা এবং সাধারণ মডেল আর্কিটেকচার:

১. অ্যাকোস্টিক বৈশিষ্ট্য নিষ্কাশন
সময়-ফ্রিকোয়েন্সি বিশ্লেষণের অপটিমাইজেশন
  • মেল-স্পেকট্রোগ্রাম থেকে স্থানীয় বৈশিষ্ট্য (যেমন হারমোনিক কাঠামো এবং ফরম্যান্ট) স্বয়ংক্রিয়ভাবে শিখতে CNN ব্যবহার করা, MFCCs ব্যবহার করে ঐতিহ্যবাহী ম্যানুয়াল বৈশিষ্ট্য প্রকৌশলের পরিবর্তে, এই পদ্ধতিটি UrbanSound8K ডেটাসেটে কোলাহলপূর্ণ পরিবেশে শ্রেণীবিভাগের নির্ভুলতা 27% বৃদ্ধি করে।
  • হালকা ওজনের মডেল যেমন MobileNetV3, গভীরতা-ভিত্তিক পৃথকীকরণযোগ্য কনভোলিউশন এবং PSA মনোযোগ মডিউল ব্যবহার করে, শুধুমাত্র 2.6M প্যারামিটার সহ 100% শীর্ষ-5 পাখির শব্দ সনাক্তকরণের নির্ভুলতা অর্জন করে।
উন্নত টাইম সিরিজ মডেলিং
  • CRNN হাইব্রিড আর্কিটেকচার (CNN + BiLSTM) শব্দ ইভেন্টগুলির বর্ণালী বৈশিষ্ট্য এবং অস্থায়ী নির্ভরতা উভয়ই একযোগে ক্যাপচার করে, কাঁচ ভাঙার মতো আকস্মিক ঘটনা সনাক্তকরণের জন্য 92.3% এর F1 স্কোর অর্জন করে।
  • ট্রান্সফরমার দীর্ঘ অডিও সিকোয়েন্স প্রক্রিয়া করতে একটি স্ব-মনোযোগ প্রক্রিয়া ব্যবহার করে, ক্ষুধা এবং ব্যথার জন্য শিশুদের কান্নার শ্রেণীবদ্ধকরণে 99% এর বেশি নির্ভুলতা অর্জন করে।
২. নির্দিষ্ট অ্যাপ্লিকেশন পরিস্থিতি
অ্যাপ্লিকেশন এলাকা প্রযুক্তিগত সমাধান কর্মক্ষমতা মেট্রিক্স
পোষা প্রাণীর স্বাস্থ্য পর্যবেক্ষণ RNN-ভিত্তিক ভয়েস ইমোশন বিশ্লেষণ সিস্টেম, 10টির বেশি ভয়েস প্রকারের শ্রেণীবিভাগ সমর্থন করে
স্মার্ট হোম নিরাপত্তা CNN+CTC ব্যবহার করে এন্ড-টু-এন্ড অস্বাভাবিক শব্দ সনাক্তকরণ প্রতিক্রিয়া বিলম্ব<200ms
চিকিৎসা সহায়তা রোগ নির্ণয় প্যাথলজিক্যাল কাশি সনাক্তকরণের জন্য ট্রান্সফার লার্নিং ভয়েসপ্রিন্ট মডেল (যেমন, Urbansound আর্কিটেকচার) AUC 0.98
৩. অত্যাধুনিক প্রযুক্তিগত অগ্রগতি
  • মাল্টিমোডাল ফিউশন: YOLOv8 ভিজ্যুয়াল মডেল এবং LSTM অডিও নেটওয়ার্কের যৌথ প্রশিক্ষণ একযোগে শিশুদের নড়াচড়া এবং কান্নার ফ্রিকোয়েন্সি বিশ্লেষণ করে, যা মিথ্যা পজিটিভ 38% কমিয়ে দেয়।
  • হালকা ওজনের স্থাপন: WT2605A-এর মতো চিপগুলি DNN ইনফারেন্স ইঞ্জিনকে একত্রিত করে, যা ভয়েসপ্রিন্ট স্বীকৃতি মডিউলের বিদ্যুতের ব্যবহার 15mW-এ কমিয়ে দেয়।

(দ্রষ্টব্য: টেবিলের রেফারেন্স সংখ্যাগুলি টেবিলের বাইরে নির্দেশিত হয়েছে।)