Dataset Augmentation

اذا كان لديك عدد قليل من البيانات dataset لتدريب النموذج في التعلم الالي فمن خلال هذه المكتبة الصغيرة في Python تستطيع عمل مجموعة بيانات ضخمة باستخدام تقنية تعزيز البيانات dataset augmentation
بعد شهور من العمل الشاق ، اذا كنت قد جمعت أنت وفريقك قدرًا هائلاً من البيانات لمشروع التعلم الآلي الخاص بكم.
ولكن بمجرد تدريب النموذج ، تبدأ في رؤية أن النموذج لا يعمم المشكلة جيدًا. البيانات التي جمعتها ليست كافية. دقة التدريب جيدة جدًا training accuracy ، ولكن في مجموعة التحقق test من الصحة ، تنخفض بشكل كبير.
من الناحية الفنية ، هذا ما نسميه بشكل مشهور التجهيز الزائد overfitting.
هناك طريقة لحل هذه المشكلة
* زيادة عدد البيانات ( في حال توفر عدد اكير من البيانات)
*لكن اذا لم تتوفر عدد اكثر من البيانات ماذا ستفعل؟؟
هنا يكمن طريقة تعزيز البيانات dataset augmentation
وقت ثبت أن زيادة البيانات تعمل على تحسين دقة نموذج التعلم الآلي دون جمع المزيد من البيانات. إنها تقنية شائعة يستخدمها العديد من مطوري التعلم الالي بكثرة .
ان جمع البيانات مهمة مكلفة في كثير من الحالات. قد تضطر إلى الدفع مقابل المعدات والأذونات ، ناهيك عن تصنيفها بعد الجمع.
خذ على سبيل المثال مشكلة تصنيف الصور الطبية. توجد قيود قانونية على كيفية جمع بيانات الرعاية الصحية. وبعد جمعها ، ولتمييزها ، تحتاج إلى خبرة المهنيين المهرة مثل الأطباء. وهذا ما اعاني منه انا بالفعل. حقا انها متعبة.
لذا قررت ان انشر هذا المقال لغرض الفائدة. سيناقش هذا المنشور أداة زيادة بيانات الصورة تسمى Albumentations من خلال الأمثلة. إنها مكتبة بايثون مفتوحة المصدر تم إصدارها بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.
الجميل في هذه الاداة انها تحافظ على مربع الإحاطة بالكائن object bounding box ما بعد التعزيز.
يمكن للمستخدم ان يقوم بتثبيت الاداة عن طريق تنفيذ الامر التالي في بيئه تنفيذ الاوامر command prompt
pip install -U albumentations


 

 

Comments

Popular posts from this blog

ماهو الفرق التصنيف و الانحدار (Difference Between Classification and Regression in Machine Learning)

How do I choose the number of epochs to get a good accuracy of CNN? كيف اختار عدد ال epochs للحصول على دقة جيدة في تكوين نموذج الشبكة العصبية التلافيفية CNN؟