برنامه نویسی بینایی کامپیوتری برای خودروهای خودران

آموزش پردازش تصویر و بینایی ماشین با OpenCV

تحقیقات نشان داده است که استفاده از روش‌های CSG جهت مدل‌سازی اشیاء سه‌بُعدی، روش بهینه‌تری (از لحاظ حافظه) برای ذخیره اطلاعات سه‌بُعدی مرتبط با یک شیء (Object) است. برای چنین کاری، در گام اول باید موقعیت و جهت جدید دوربین نسبت به وضعیت قبلی مشخص شود. برای چنین کاری، «ویژگی‌های اسپارس» (Sparse Features) برجسته (لبه‌ها و گوشه‌هایی در تصاویر، که با احتمال بسیار بالا، با یکدیگر مطابقت داده شده‌اند) با یکدیگر مقایسه و موقعیت و جهت جدید آن‌ها «برون‌یابی» (Extrapolate) می‌شود. به محض اینکه پارامترهای جدید دوربین مشخص شدند، می‌توان پیکسل‌های سه‌بُعدی (Voxel) جدید را به صحنه بازسازی شده اضافه کرد. همچنین، با سوار کردن دو دوربین روی یک شاسی، ضبط کردن «جریان‌های ویدئویی» (Video Streams) از هر کدام از این دوربین‌ها و حرکت دادن دوربین‌ها در یک اتاق، می‌توان به «تصاویر دو سویی» (Stereo Images) متوالی دست پیدا کرد.

ناحیه بندی معنایی در مورد شناسایی چندین شی در یک تصویر و ارائه یک برچسب جداگانه برای هر یک از آن هاست. بدیهی است که می‌تواند همزمان یک خودرو، یک تابلوی راهنمایی ، یک دوچرخه سوار و یک کامیون در جاده وجود داشته باشد و این همان چیزی است که ناحیه بندی معنایی به آن مربوط می شود. اولین چالش را می توان با آموزش یک مدل بر روی داده های تحویل داده شده توسط سنسور به عنوان خروجی برطرف کرد، و در واقع مدل را به جای تشخیص تصویر ، به سمت تجزیه و تحلیل سیگنال سوئیچ کرد. برای پردازش تصاویر، روش های اکتشافی ساده ای برای ارائه روش های نیمه هوشمند مورد استفاده قرار گرفته است. به عنوان مثال، تحلیل گاما (Gamma Analysis)، دوربین ها را قادر می سازد تا بررسی کنند که آیا در یک ناحیه خاص مشکلی وجود دارد یا خیر. اغلب تصور می شود که بینایی کامپیوتر و بینایی ماشین یکسان هستند اما در واقع اصطلاحات متفاوتی برای فناوری های همپوشانی هستند.

در پایان، YOLO را بر اساس احتمال هر پنجره حاوی یک شی، پیش بینی هایی را ارائه می کند. با این حال، انسجام سیستم نباید به گونه ای باشد که به تشخیص نوع داده آسیبی وارد کند. یک مدل یادگیری ماشین باید بتواند پیش بینی ها و تخمین های دقیقی را براساس آنچه در جاده ها و خیابان ها «می‌بیند» ارائه دهد، که این به ورود داده های متنوع هنگام آموزش یک مدل نیاز دارد. C# اغلب در محیط‌های ویندوزی استفاده می‌شود، به‌ویژه برای برنامه‌های اتوماسیون صنعتی و سیستم‌های بینایی ماشینی مبتنی بر رابط‌های کاربری گرافیکی. پیچیدگی رانندگی در حالت نور کم بسیار متفاوت از رانندگی در حالت نور روز است، زیرا تصاویر گرفته شده در حالت نور کم اغلب مبهم و نامشخص هستند که رانندگی را ناامن می کند. با Computer Vision، وسایل نقلیه می توانند شرایط نور کم را تشخیص دهند و از حسگرهای LIDAR، سنسورهای HDR و دوربین های حرارتی برای ایجاد تصاویر و فیلم های با کیفیت بالا استفاده کنند.

همچنین، الگوریتم‌های جدید، با توانایی شناسایی خودکار ویژگی‌ها، نیاز به استخراج ویژگی‌های دستی را از بین برده‌اند. مفهوم وسایل نقلیه خودران اکنون با پیشرفت فناوری‌های Computer Vision در حال تبدیل شدن به واقعیت است. Computer Vision به ایجاد ادراک، مکان‌یابی و نقشه‌برداری، برنامه‌ریزی مسیر و استفاده مؤثر از کنترل‌کننده‌ها برای به حرکت درآوردن وسیله نقلیه کمک می‌کند. بینایی کامپیوتر برای وسایل نقلیه خودران هسته اصلی فناوری خودروهای خودران است. با استفاده از الگوریتم‌های تشخیص اشیا و همچنین استفاده از جدیدترین حسگرها و دوربین‌ها، وسایل نقلیه خودران می‌توانند محیط اطراف خود را تشخیص دهند و کل فرآیند رانندگی را ایمن‌تر و در دسترس‌تر می‌سازند.

در نتیجه برنامه‌نویسان جدید و مجرب پایتون به راحتی می‌توانند برنامۀ خود را توسعه دهند و دوربین‌های باسلر را بدون راه‌اندازی یک محیط توسعۀ پیچیده آزمایش کنند. این به طور قابل توجهی روند ارزیابی دوربین را سرعت می‌بخشد و بهره‌وری برنامه‌نویس را افزایش و هزینۀ کل پروژه را کاهش می‌دهد. بینایی ماشین می‌تواند در سیستم‌های داخلی خودرو، مانند دوربین‌های داخلی برای نظارت بر وضعیت راننده و مسافران، بهبود تجربه رانندگی و افزایش راحتی کمک کند. در خطوط تولید، بینایی ماشین قادر است نقص‌های جزئی و مشکلات ظاهری را که ممکن است از دید انسانی پنهان بمانند، شناسایی کند. این دقت بالا به بهبود کیفیت محصولات و کاهش نرخ بازگشت و هزینه‌های ضمانت کمک می‌کند. رویکرد Scanline روی «تصاویر اصلاح شده» (Rectified Image) اجرا می‌شود و خطوط افقی موجود در تصویر را یکی به یکی پردازش می‌کند.

تشخیص اشیاء در بینایی کامپیوتر یک فرآیند کلیدی است که به دو پرسش مهم پاسخ می‌دهد. “چه اشیائی در تصویر وجود دارند؟” و “این اشیاء در کجا قرار دارند؟” این فرآیند ترکیبی از طبقه‌بندی و مکان‌یابی است. در مرحله‌ی طبقه‌بندی، نوع یا دسته‌بندی هر شیء در تصویر شناسایی می‌شود؛ مانند تشخیص اینکه شیء مشخصی، یک سگ یا یک ماشین است. مکان‌یابی شامل مشخص کردن دقیق موقعیت هر شیء در تصویر با استفاده از کادرهای محصورکننده (Bounding Box) است که محدوده‌ی شیء را نشان می‌دهد. متأسفانه، سخت افزار و نرم افزار رایانه می توانند در برابر سوء استفاده های هکرها آسیب پذیر باشند.

پیش بینی می شود که خودروهای خودران در طی ۱۰ سال آینده به طور کامل فراگیر شوند. هدف این بخش ایجاد برنامه ای است که بتواند خطوط مسیر را در یک تصویر یا یک فریم ویدیویی تشخیص دهد. وقتی ما انسان ها رانندگی می کنیم ، از چشم و عقل برای رانندگی استفاده می کنیم. ما به راحتی می توانیم خطوط جاده را تشخیص دهیم و بر اساس آن عملیات را انجام می دهیم. اما انجام این کار با ماشین ها ، کار دشواری است و در آن زمان بینایی کامپیوتر وارد می شود.

چالش اصلی در تشخیص علائم راهنمایی و رانندگی در تشخیص سریع در یک محیط بسیار ناپایدار و درحال تغییر است. یک تابلو راهنمایی می تواند کثیف، پوشیده از برگ، آسیب دیده و یا مخدوش باشد. یکی از ویژگی‌های مهم بینایی ماشین در صنعت خودرو، توانایی آن در اتوماتیک‌سازی فرآیندهای تولید است. این سیستم‌ها می‌توانند وظایفی مانند مونتاژ قطعات، بازرسی و تست عملکرد را به صورت خودکار و با دقت بالا انجام دهند، که باعث افزایش بهره‌وری و کاهش هزینه‌های تولید می‌شود. در خطوط تولید خودرو، بینایی ماشین برای شناسایی نقص‌های کوچک و مشکلات سطحی که ممکن است از دید انسان پنهان بماند، استفاده می‌شود. این سیستم‌ها با دقت بالا به بررسی قطعات و محصولات نهایی می‌پردازند و به کاهش خطاها و بهبود کیفیت کمک می‌کنند.

از آنجایی که اشیاء ممکن است ویژگی‌های بافت و رنگ‌بندی مشترکی داشته باشند، استفاده از چنین رویکردی برای بازشناسی اشیاء، عملکرد مطلوبی را برای سیستم رقم نخواهد زد. همچنین روش‌های بازشناسی اشیاء در کاربردهای متنوعی نظیر شناسی بیماری‌ها در تصویربرداری زیستی (Bioimaging)، «بازرسی صنعتی» (Industrial Inspection) و «بینایی روباتیک» (Robotic Vision) مفید واقع می‌شوند. زمانی که موقعیت و جهت دوربین به مقدار اندکی تغییر کرده باشد، جهت کالیبره کردن سریع دوربین، «اطلاعات ویژگی» (Feature Information) نظیر «لبه» (Edge) گوشه (Corner) را می‌توان در صحنه ذخیره کرد. اصلاح یا پالایش ناهمخوانی (Disparity Refinement) به فرایند هموار کردن (Smoothing) نقشه ناهمخوانی نهایی گفته می‌شود؛ در نتیجه این فرایند، نقشه ناهمخوانی نهایی از بازه‌های گسسته شده به مقادیر پیوسته نگاشت یا تبدیل می‌شوند. برای اصلاح یا پالایش ناهمخوانی، فرایند هموارسازی نقشه ناهمخوانی با استفاده از بهترین مقادیر ناهمخوانی محاسبه شده و یا بر اساس مقادیر ناهمخوانی پیکسل‌های همسایه انجام می‌شود. در این مطلب، روی تکنیک‌های بینایی غیر فعال یا بینایی منفعل تمرکز می‌شود؛ به عنوان نمونه، جمع‌آوری نور از محیط عملیاتی (همانند فرایندی که در سیستم بینایی انسان انجام می‌شود).

سیستم ACRONYM از مفهومی به نام «اشیاء یا حجم‌های جاروب شده» (Swept Volumes) جهت مدل‌سازی سه‌بُعدی اشیاء استفاده می‌کند. اشیائی (حجم‌دار) نظیر «استوانه» (Cylinder)، «مکعب» (Cube)، «هرم» (Pyramid) حتی یک «بطری» (Bottle)، همگی اشیاء یا حجم‌های جاروب شده (Swept Volumes) هستند. روش کار ACRONYM بدین صورت است که ابتدا اشیاء جاروب شده (Swept Object) توسط این سیستم ساخته و سپس از طریق خوشه‌بندی کردن آن‌ها، یک مدل سه‌بُعدی از شیء ساخته می‌شود. با این حال، سیستم ACRONYM در تولید اشیاء سه‌بُعدی پیچیده با مشکل مواجه می‌شد، در نتیجه، توسعه آن توسط محققان و برنامه‌نویسان متوقف شده است. با این حال در چند دهه اخیر، با توجه به محدودیت‌های موجود در زمینه «ذخیره‌سازی داده» (Data Storage) به صورت فیزیکی، ذخیره‌سازی پیکسل‌ سه‌بُعدی امکان‌پذیر نبود.

با توجه به آن، مجموعه داده های با کیفیت و برچسب گذاری، برای مدل بسیار حائز اهمیت است. OpenCV یا Open Computer Vision Library به مجموعه‌ای از کتابخانه‌های برنامه‌نویسی پردازش تصویر و بینایی ماشین گفته می‌شود. OpenCV که بیشتر روی پردازش تصویر Real time یا بی‌درنگ متمرکز است دارای بیش از 2500 الگوریتم بهینه شده شامل مجموعه‌ای جامع از الگوریتم‌های بینایی کامپیوتر و یادگیری ماشین است. OpenCV کتابخانه‌ای چندسکویی است که توسط سیستم عامل‌های گوناگونی همچون ویندوز، لینوکس، Mac Os، IOS و اندروید پشتیبانی می‌شود. همچنین OpenCV دارای رابط برنامه‌نویسی به زبان‌های C++ ، C، پایتون، جاوا و متلب نیز هست. اصلی ترین و اساسی ترین وظیفه الگوریتم های بینایی کامپیوتری، تشخیص یک شی در تصویر است.

خودروهای خودران مانند تسلا به شدت به دوربین/بینایی کامپیوتر بستگی دارند در حالی که رقیب آن به Lidar بستگی دارد. ایلان ماسک در روز رونمایی از خودرو خودران بیان کرد که” لیدار کار افراد احمق است ، هر کسی به لیدار تکیه کند محکوم به فنا است! ما انسانها به شدت به حواس پنجگانه خود وابسته ایم تا آن چیزی را که در اطراف ما می گذرد تفسیر کنیم. هر حسی برای ما به یک اندازه مهم است.ما از چشم ها برای دیدن و درک بسیاری از چیزهای اطراف خود استفاده می کنیم. این به ما کمک می کند تا جاده اطراف خود را ببینیم ، موانع اطراف خود را ببینیم ، خطوط را تشخیص دهیم و موارد دیگر.

به طور طبیعی ، یکی از اولین کارهایی که در توسعه یک خودروی خودران انجام می شود ، تشخیص خودکار خطوط مسیر با استفاده از نوعی الگوریتم است. در این پروژه ، از پایتون و OpenCV برای شناسایی خودکار خطوط مسیر استفاده خواهیم کرد. شرکت هایک ربات، یک تولید کننده و عرضه کننده متخصص در بینایی ماشین و ربات های متحرک است. این شرکت با تمرکز بر IoT، لجستیک هوشمند و تولید هوشمند، به مشتریان صنعت و لجستیک خدمات ارائه می کند. ما در نمایندگی هایکروبات ایران، تمامی محصولات در تمام دسته بندی های معرفی شده توسط شرکت هایک روبات را پشتیبانی و برای فروش آماده میکنیم. پایتون به دلیل سادگی، اکوسیستم غنی و استفاده گسترده در تحقیقات هوش مصنوعی، زبان اصلی برای بینایی کامپیوتر محسوب می‌شود.

یک الگوریتم هوش مصنوعی همچنین می‌تواند بخشی از راه‌حل تشخیص تقلب باشد و داده‌ها را از منابع متعدد بگیرد و تجزیه‌وتحلیل کند تا از پردازش ادعاهای منصفانه اطمینان پیدا کند. بازسازی صحنه، به فرایند ساختن یک مدل سه‌بُعدی اطلاق می‌شود که نمایش دهنده تصویر گرفته شده توسط دوربین‌ها باشد. از جمله کاربردهای مهم این سیستم بینایی ماشین در جهان واقعی می‌توان به بازسازی محیط صحنه جرم و تحلیل آن اشاره کرد. هرچند این دو حوزه شباهت‌هایی دارند، بینایی ماشین بیشتر بر راه‌حل‌های پایدار و بلادرنگ برای کاربردهای صنعتی تأکید دارد، در حالی که بینایی کامپیوتر بر نوآوری‌های مبتنی بر هوش مصنوعی تمرکز دارد. پیش‌بینی‌های بازار نشان می‌دهد که چشم‌انداز رایانه‌ای برای وسایل نقلیه خودران به زودی به یک دوره انقلابی در رانندگی و نحوه برنامه‌ریزی شهرهایمان منجر خواهد شد.

با داده های مصنوعی کافی تولید شده برای تغییر الگوریتم و داده های واقعی برای اعتبار سنجی ، نتایج خوبی در این زمینه حاصل شده است. هنگامی که کار با وسیله نقلیه نیازی به دانستن رانندگی نداشته باشند، بسیار در دسترس تر می شود. کسانی که معمولاً نمی‌توانند پشت فرمان بنشینند، مانند افراد مسن یا افراد دارای معلولیت، می‌توانند با ماشین خودران خود به جایی که باید بروند. این امر به ویژه برای ارتقای دسترسی در مناطق روستایی، جایی که تمایل کمتری به حمل و نقل عمومی وجود دارد، مفید خواهد بود. بینایی کامپیوتر – که چشم و مغز تولید است – در ارائه خروجی­هایی با دقت میلی‌متری در بازه‌های زمانی کوتاه نقش اساسی دارد.

وجود کادرهای محدودکننده سه بعدی می‌تواند امکان تطبیق سه بعدی با حسگرهای سه بعدی مانند LiDAR را فراهم کند. این کار، امکان درک بهتر موقعیت یک وسیله نقلیه و سپس پیش بینی رفتار آن را فراهم می کند. کادرهای محدودکننده دوبعدی اغلب زمانی ارائه می شوند که مردم فناوری خودروهای خودران را فرا بگیرند. با توجه به اهمیت ویژه این دو حوزه، ما در مکتب خونه با افتخار دوره‌های آموزش هوش مصنوعی و آموزش پردازش تصویر را برای شما عزیزان برگزار می‌کنیم. این دوره‌ها با همکاری اساتید مجرب و تخصصی در این زمینه‌ها، به شما کمک خواهند کرد تا مهارت‌های لازم برای کار با الگوریتم‌ها، تکنیک‌ها و ابزارهای مورد نیاز را بدست آورید. همچنین مکتب خونه انواع دوره آموزش برنامه نویسی، از جمله آموزش پایتون را نیز برگزار می‌کند که می‌تواند پیش نیازهای شما در زمینه پردازش تصویر را پوشش دهد.

در روش‌های سنتی، ویژگی‌های هر شیء باید به‌صورت دستی تعریف می‌شد، اما با ظهور یادگیری عمیق، مدل‌ها می‌توانند به‌طور خودکار ویژگی‌های مناسب را از داده‌های تصویری یاد بگیرند و به سرعت و دقت بالایی در شناسایی اجسام دست یابند. این تکنیک‌ها در تشخیص چندگانه و پیچیده‌ی اشیاء بسیار موثر بوده و به علت قدرت محاسباتی بالا و دقتی که ارائه می‌دهند، در بسیاری از زمینه‌ها مورد توجه قرار گرفته‌اند. دوره آموزش پردازش تصویر و بینایی ماشین با OpenCV برای ایجاد یک پایه قوی در بینایی کامپیوتر طراحی شده است. در این دوره شما درک کاملی از تقریبا تمام ابزارهای OpenCV برای پردازش تصویر، بینایی کامپیوتری، پردازش ویدئو و اصول اولیه هوش مصنوعی خواهید داشت. تمامی مفاهیم آموزش داده شده در این دوره در پایتون پیاده‌سازی شده و دوره پیش رو شامل مباحث تئوری به همراه پیاده‌سازی های عملی است. آینده تشخیص اشیاء و فناوری‌های نوین در بینایی کامپیوتر بسیار نویدبخش است و می‌تواند تحول عظیمی در صنایع مختلف ایجاد کند.

در الگوریتم‌های تک‌مرحله‌ای مانند YOLO و SSD، طبقه‌بندی و مکان‌یابی اشیاء در یک مرحله انجام می‌شود و پردازش را سریع‌تر می‌کند؛ این ویژگی برای تشخیص بلادرنگ در وسایل نقلیه خودران و سیستم‌های نظارتی حیاتی است. از طرفی، الگوریتم‌های دو مرحله‌ای مثل R-CNN و Faster R-CNN با استفاده از شبکه‌های کانولوشنی، اشیاء را با دقت بیشتری شناسایی می‌کنند. این پیشرفت‌ها، یادگیری عمیق را در تشخیص اشیاء در صنایع مختلفی مثل پزشکی، روباتیک و امنیت به‌کار می‌گیرد و تحلیل سریع و دقیق تصاویر پیچیده را ممکن می‌سازد. در نهایت می‌توان گفت یادگیری عمیق، تشخیص اشیاء در بینایی کامپیوتر را به‌طور چشمگیری بهبود داده است. این پیشرفت‌ها باعث شده تا کاربردهایی نظیر خودروهای خودران، سیستم‌های امنیتی و تحلیل تصاویر پزشکی با دقت و سرعت بالاتری عملی شوند.

برای سازندگان وسایل نقلیه حیاتی است که بتوانند بر هر مرحله از ساخت خودرو و قطعه نظارت داشته باشند و دقیقاً بدانند چه زمانی می‌توانند انتظار داشته باشند که یک قطعه دقیقاً جاساز می‌شود. به همین دلیل است که زنجیره‌های تامین‌  مدرن اغلب به فناوری‌های پیشرفته اینترنت اشیا، بلاک‌چین و هوش مصنوعی متکی هستند. به‌طور خاص، سازندگان خودرو می‌توانند به راه‌حل‌هایی با تکیه بر الگوریتم‌های مختلف یادگیری ماشین و تحلیل‌های پیش‌بینی مبتنی بر هوش مصنوعی روی آورند. با کمک آنها، سازندگان می‌توانند تقاضا برای قطعات را برآورد کرده و تغییرات احتمالی در تقاضا را به‌موقع پیش‌بینی کنند. فورد یکی از شرکت‌هایی است که سرمایه‌گذاری زیادی در تجزیه‌وتحلیل زنجیره تامین‌ مبتنی بر هوش مصنوعی انجام داده تا یک سیستم نظارت بر ریسک، پیش‌بینی‌کننده و بهینه‌ساز هزینه‌های تولید بسازد.

این سیستم‌ها به خودرو کمک می‌کنند تا مسیر خود را به طور خودکار تعیین کند و تصمیمات ایمنی مانند توقف یا تغییر مسیر را اتخاذ کند. در حوزه پزشکی، تشخیص اشیاء کاربردهای ارزشمندی در تشخیص بیماری‌ها و تحلیل تصاویر پزشکی دارد. برای مثال، در تشخیص تومورهای سرطانی از تصاویر رادیولوژی و سی‌تی‌اسکن، تکنیک‌های تشخیص اشیاء به پزشکان کمک می‌کنند تا ناهنجاری‌ها و بیماری‌ها را با دقت و سرعت بیشتری شناسایی کنند. این فناوری همچنین در شناسایی بیماری‌های چشمی، تحلیل بافت‌ها و تشخیص بیماری‌های عروقی از تصاویر MRI و سونوگرافی به کار می‌رود. به این ترتیب، با استفاده از الگوریتم‌های پیشرفته یادگیری عمیق، تشخیص اشیاء در حوزه پزشکی امکان تشخیص‌های سریع‌تر و دقیق‌تر را فراهم کرده و به بهبود فرآیندهای درمانی کمک می‌کند.

مقاله اشاره شده که تصویر مربوط به آن است، با استفاده از یادگیری عمیق و هندسه ، رویکردی را برای تخمین کادرهای محدودکننده سه بعدی مورد بحث قرار می دهد. هر چه پارامترها و داده های چالش بر انگیز بیشتر باشد، یک شبکه عصبی عمیق مفیدتر و موثرتر خواهد بود و عملکرد بهتری خواهد داشت. یک الگوریتم یادگیری ماشین خطی را رسم می کند که دو کلاس را بر اساس ویژگی هایشان از هم جدا می کند. سپس نقاط جدید (ضربدر سفید) با توجه به موقعیت شان نسبت به خط پیش بینی می شود. در یادگیری نظارت شده باید به سیستم نشان دهیم که کدام تصویر نشان دهنده به یک ماشین است و کدام تصویر پس زمینه است. در این قسمت که در ادامه آشنایی با یادگیری عمیق و دسته بندی داده های چند کلاسه، به معرفی دیتاست MNIST میپردازیم که دیتاستی از اعداد دست نویس بین 0 تا 9 هست.

به زودی، با تبدیل ماشین‌ها به دستیاران هوشمند که سفرهای ما را راحت‌تر و ایمن‌تر می‌کنند، عبارت «تصادف به جاده» معنای جدیدی پیدا می‌کند. شبکه های عصبی عمیق (DNN) بسیار موثر هستند و امروزه برای بسیاری از مسائل پیچیده مانند دستیار صوتی، تجزیه و تحلیل تصویر و … مورد استفاده قرار می گیرند. این بخش زیرمجموعه یادگیری ماشین، در بسیاری از کاربردها، از هر الگوریتم دیگری عملکرد بهتری دارد. برای شروع با یادگیری ماشین و انواع آن ومفاهیم پایه ای رگرسیون خطی برای دسته بندی به عنوان یکی از کاربردهای یادگیری ماشین می پردازیم. به گزارش سایت scitechdaily یکی از ویژگی‌های برجسته این سیستم جدید این است که تنها با مشاهده چند تصویر از یک شیء می‌تواند شکل و ابعاد آن را در فضای سه‌بعدی شبیه‌سازی کند.

در حالی که کامپیوترها در برخی وظایف تشخیص تصویر از انسان ها عملکرد بهتری دارند، اما مواردی وجود دارد که به ویژه در زمینه وسایل نقلیه خودران چالش برانگیز هستند. بینایی ماشین قابلیت پردازش تصاویر در زمان واقعی را دارد، که این امر به خودروهای خودران کمک می‌کند تا به سرعت موانع، عابرین پیاده، علائم راهنمایی و رانندگی و سایر خودروها را شناسایی و تحلیل کنند. داده‌های کافی و متنوع برای آموزش مدل‌های بینایی کامپیوتر ضروری است؛ اما جمع‌آوری این داده‌ها در حوزه‌های حساس مانند پزشکی، با محدودیت‌های قانونی و اخلاقی روبرو است. بسیاری از مدل‌های یادگیری عمیق برای دستیابی به دقت بالا به داده‌های برچسب‌گذاری‌شده زیادی نیاز دارند، اما تأمین این داده‌ها دشوار است. همچنین، نیاز به تنظیمات پردازشی و قدرت محاسباتی بالا از دیگر محدودیت‌های تکنولوژی تشخیص اشیاء است که می‌توان با بهینه‌سازی بیشتر و دسترسی به سخت‌افزارهای قوی‌تر آن را بهبود بخشید.


برنامه نویسی ویکی پدیا