برای نازنین
 
فناوری OCR چیست؟

OCR مخفف Optical Character Recognition و یا Optical Character Reader می باشد و در واقع نرم افزار متن خوانی است که برای تشخیص و بازیابی الفبا و نوشته های دست نویس یا تایپ شده طراحی شده است. OCR را در فارسی نویسه خوان نوری ترجمه کرده اند.
پس با این نرم افزار می توان متن های دست نویس یا متونی را که قبلا با ماشین تحریر تایپ شده و یا نوشته های چاپ شده را به صورت خودکار به متن های کامپیوتری تبدیل نموده و در آن ذخیره کرد. یعنی تبدیل تصاویر کلمات به کدهای کلمات (قابل ذخیره در داخل کامپیوتر) و می دانیم هر متنی که در کامپیوتر ذخیره شد می توان روی آن پردازش های دلخواه انجام داد. مثلا آن را می توان ویرایش کرد. یا به عنوان مثال یکی از کاربردهای آن را می توان تبدیل حروف و نوشته های خطی، به خط بریل (مخصوص نابینایان) دانست و به این ترتیب همه نوشته های بشر توسط نابینایان قابل خوانده شدن است.

البته استفاده از OCR تنها برای تبدیل تصویر متون تایپ شده به متن تایپی نیست. بلکه هر جا شما عکسی داسته باشید که در قسمتی از آن حرف یا شماره ای وجود داشته باشد، نرم افزار OCR آن را تشخیص می دهد. به عنوان مثال می توان از آن در دوربین های هوشمند سرعت سنج جاده ها استفاده کرد. دوربین سرعت سنج؛ به صورت مستمر؛ سرعت خودرو ها را اندازه گیری می کند و بعد از شناسائی خودروی متخلف، از پلاک خودرو عکس می گیرد و حالا با استفاده از همین نرم افزار OCR و بدون دخالت انسان می توان شماره پلاک ماشین را شناسایی کرده و در سیستم ذخیره نمود و یا آن را به مرکز پلیس اطلاع داد.


توضیح بیشتر

بعد از آنکه تصویر حاوی متن را اسکن می کنیم رایانه پردازشی را بر روی تصویر انجام می دهد. ابتدا تصویر را به قسمت ها یا Partition های مجزا تقسیم می کند. بعد با استفاده از الگوریتم های پردازش تصویر و هوش مصنوعی حروف کاراکترهایی را از درون متن استخراج می کند. اما ممکن است متن شما هنگام عکسبرداری چرخیده باشد. در نتیجه کامپیوتر عکس را چند درجه می چرخاند و باز عمل قبل را بر روی آن انجام می دهد و نتیجه را به دست می آورد. البته در اکثر موارد کار به همین راحتی که گفته می شود نیست و کلی عملیات پیچیده دیگر باید روی تصویر انجام بگیرد.


انواع OCR
در خط های دیگر؛ به ویژه زبان هایی که با حروف لاتین نوشته می شوند؛ سالهاست که از OCR استفاده می شود. اما در ایران چند سالی است که استفاده از آن شروع شده است. OCR چند نوع است: OCR برای متون تایپی و OCR برای متون دست نویس. یعنی نوعی که یک متن قبلا تایپ شده (مثل کتاب یا روزنامه) را می توان وارد کامپیوتر کرد و نوعی که متن دست نویس را می تواند بخواند.

متن های دست نویس هم به دو صورت گسسته و پیوسته وجود دارند: متن دست نویس پیوسته مثل همان چیزهایی است که ما هر از گاهی که دلمان تنگ می شود روی کاغذ می نویسیم، یا یک نامه، یا یک شعر و غیره. اما متن دست نویس گسسته همان نوشته هایی است که حروف آن جدا از هم و به صورت گسسته نوشته شده اند مثل نام و نام خانوادگی که در فرم های آزمون ثبت نام،‌ به صورت هر حرف داخل یک کادر نوشته می شوند یا مثل اعداد.

خوشبختانه طراحی نرم افزار OCR گسسته فارسی در ایران مدتی است که طراحی و نوشته شده و در بعضی جاها استفاده می شود. اما به دلیل شباهت حروف فارسی و رسم الخط مشکل حروف پیوسته، مدت زمان زیادی طول خواهد کشید تا نرم افزار OCR پیوسته برای خط فارسی نوشته شود.

منبع: microrayaneh.com


نظرات | ۱۳٩٢/۱٠/٩ - کاوه |لینک به نوشته

onLoad and onUnload Example