تبدیل متن اسکن شده به متن تایپی
یکی از نرمافزارهایی که همواره کاربران ایرانی حسرت داشتن آن را میخوردند، اسکن صفحات متنی و تبدیل آن به متن تایپ شده بوده است. فناوری OCR مخفف عبارت Optical Character Recognition تکنیکی است که در آن یک نرمافزار رایانهای، متون موجود در تصاویر دیجیتال را تشخیص میدهد و آنها را به فایلهای متنی قابل ویرایش تبدیل میکند.
این تکنیک در موارد بسیاری کاربرد دارد. بهعنوان مثال فرض کنید مقالهای 100 صفحهای یا یک پایاننامه دانشگاهی چاپ شده را در اختیار دارید و قصد دارید بخشی از آن را ویرایش کنید. مطمئنا تایپ مجدد تمام محتوا نیازمند صرف وقت و هزینه بسیار است، اما در صورتیکه بتوانید با اسکن صفحات موردنظر، متون موجود را به متنهای تایپ شده تبدیل کنید، عملیات ویرایش بسیار سهل و آسان خواهد شد.
فناوری OCR در بیشتر زبانهای دنیا بخصوص زبان انگلیسی با دقت بسیاری قابل استفاده است ولی استفاده از این فناوری برای تبدیل متون زبان فارسی مشکلات بسیاری داشت. این مشکلات به حدی بود که تقریبا انجام این کار در زبان فارسی به امری غیرممکن تبدیل شده بود، اما خوشبختانه گوگل به منظور ارائه خدمات رایگان خود به کاربران، این مشکل بزرگ را نیز رفع کرده است.پس چنانچه قصد دارید OCR فارسی را آزمایش کنید یا کتاب، مقاله، پایاننامه و هرگونه محتوای دیگر را به متن تایپ شده تبدیل کنید، میتوانید از روش زیر کمک بگیرید:
صفحات: 1· 2