Какво представлява оптичното разпознаване на символи (OCR)?

Оптичното разпознаване на символи (OCR) се отнася до софтуер, който създава цифрова версия на отпечатан, напечатан или написан на ръка документ, който компютрите могат да четат, без да е необходимо ръчно да въвеждате или въвеждате текст. OCR обикновено се използва за сканирани документи в PDF формат, но също така може да създаде компютърно четена версия на текста в рамките на файла с изображения.

Какво представлява OCR?

OCR, наричано още разпознаване на текст, е софтуерна технология, която трансформира по-лесно разпознаваеми и прочетени от компютри и други софтуерни програми знаци като числа, букви и пунктуационни знаци от печатни или писмени документи в електронна форма. Някои OCR програми правят това, тъй като документът се сканира или фотографира с цифров фотоапарат, а други могат да приложат този процес към документи, които преди са били сканирани или фотографирани без OCR. OCR позволява на потребителите да търсят в PDF документи, да редактират текст и да преформатират документи.

За какво се използва OCR?

За бързи и ежедневни сканиращи нужди OCR може да не е голяма работа. Ако правите голямо количество сканиране, като можете да търсите в PDF файлове, за да намерите точната, от която се нуждаете, може да спестите доста време и да направи функцията OCR във вашата програма за скенер по-важна. Ето някои други неща, с които OCR помага:

Автоматизирана обработка на данни и въвеждане на данни (Пример: Системи за проследяване на кандидатите за работа за автобиографии)
Извършване на търсене на сканирани книги
Конвертиране на ръкописни сканирания в текст, който може да се чете от компютър
Правене на документи по-използваеми от програмите за четене, които помагат на зрително увредените потребители
Съхраняване на исторически документи и вестници, като същевременно ги прави търсени
Извличане на данни и прехвърляне към счетоводни програми (Пример: Постъпления и фактури)
Индексиране на документи за използване от търсачките
Разпознаване на регистрационните табели на водача чрез софтуер за скоростна камера и софтуер за камера с червена светлина
Синтезаторите на реч за хора, които не могат да говорят - теоретичният физик, Стивън Хокинг, е може би най-известният потребител на програма за синтез на реч

Защо да използвате OCR?

Защо просто не направите снимка, нали? Защото няма да можете да редактирате нищо или да търсите в текста, защото то просто би било изображение. Сканирането на документа и стартирането на софтуера за OCR може да превърне този файл в нещо, което можете да редактирате и да търсите.

История на OCR

Макар че най-ранната употреба на разпознаване на текстове датира от 1914 г., широкото разпространение и използване на свързаните с OCR технологии започна сериозно през 50-те години на миналия век, а именно създаването на много опростени шрифтове, които лесно се превръщат в цифрово четлив текст. Първият от тези опростени шрифтове е създаден от Дейвид Шепърд и известен като OCR-7B. OCR-7B все още се използва днес във финансовата индустрия за стандартния шрифт, използван за кредитни карти и дебитни карти. През 60-те години пощенските услуги в няколко страни започнаха да използват технологията OCR за значително ускоряване на сортирането по пощата, включително САЩ, Великобритания, Канада и Германия. OCR е все още основната технология, използвана за сортиране на пощенски услуги за пощенски услуги по целия свят. През 2000 г. ключовите познания за ограниченията и възможностите на технологията OCR бяха използвани за разработване на програмите CAPTCHA, използвани за спиране на ботове и спамъри.

В продължение на десетилетия OCR е станал по-точен и по-сложен, благодарение на напредъка в сферите на технологиите, свързани с изкуствения интелект, машинното обучение и компютърното виждане. Днес софтуерът OCR използва разпознаване на шаблони, разпознаване на функции и текстообработване, за да трансформира документи по-бързо и по-точно от всякога.