Оптичното разпознаване на символи (OCR) се отнася до софтуер, който създава цифрова версия на отпечатан, напечатан или написан на ръка документ, който компютрите могат да четат, без да е необходимо ръчно да въвеждате или въвеждате текст. OCR обикновено се използва за сканирани документи в PDF формат, но също така може да създаде компютърно четена версия на текста в рамките на файла с изображения.
Какво представлява OCR?
OCR, наричано още разпознаване на текст, е софтуерна технология, която трансформира по-лесно разпознаваеми и прочетени от компютри и други софтуерни програми знаци като числа, букви и пунктуационни знаци от печатни или писмени документи в електронна форма. Някои OCR програми правят това, тъй като документът се сканира или фотографира с цифров фотоапарат, а други могат да приложат този процес към документи, които преди са били сканирани или фотографирани без OCR. OCR позволява на потребителите да търсят в PDF документи, да редактират текст и да преформатират документи.
За какво се използва OCR?
За бързи и ежедневни сканиращи нужди OCR може да не е голяма работа. Ако правите голямо количество сканиране, като можете да търсите в PDF файлове, за да намерите точната, от която се нуждаете, може да спестите доста време и да направи функцията OCR във вашата програма за скенер по-важна. Ето някои други неща, с които OCR помага:
- Автоматизирана обработка на данни и въвеждане на данни (Пример: Системи за проследяване на кандидатите за работа за автобиографии)
- Извършване на търсене на сканирани книги
- Конвертиране на ръкописни сканирания в текст, който може да се чете от компютър
- Правене на документи по-използваеми от програмите за четене, които помагат на зрително увредените потребители
- Съхраняване на исторически документи и вестници, като същевременно ги прави търсени
- Извличане на данни и прехвърляне към счетоводни програми (Пример: Постъпления и фактури)
- Индексиране на документи за използване от търсачките
- Разпознаване на регистрационните табели на водача чрез софтуер за скоростна камера и софтуер за камера с червена светлина
- Синтезаторите на реч за хора, които не могат да говорят - теоретичният физик, Стивън Хокинг, е може би най-известният потребител на програма за синтез на реч
Защо да използвате OCR?
Защо просто не направите снимка, нали? Защото няма да можете да редактирате нищо или да търсите в текста, защото то просто би било изображение. Сканирането на документа и стартирането на софтуера за OCR може да превърне този файл в нещо, което можете да редактирате и да търсите.
История на OCR
Макар че най-ранната употреба на разпознаване на текстове датира от 1914 г., широкото разпространение и използване на свързаните с OCR технологии започна сериозно през 50-те години на миналия век, а именно създаването на много опростени шрифтове, които лесно се превръщат в цифрово четлив текст. Първият от тези опростени шрифтове е създаден от Дейвид Шепърд и известен като OCR-7B. OCR-7B все още се използва днес във финансовата индустрия за стандартния шрифт, използван за кредитни карти и дебитни карти. През 60-те години пощенските услуги в няколко страни започнаха да използват технологията OCR за значително ускоряване на сортирането по пощата, включително САЩ, Великобритания, Канада и Германия. OCR е все още основната технология, използвана за сортиране на пощенски услуги за пощенски услуги по целия свят. През 2000 г. ключовите познания за ограниченията и възможностите на технологията OCR бяха използвани за разработване на програмите CAPTCHA, използвани за спиране на ботове и спамъри.
В продължение на десетилетия OCR е станал по-точен и по-сложен, благодарение на напредъка в сферите на технологиите, свързани с изкуствения интелект, машинното обучение и компютърното виждане. Днес софтуерът OCR използва разпознаване на шаблони, разпознаване на функции и текстообработване, за да трансформира документи по-бързо и по-точно от всякога.