KNOWLEDGE HYPERMARKET


Системи оптичного розпізнавання тексту. Повні уроки

Гіпермаркет Знань>>Інформатика>>Інформатика 11 клас. Повні уроки>> Інформатика: Системи оптичного розпізнавання тексту.

Тема:  Системи оптичного розпізнавання тексту.

Мета: Отримати загальні знання про систему розпізнавання тексту OCR. Ознайомитися з можливостями OCR-програм


Хід уроку:


Системи розпізнавання тексту.

Для створення електронних бібліотек, архівів шляхом перекладу книг і документів у цифровий варіант використовуються спеціальні системи розпізнавання символів (Optical Character Recognition, OCR).
За допомогою сканера можна отримати зображення сторінки з текстом у графічному форматі.

Але працювати з цим текстом неможливо, тому що будь-яке сканування - це усього лише зображення.

Текст можна буде читати, роздруковувати, але тільки не редагувати.
Для перекладу графічного документу в текстовий файл необхідно провести розпізнавання тексту.



Ocr1.jpg



Програмне забезпечення для розпізнавання тексту.
Перетворення графічного зображення в текст займаються програми, які використовують принцип оптичного розпізнавання.

Сучасні програми з OCR вміють:

  • розпізнавати тексти, набрані не лише різними шрифтами, але написані екзотичними, у тому числі і рукописними
  • коректно працювати з текстами, які містять слова на декількох мовах
  • розпізнавати таблиці
  • розпізнавати нечітко набрані чи написані тексти



Звісно, розпізнати текст - це лише півсправи. Після цього треба забезпечити збереження результату у файл текстового формату, наприклад Microsoft Word.

У процесі розпізнавання документів поганої якості (машинописний текст, факс) використовується метод розпізнавання символів за наявністю певних структурних елементів - відрізків, кіл, дуг тощо.
Будь-який символ легко описується за допомогою набору значень, що визначають розташування на папері його окремих частин. Наприклад, обидві букви «Н» і «И» складаються з трьох відрізків. Два з них розташовані паралельно один одному, а третій їх сполучає. А відмінність лише у величині кутів відрізків.



Найпоширеніші системи оптичного розпізнавання тексту - ABBYY FineReader і CuneiForm.


Аштуыа.jpg


FineReader є омнифонтовою системою розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами.
Одним із козирів FineReader є підтримка величезної кількості мов розпізнавання - більше 176 (екзотичні, древні мови, популярні мови програмування тощо).
Для запуску процесу розпізнавання досить покласти аркуш паперу в сканер і натиснути кнопку Scan & Read на панелі інструментів. Усі інші операції (сканування, розбиття зображення на частини, розпізнавання тексту) виконаються автоматично.

Параметри сканування.
Якість розпізнавання залежить від якості сканованого зображення.




Його можна регулювати установками параметрів сканування (тип зображення, графічний дозвіл, яскравість).

Сканування в режимі «сірого» є оптимальним режимом для системи розпізнавання, оскільки в ньому відбувається автоматичний підбір яскравості.
Найпрактичнішим розширенням для сканування текстів є 300 dpi, для текстів, набраних дрібним шрифтом, - 400-600 dpi.


Cureittt.jpg

Мал. Вікно програми Cuneiform


Завершення розпізнавання.
Розпізнавши сторінки, FineReader запропонує сканувати і розпізнавати далі (якщо сканується книга)

чи зберегти текст у формати - від документів Microsoft Office до HTML і PDF.

Файл:Пробрро.gif



При розпізнаванні  FineReader зберігає усі параметри форматування документу з його графічним оформленням.


Самоконтроль:
1.Навіщо потрібні програми розпізнавання тексту?

2. Що таке OCR?
3. Як відбувається процес розпізнавання тексту?
4. Які програми розпізнавання тексту ви знаєте?


Cписок використаної літератури:
1. Урок на тему: "Системи розпізнавання тексту", Бегаль Ю. В., м. Київ.
2. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г.
3. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006 г.
4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.
5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.
6. www.free-ocr.сom


Скомпоновано та надіслано викладачем Київського національного університету імені Тараса Шевченка Соловйовим М. С.


Якщо у вас є виправлення чи пропозиції до цього уроку, напишіть нам.

Якщо ви хочете побачити інші виправленя чи пропозиції до уроків, дивіться тут - Образовательный форум.

Предмети > Інформатика > Інформатика 11 клас