KNOWLEDGE HYPERMARKET


Системи оптичного розпізнавання тексту. Повні уроки
 
(2 промежуточные версии не показаны)
Строка 3: Строка 3:
<metakeywords>Інформатика, клас, урок, на тему, 11 клас, Системи оптичного розпізнавання тексту. .</metakeywords>  
<metakeywords>Інформатика, клас, урок, на тему, 11 клас, Системи оптичного розпізнавання тексту. .</metakeywords>  
-
'''Тема:&nbsp; Системи оптичного розпізнавання тексту.'''<br>
+
== Тема ==
-
'''Мета:''' Отримати загальні знання про систему розпізнавання тексту OCR. Ознайомитися з можливостями OCR-програм
+
*'''Системи оптичного розпізнавання тексту.'''<br>
-
<br>'''Хід уроку:'''<br>
+
== Мета  ==
-
<br>
+
*Отримати загальні знання про систему розпізнавання тексту OCR. Ознайомитися з можливостями [http://xvatit.com/it/fishki-ot-itshki/ OCR-програм]
-
'''Системи розпізнавання тексту.'''
+
== Хід уроку  ==
-
Для створення електронних бібліотек, архівів шляхом перекладу книг і документів у цифровий варіант використовуються спеціальні системи розпізнавання символів (''Optical Character Recognition, OCR'').<br>За допомогою сканера можна отримати зображення сторінки з текстом у графічному форматі.  
+
=== Системи розпізнавання тексту  ===
 +
 
 +
Для створення електронних [[Бібліотеки, енциклопедії і словники в Інтернеті. Повні уроки|бібліотек]], архівів шляхом перекладу книг і документів у цифровий варіант використовуються спеціальні системи розпізнавання символів ('''Optical Character Recognition, OCR''').  
 +
 
 +
За допомогою сканера можна отримати зображення сторінки з текстом у графічному форматі.  
Але працювати з цим текстом неможливо, тому що будь-яке сканування - це усього лише зображення.  
Але працювати з цим текстом неможливо, тому що будь-яке сканування - це усього лише зображення.  
-
Текст можна буде читати, роздруковувати, але тільки не редагувати.<br>Для перекладу графічного документу в текстовий файл необхідно провести розпізнавання тексту.  
+
Текст можна буде читати, роздруковувати, але тільки не редагувати.<br>Для перекладу графічного документу в текстовий файл необхідно провести [[Практична робота. Сканування «паперового» і розпізнавання електронного текстового документу. Повні уроки|розпізнавання]] тексту.  
<br>  
<br>  
-
<br>
+
[[Image:Ocr1.jpg|400px|OCR-програми]]  
-
 
+
-
[[Image:Ocr1.jpg]]  
+
<br>  
<br>  
-
<br>
+
=== Програмне забезпечення для розпізнавання тексту  ===
-
'''Програмне забезпечення для розпізнавання тексту.'''<br> Перетворення графічного зображення в текст займаються програми, які використовують принцип оптичного розпізнавання.  
+
Перетворення графічного зображення в текст займаються [[Програми браузери. Повні уроки|програми]], які використовують принцип оптичного розпізнавання.  
-
<u>Сучасні програми з OCR вміють:</u>
+
'''Сучасні програми з OCR вміють:'''
*розпізнавати тексти, набрані не лише різними шрифтами, але написані екзотичними, у тому числі і рукописними  
*розпізнавати тексти, набрані не лише різними шрифтами, але написані екзотичними, у тому числі і рукописними  
Строка 42: Строка 44:
{{#ev:youtube|Jh9xo_Cb3cM}}  
{{#ev:youtube|Jh9xo_Cb3cM}}  
-
Звісно, розпізнати текст - це лише півсправи. Після цього треба забезпечити збереження результату у файл текстового формату, наприклад Microsoft Word.<br><br>У процесі розпізнавання документів поганої якості (машинописний текст, факс) використовується метод розпізнавання символів за наявністю певних структурних елементів - відрізків, кіл, дуг тощо.<br>Будь-який символ легко описується за допомогою набору значень, що визначають розташування на папері його окремих частин. Наприклад, обидві букви «Н» і «И» складаються з трьох відрізків. Два з них розташовані паралельно один одному, а третій їх сполучає. А відмінність лише у величині кутів відрізків.  
+
Звісно, розпізнати текст - це лише півсправи. Після цього треба забезпечити збереження результату у файл текстового формату, наприклад [[Презентация на тему: Работа с таблицами в текстовом редакторе Microsoft Word|Microsoft Word]].  
 +
 
 +
У процесі розпізнавання документів поганої якості (машинописний текст, факс) використовується метод розпізнавання символів за наявністю певних структурних елементів - відрізків, кіл, дуг тощо.  
 +
 
 +
Будь-який символ легко описується за допомогою набору значень, що визначають розташування на папері його окремих частин. Наприклад, обидві букви «Н» і «И» складаються з трьох відрізків. Два з них розташовані паралельно один одному, а третій їх сполучає. А відмінність лише у величині кутів відрізків.  
<br>{{#ev:youtube|J5h6bBDIcis}}  
<br>{{#ev:youtube|J5h6bBDIcis}}  
-
<br>Найпоширеніші системи оптичного розпізнавання тексту - ''ABBYY FineReader і CuneiForm.''  
+
<br>Найпоширеніші системи оптичного розпізнавання тексту - '''[[Система перевода и распознавания текстов. Полные уроки|ABBYY Finereader]] і CuneiForm.'''  
-
<br> [[Image:Аштуыа.jpg]]  
+
<br> [[Image:Аштуыа.jpg|400px|ABBYY FineReader]]  
<br>  
<br>  
-
FineReader є ''омнифонтовою'' системою розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами.<br>Одним із козирів FineReader є підтримка величезної кількості мов розпізнавання - більше 176 (екзотичні, древні мови, популярні мови програмування тощо).<br> Для запуску процесу розпізнавання досить покласти аркуш паперу в сканер і натиснути кнопку Scan &amp; Read на панелі інструментів. Усі інші операції (сканування, розбиття зображення на частини, розпізнавання тексту) виконаються автоматично.<br><br>'''Параметри сканування.'''<br>Якість розпізнавання залежить від якості сканованого зображення.  
+
FineReader є '''омнифонтовою''' системою розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами.  
 +
 
 +
Одним із козирів FineReader є підтримка величезної кількості мов розпізнавання - більше 176 (екзотичні, древні мови, популярні мови програмування тощо).  
 +
 
 +
Для запуску процесу розпізнавання досить покласти аркуш паперу в сканер і натиснути кнопку Scan &amp; Read на панелі інструментів. Усі інші операції (сканування, розбиття зображення на частини, розпізнавання тексту) виконаються автоматично.  
 +
 
 +
=== Параметри сканування ===
 +
 
 +
Якість розпізнавання залежить від якості сканованого зображення.  
<br>  
<br>  
Строка 62: Строка 76:
Його можна регулювати установками параметрів сканування (тип зображення, графічний дозвіл, яскравість).  
Його можна регулювати установками параметрів сканування (тип зображення, графічний дозвіл, яскравість).  
-
Сканування в режимі «сірого» є оптимальним режимом для системи розпізнавання, оскільки в ньому відбувається автоматичний підбір яскравості.<br>Найпрактичнішим розширенням для сканування текстів є ''300 dpi'', для текстів, набраних дрібним шрифтом, - ''400-600 dpi.''  
+
[[Практическая работа. Сканирование «бумажного» и распознавание электронного текстового документа|Сканування]] в режимі «сірого» є оптимальним режимом для системи розпізнавання, оскільки в ньому відбувається автоматичний підбір яскравості.  
 +
 
 +
Найпрактичнішим розширенням для сканування текстів є '''300 dpi''', для текстів, набраних дрібним шрифтом, - '''400-600 dpi.'''  
<br>  
<br>  
-
[[Image:Cureittt.jpg|692x477px|Cureittt.jpg]]  
+
[[Image:Cureittt.jpg|400px|Вікно програми Cuneiform]]  
''Мал. Вікно програми Cuneiform''  
''Мал. Вікно програми Cuneiform''  
Строка 72: Строка 88:
<br>  
<br>  
-
'''Завершення розпізнавання.'''<br>Розпізнавши сторінки, FineReader запропонує сканувати і розпізнавати далі (якщо сканується книга)<br>
+
=== Завершення розпізнавання ===
-
чи зберегти текст у формати - від документів ''Microsoft Office до HTML і PDF.''<br>  
+
Розпізнавши сторінки, FineReader запропонує сканувати і розпізнавати далі (якщо сканується книга) чи зберегти текст у формати - від документів '''Microsoft Office до [[Вступление в HTML. Полные уроки|HTML]] і PDF.'''<br>  
-
[[Image:Пробрро.gif]]<br>
+
При розпізнаванні&nbsp; FineReader зберігає усі параметри форматування документу з його графічним оформленням.  
<br>  
<br>  
-
<br>При розпізнаванні&nbsp; FineReader зберігає усі параметри форматування документу з його графічним оформленням.
+
== Самоконтроль  ==
-
<br>
+
''1.Навіщо потрібні програми розпізнавання тексту? ''
-
'''Самоконтроль:'''<br> 1.Навіщо потрібні програми розпізнавання тексту?
+
''2. Що таке OCR?''  
-
2. Що таке OCR?<br> 3. Як відбувається процес розпізнавання тексту?<br>4. Які програми розпізнавання тексту ви знаєте?  
+
''3. Як відбувається процес розпізнавання тексту?''
 +
 
 +
''4. Які програми розпізнавання тексту ви знаєте? ''
<br>  
<br>  
-
''Cписок використаної літератури:''<br>1. Урок на тему: "Системи розпізнавання тексту", Бегаль Ю. В., м. Київ.<br>2. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г. <br>3. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006 г.<br>4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.<br>5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.<br>6. www.free-ocr.сom<br><br>
+
== Cписок використаної літератури ==
 +
 
 +
''1. Урок на тему: "Системи розпізнавання тексту", Бегаль Ю. В., м. Київ.<br>2. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г. <br>3. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006 г.<br>4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.<br>5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.<br>6. www.free-ocr.сom''<br>  
 +
 
 +
----
<br> ''Скомпоновано та надіслано викладачем Київського національного університету імені Тараса Шевченка Соловйовим М. С.''  
<br> ''Скомпоновано та надіслано викладачем Київського національного університету імені Тараса Шевченка Соловйовим М. С.''  
Строка 98: Строка 120:
----
----
-
'''<u>Над уроком працювали</u>'''
+
<br> '''Над уроком працювали'''  
 +
Бегаль Ю. В.
-
Бегаль Ю. В.
+
Соловйов М. С.  
-
Соловйов М. С.
+
<br>
----
----
-
 
+
<br>
Поставить вопрос о современном образовании, выразить идею или решить назревшую проблему Вы можете на [http://xvatit.com/forum/ '''Образовательном форуме'''], где на международном уровне собирается образовательный совет свежей мысли и действия. Создав [http://xvatit.com/club/blogs/ '''блог,'''] Вы не только повысите свой статус, как компетентного преподавателя, но и сделаете весомый вклад в развитие школы будущего. [http://xvatit.com/school/guild/ '''Гильдия Лидеров Образования'''] открывает двери для специалистов&nbsp; высшего ранга и приглашает к сотрудничеству в направлении создания лучших в мире школ.<br>  
Поставить вопрос о современном образовании, выразить идею или решить назревшую проблему Вы можете на [http://xvatit.com/forum/ '''Образовательном форуме'''], где на международном уровне собирается образовательный совет свежей мысли и действия. Создав [http://xvatit.com/club/blogs/ '''блог,'''] Вы не только повысите свой статус, как компетентного преподавателя, но и сделаете весомый вклад в развитие школы будущего. [http://xvatit.com/school/guild/ '''Гильдия Лидеров Образования'''] открывает двери для специалистов&nbsp; высшего ранга и приглашает к сотрудничеству в направлении создания лучших в мире школ.<br>  
-
 
-
 
[[Category:Інформатика_11_клас]]
[[Category:Інформатика_11_клас]]

Текущая версия на 11:07, 8 февраля 2013

Гіпермаркет Знань>>Інформатика>>Інформатика 11 клас. Повні уроки>> Інформатика: Системи оптичного розпізнавання тексту.

Содержание

Тема

  • Системи оптичного розпізнавання тексту.

Мета

  • Отримати загальні знання про систему розпізнавання тексту OCR. Ознайомитися з можливостями OCR-програм

Хід уроку

Системи розпізнавання тексту

Для створення електронних бібліотек, архівів шляхом перекладу книг і документів у цифровий варіант використовуються спеціальні системи розпізнавання символів (Optical Character Recognition, OCR).

За допомогою сканера можна отримати зображення сторінки з текстом у графічному форматі.

Але працювати з цим текстом неможливо, тому що будь-яке сканування - це усього лише зображення.

Текст можна буде читати, роздруковувати, але тільки не редагувати.
Для перекладу графічного документу в текстовий файл необхідно провести розпізнавання тексту.


OCR-програми


Програмне забезпечення для розпізнавання тексту

Перетворення графічного зображення в текст займаються програми, які використовують принцип оптичного розпізнавання.

Сучасні програми з OCR вміють:

  • розпізнавати тексти, набрані не лише різними шрифтами, але написані екзотичними, у тому числі і рукописними
  • коректно працювати з текстами, які містять слова на декількох мовах
  • розпізнавати таблиці
  • розпізнавати нечітко набрані чи написані тексти



Звісно, розпізнати текст - це лише півсправи. Після цього треба забезпечити збереження результату у файл текстового формату, наприклад Microsoft Word.

У процесі розпізнавання документів поганої якості (машинописний текст, факс) використовується метод розпізнавання символів за наявністю певних структурних елементів - відрізків, кіл, дуг тощо.

Будь-який символ легко описується за допомогою набору значень, що визначають розташування на папері його окремих частин. Наприклад, обидві букви «Н» і «И» складаються з трьох відрізків. Два з них розташовані паралельно один одному, а третій їх сполучає. А відмінність лише у величині кутів відрізків.



Найпоширеніші системи оптичного розпізнавання тексту - ABBYY Finereader і CuneiForm.


ABBYY FineReader


FineReader є омнифонтовою системою розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами.

Одним із козирів FineReader є підтримка величезної кількості мов розпізнавання - більше 176 (екзотичні, древні мови, популярні мови програмування тощо).

Для запуску процесу розпізнавання досить покласти аркуш паперу в сканер і натиснути кнопку Scan & Read на панелі інструментів. Усі інші операції (сканування, розбиття зображення на частини, розпізнавання тексту) виконаються автоматично.

Параметри сканування

Якість розпізнавання залежить від якості сканованого зображення.




Його можна регулювати установками параметрів сканування (тип зображення, графічний дозвіл, яскравість).

Сканування в режимі «сірого» є оптимальним режимом для системи розпізнавання, оскільки в ньому відбувається автоматичний підбір яскравості.

Найпрактичнішим розширенням для сканування текстів є 300 dpi, для текстів, набраних дрібним шрифтом, - 400-600 dpi.


Вікно програми Cuneiform

Мал. Вікно програми Cuneiform


Завершення розпізнавання

Розпізнавши сторінки, FineReader запропонує сканувати і розпізнавати далі (якщо сканується книга) чи зберегти текст у формати - від документів Microsoft Office до HTML і PDF.

При розпізнаванні  FineReader зберігає усі параметри форматування документу з його графічним оформленням.


Самоконтроль

1.Навіщо потрібні програми розпізнавання тексту?

2. Що таке OCR?

3. Як відбувається процес розпізнавання тексту?

4. Які програми розпізнавання тексту ви знаєте?


Cписок використаної літератури

1. Урок на тему: "Системи розпізнавання тексту", Бегаль Ю. В., м. Київ.
2. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г.
3. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006 г.
4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.
5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.
6. www.free-ocr.сom



Скомпоновано та надіслано викладачем Київського національного університету імені Тараса Шевченка Соловйовим М. С.




Над уроком працювали

Бегаль Ю. В.

Соловйов М. С.




Поставить вопрос о современном образовании, выразить идею или решить назревшую проблему Вы можете на Образовательном форуме, где на международном уровне собирается образовательный совет свежей мысли и действия. Создав блог, Вы не только повысите свой статус, как компетентного преподавателя, но и сделаете весомый вклад в развитие школы будущего. Гильдия Лидеров Образования открывает двери для специалистов  высшего ранга и приглашает к сотрудничеству в направлении создания лучших в мире школ.

Предмети > Інформатика > Інформатика 11 клас