KNOWLEDGE HYPERMARKET


Системы оптического распознавания документов. Полные уроки
 
Строка 1: Строка 1:
-
'''[[Гипермаркет знаний - первый в мире!|Гипермаркет знаний]]&gt;&gt;[[Информатика]]&gt;&gt;[[Информатика 10 класс. Полные уроки]]&gt;&gt;Информатика: Системы оптического распознавания документов.''' <br><metakeywords>Информатика, класс, урок, на тему, 10 класс, Системы оптического распознавания документов.</metakeywords><br>
+
'''[[Гипермаркет знаний - первый в мире!|Гипермаркет знаний]]&gt;&gt;[[Информатика]]&gt;&gt;[[Информатика 10 класс. Полные уроки]]&gt;&gt;Информатика: Системы оптического распознавания документов.''' <br><metakeywords>Информатика, класс, урок, на тему, 10 класс, Системы оптического распознавания документов.</metakeywords><br>  
 +
 
 +
== Тема  ==
-
==Тема==
 
*'''Системы оптического распознавания документов.'''
*'''Системы оптического распознавания документов.'''
-
==Цель==
+
== Цель ==
 +
 
*Получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы<br>
*Получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы<br>
-
==Ход урока==
+
== Ход урока ==
-
===Системы распознавания текста===
+
=== Системы распознавания текста ===
-
Для создания электронных библиотек и архивов путем перевода книг и документов в цифровой вариант и при необходимости редактирования полученного по факсу документа используются специальные системы распознавания символов ('''Optical Character Recognition, OCR''').
+
Для создания [[Бібліотеки, енциклопедії і словники в Інтернеті. Повні уроки|электронных библиотек]] и архивов путем перевода книг и документов в цифровой вариант и при необходимости редактирования полученного по факсу документа используются специальные системы распознавания символов ('''Optical Character Recognition, OCR''').  
С помощью сканера можно получить изображение страницы с текстом в графическом формате.  
С помощью сканера можно получить изображение страницы с текстом в графическом формате.  
Строка 17: Строка 19:
Но работать с этим текстом невозможно, потому что любое сканирование – это всего лишь изображение  
Но работать с этим текстом невозможно, потому что любое сканирование – это всего лишь изображение  
-
Текст можно будет читать, распечатывать, но только не редактировать.<br>Для перевода графического документа в текстовый файл необходимо провести распознавание текста.  
+
Текст можно будет читать, распечатывать, но только не редактировать.<br>Для перевода графического документа в текстовый файл необходимо провести [[Практическая работа. Сканирование «бумажного» и распознавание электронного текстового документа|распознавание]] текста.  
<br>  
<br>  
Строка 25: Строка 27:
<br>  
<br>  
-
===Программное обеспечение для распознавания текста===
+
=== Программное обеспечение для распознавания текста ===
-
Преобразование графического изображения в текст занимаются программы, используюшие принцип оптического распознавания.  
+
Преобразование графического изображения в текст занимаются [http://xvatit.com/it/fishki-ot-itshki/ программы], используюшие принцип оптического распознавания.  
'''Современные программы с OCR умеют:'''  
'''Современные программы с OCR умеют:'''  
Строка 34: Строка 36:
*корректно работать с текстами, содержащими слова на нескольких языках  
*корректно работать с текстами, содержащими слова на нескольких языках  
*распознавать таблицы  
*распознавать таблицы  
-
*распознавать нечетко набранные или написанные тексты
+
*распознавать нечетко набранные или написанные [[Оформление текста|тексты]]
{{#ev:youtube|UAdpxqNclAg}}  
{{#ev:youtube|UAdpxqNclAg}}  
Строка 40: Строка 42:
{{#ev:youtube|Jh9xo_Cb3cM}}  
{{#ev:youtube|Jh9xo_Cb3cM}}  
 +
<br> Само собой, распознать текст - это еще полдела. После этого нужно обеспечить сохранение результата в файле текстового формата, например Microsoft Word.
-
Само собой, распознать текст - это еще полдела. После этого нужно обеспечить сохранение результата в файле текстового формата, например Microsoft Word.
+
В процессе распознавания документов в плохом качестве (машинописный текст, факс) используется метод распознавания символов по наличию определенных структурных элементов - отрезков, колец, дуг.  
-
 
+
-
В процессе распознавания документов в плохом качестве (машинописный текст, факс) используется метод распознавания символов по наличию определенных структурных элементов - отрезков, колец, дуг.
+
Любой символ легко описывается с помощью набора значений, определяющих расположение его частей. Например, обе буквы «Н» и буква «И» состоят из трех отрезков. Два из них расположены параллельно друг другу, а третий их соединяет. А различие – лишь в величине углов отрезков.  
Любой символ легко описывается с помощью набора значений, определяющих расположение его частей. Например, обе буквы «Н» и буква «И» состоят из трех отрезков. Два из них расположены параллельно друг другу, а третий их соединяет. А различие – лишь в величине углов отрезков.  
Строка 49: Строка 50:
<br>{{#ev:youtube|J5h6bBDIcis}}  
<br>{{#ev:youtube|J5h6bBDIcis}}  
-
 
+
<br> Самые распространенные системы оптического распознавания текста - '''ABBYY FineReader и CuneiForm.'''  
-
Самые распространенные системы оптического распознавания текста - '''ABBYY FineReader и CuneiForm.'''  
+
[[Image:Аштуыа.jpg|500px|Системы распознавания текста]]  
[[Image:Аштуыа.jpg|500px|Системы распознавания текста]]  
Строка 56: Строка 56:
<br>  
<br>  
-
FineReader является омнифонтовой системой распознавания текстов. Это значит, что она позволяет распознавать тексты, набранные практически любыми шрифтами.
+
[[Система перевода и распознавания текстов. Полные уроки|ABBYY Finereader]] является омнифонтовой системой распознавания текстов. Это значит, что она позволяет распознавать тексты, набранные практически любыми шрифтами.  
-
Одним из козырей FineReader является поддержка огромного (для таких программ) количества языков распознавания - более 176 (экзотические, древние языки, популярные языки программирования)
+
Одним из козырей FineReader является поддержка огромного (для таких программ) количества языков распознавания - более 176 (экзотические, древние языки, популярные языки программирования)  
-
Для запуска процесса распознавания достаточно положить лист бумаги в сканер и нажать кнопку Scan &amp; Read на панели инструментов. Все остальные операции (сканирование, разбивка изображения на части, распознавание текста) выполнятся автоматически.
+
Для запуска процесса распознавания достаточно положить лист бумаги в [[Фішки для допитливих до теми «Принтер. Типи принтерів. Сканер. Пристрої для організації комп’ютерного зв’язку»|сканер]] и нажать кнопку Scan &amp; Read на панели инструментов. Все остальные операции (сканирование, разбивка изображения на части, распознавание текста) выполнятся автоматически.  
-
===Параметры сканирования===
+
=== Параметры сканирования ===
Качество распознавания зависит от качества сканированного изображения.  
Качество распознавания зависит от качества сканированного изображения.  
-
{{#ev:youtube|hY5UaUUXENM&feature=channel}}
+
{{#ev:youtube|hY5UaUUXENM&feature=channel}}  
 +
<br> Его можно регулировать установками параметров сканирования (тип изображения, разрешения, яркости, и т. д.).
-
Его можно регулировать установками параметров сканирования (тип изображения, разрешения, яркости, и т. д.).  
+
Сканирование в режиме «серого» является оптимальным режимом для системы распознавания, так как в нем происходит автоматический подбор яркости.  
-
Сканирование в режиме «серого» является оптимальным режимом для системы распознавания, так как в нем происходит автоматический подбор яркости.
+
Самым практичным разрешением для сканирования текстов - 300 dpi, для текстов, набранных мелким [[Практическая робота на тему: Форматирование шрифта текста при создании документов|шрифтом]] - 400-600 dpi.  
-
Самым практичным разрешением для сканирования текстов - 300 dpi, для текстов, набранных мелким шрифтом - 400-600 dpi.
+
<br> [[Image:Cureittt.jpg|500px|Окно программы Cuneiform]]  
-
 
+
-
 
+
-
[[Image:Cureittt.jpg|500px|Окно программы Cuneiform]]  
+
''Рис. Окно программы Cuneiform''<br>  
''Рис. Окно программы Cuneiform''<br>  
-
===Завершение распознавания===
+
=== Завершение распознавания ===
 +
 
 +
Распознав страницы, FineReader предложит сканировать и распознавать дальше (если сканируется книга)или сохранить текст в форматы - от документов '''Microsoft Office до HTML и PDF.'''
-
Распознав страницы, FineReader предложит сканировать и распознавать дальше (если сканируется книга)или сохранить текст в форматы - от документов '''Microsoft Office до HTML и PDF.'''
 
-
 
При распознавании&nbsp; FineReader сохраняет все параметры форматирования документа с его графическим оформлением.  
При распознавании&nbsp; FineReader сохраняет все параметры форматирования документа с его графическим оформлением.  
 +
<br>
-
==Вопросы==
+
== Вопросы ==
-
''1.Зачем нужны программы распознавания текста? ''
+
''1.Зачем нужны программы распознавания текста? ''  
-
''2. Что такое OCR?''
+
''2. Что такое OCR?''  
-
''3. Как происходит распознавание текста?''
+
''3. Как происходит распознавание текста?''  
-
''4. Какие программы распознания текста вы знаете?''
+
''4. Какие программы распознания текста вы знаете?''  
-
==Список использованных источников==
+
== Список использованных источников ==
-
''1. Урок на тему: "Распознавания текста с изображений", Прокопенко А. П., г. Волгоград.<br>2. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006 г.<br>3. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г.<br>4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.<br>5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.<br>6. www.free-ocr.сom''<br>
+
''1. Урок на тему: "Распознавания текста с изображений", Прокопенко А. П., г. Волгоград.<br>2. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006 г.<br>3. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г.<br>4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.<br>5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.<br>6. www.free-ocr.сom''<br>  
----
----
-
<br>''Отредактировано и выслано преподавателем Киевского национального университета им. Тараса Шевченка Соловьевым М. С.''<br>
+
<br>''Отредактировано и выслано преподавателем Киевского национального университета им. Тараса Шевченка Соловьевым М. С.''<br>  
----
----
 +
<br> '''Над уроком работали'''
-
'''Над уроком работали'''
+
Прокопенко А. П.
-
Прокопенко А. П.
+
Соловьев М. С.  
-
 
+
-
Соловьев М. С.
+
 +
<br>
----
----
 +
<br> Поставить вопрос о современном образовании, выразить идею или решить назревшую проблему Вы можете на [http://xvatit.com/forum/ '''Образовательном форуме'''], где на международном уровне собирается образовательный совет свежей мысли и действия. Создав [http://xvatit.com/club/blogs/ '''блог,'''] Вы не только повысите свой статус, как компетентного преподавателя, но и сделаете весомый вклад в развитие школы будущего. [http://xvatit.com/school/guild/ '''Гильдия Лидеров Образования'''] открывает двери для специалистов&nbsp; высшего ранга и приглашает к сотрудничеству в направлении создания лучших в мире школ.<br>
-
Поставить вопрос о современном образовании, выразить идею или решить назревшую проблему Вы можете на [http://xvatit.com/forum/ '''Образовательном форуме'''], где на международном уровне собирается образовательный совет свежей мысли и действия. Создав [http://xvatit.com/club/blogs/ '''блог,'''] Вы не только повысите свой статус, как компетентного преподавателя, но и сделаете весомый вклад в развитие школы будущего. [http://xvatit.com/school/guild/ '''Гильдия Лидеров Образования'''] открывает двери для специалистов&nbsp; высшего ранга и приглашает к сотрудничеству в направлении создания лучших в мире школ.<br>  
+
<br> <br><br><br>
-
   
+
-
<br><br>[[Category:Информатика_10_класс]]<br>
+
[[Category:Информатика_10_класс]]

Текущая версия на 09:07, 1 февраля 2013

Гипермаркет знаний>>Информатика>>Информатика 10 класс. Полные уроки>>Информатика: Системы оптического распознавания документов.

Содержание

Тема

  • Системы оптического распознавания документов.

Цель

  • Получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы

Ход урока

Системы распознавания текста

Для создания электронных библиотек и архивов путем перевода книг и документов в цифровой вариант и при необходимости редактирования полученного по факсу документа используются специальные системы распознавания символов (Optical Character Recognition, OCR).

С помощью сканера можно получить изображение страницы с текстом в графическом формате.

Но работать с этим текстом невозможно, потому что любое сканирование – это всего лишь изображение

Текст можно будет читать, распечатывать, но только не редактировать.
Для перевода графического документа в текстовый файл необходимо провести распознавание текста.


Системы распознавания текста


Программное обеспечение для распознавания текста

Преобразование графического изображения в текст занимаются программы, используюшие принцип оптического распознавания.

Современные программы с OCR умеют:

  • распознавать тексты, набранные не только разными шрифтами, но и самыми экзотическими, в том числе и рукописных
  • корректно работать с текстами, содержащими слова на нескольких языках
  • распознавать таблицы
  • распознавать нечетко набранные или написанные тексты




Само собой, распознать текст - это еще полдела. После этого нужно обеспечить сохранение результата в файле текстового формата, например Microsoft Word.

В процессе распознавания документов в плохом качестве (машинописный текст, факс) используется метод распознавания символов по наличию определенных структурных элементов - отрезков, колец, дуг.

Любой символ легко описывается с помощью набора значений, определяющих расположение его частей. Например, обе буквы «Н» и буква «И» состоят из трех отрезков. Два из них расположены параллельно друг другу, а третий их соединяет. А различие – лишь в величине углов отрезков.



Самые распространенные системы оптического распознавания текста - ABBYY FineReader и CuneiForm.

Системы распознавания текста


ABBYY Finereader является омнифонтовой системой распознавания текстов. Это значит, что она позволяет распознавать тексты, набранные практически любыми шрифтами.

Одним из козырей FineReader является поддержка огромного (для таких программ) количества языков распознавания - более 176 (экзотические, древние языки, популярные языки программирования)

Для запуска процесса распознавания достаточно положить лист бумаги в сканер и нажать кнопку Scan & Read на панели инструментов. Все остальные операции (сканирование, разбивка изображения на части, распознавание текста) выполнятся автоматически.

Параметры сканирования

Качество распознавания зависит от качества сканированного изображения.



Его можно регулировать установками параметров сканирования (тип изображения, разрешения, яркости, и т. д.).

Сканирование в режиме «серого» является оптимальным режимом для системы распознавания, так как в нем происходит автоматический подбор яркости.

Самым практичным разрешением для сканирования текстов - 300 dpi, для текстов, набранных мелким шрифтом - 400-600 dpi.


Окно программы Cuneiform

Рис. Окно программы Cuneiform

Завершение распознавания

Распознав страницы, FineReader предложит сканировать и распознавать дальше (если сканируется книга)или сохранить текст в форматы - от документов Microsoft Office до HTML и PDF.

При распознавании  FineReader сохраняет все параметры форматирования документа с его графическим оформлением.


Вопросы

1.Зачем нужны программы распознавания текста?

2. Что такое OCR?

3. Как происходит распознавание текста?

4. Какие программы распознания текста вы знаете?

Список использованных источников

1. Урок на тему: "Распознавания текста с изображений", Прокопенко А. П., г. Волгоград.
2. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006 г.
3. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г.
4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.
5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.
6. www.free-ocr.сom



Отредактировано и выслано преподавателем Киевского национального университета им. Тараса Шевченка Соловьевым М. С.



Над уроком работали

Прокопенко А. П.

Соловьев М. С.




Поставить вопрос о современном образовании, выразить идею или решить назревшую проблему Вы можете на Образовательном форуме, где на международном уровне собирается образовательный совет свежей мысли и действия. Создав блог, Вы не только повысите свой статус, как компетентного преподавателя, но и сделаете весомый вклад в развитие школы будущего. Гильдия Лидеров Образования открывает двери для специалистов  высшего ранга и приглашает к сотрудничеству в направлении создания лучших в мире школ.





Предмети > Информатика > Информатика 10 класс