Optical character recognition, usually abbreviated to OCR, is the mechanical or electronic translation of images of handwritten, typewritten or printed text (usually captured by a scanner) into machine-editable text.
| Property | Value |
| p:abstract
| - Optical character recognition, usually abbreviated to OCR, is the mechanical or electronic translation of images of handwritten, typewritten or printed text (usually captured by a scanner) into machine-editable text.
OCR is a field of research in pattern recognition, artificial intelligence and machine vision. Though academic research in the field continues, the focus on OCR has shifted to implementation of proven techniques. Optical character recognition (using optical techniques such as mirrors and lenses) and digital character recognition (using scanners and computer algorithms) were originally considered separate fields. Because very few applications survive that use true optical techniques, the OCR term has now been broadened to include digital image processing as well.
Early systems required training (the provision of known samples of each character) to read a specific font. "Intelligent" systems with a high degree of recognition accuracy for most fonts are now common. Some systems are even capable of reproducing formatted output that closely approximates the original scanned page including images, columns and other non-textual components. (en)
- El software de reconocimiento óptico de caracteres, abreviado habitualmente como OCR (Optical character recognition), extrae de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto.
Mientras que en una imagen los caracteres se describen indicando cada uno de los píxeles que los forman, al convertirlos a un formato de texto (por ejemplo ASCII o Unicode), pasan a estar descritos por un solo número, por lo que se produce una reducción significativa del espacio en memoria que ocupan.
A partir de ahí el texto es reconocido como texto, de modo que se pueden buscar en él cadenas de caracteres, exportar el texto a un editor de textos, o a otras aplicaciones, etc.
Actualmente, junto con el texto, se registra también el formato con el que ha sido escrito.
Una variante es el OMR (optical mark recognition) que se utiliza para reconocimiento de marcas. Un ejemplo sería la corrección automática de exámenes de tipo test, en los que la respuesta correcta se rodea con un círculo. (es)
- Texterkennung oder auch Optische Zeichenerkennung (Abkürzung OCR von englisch Optical Character Recognition, selten auch: OZE) ist ein Begriff aus dem IT-Bereich und beschreibt die automatische Texterkennung von einer gedruckten Vorlage. (de)
- Tekstintunnistus (, OCR) on tapa muuntaa esimerkiksi kuvanlukijalla skannatuista kuvista tekstit takaisin muokattavaksi tekstiksi jonkin tähän tarkoitukseen suunnitellun ohjelman avulla. Monissa kuvanlukijoissa on myös OCR-toiminto, jonka avulla tekstin voi skannata suoraan muokattavaksi tekstiksi eikä sitä näin ollen tarvitse skannata kuvana.
OCR-toimintoja on myös boteissa jotka kiertelevät keskustelupalstoilla ja lähettelevät roskapostia. OCR-toiminto antaa botille mahdollisuuden läpäistä kuvavarmennustesti (CAPTCHA). (fi)
- La reconnaissance optique de caractères (ROC) désigne les procédés informatiques pour la traduction
d'images de textes imprimés ou dactylographiés en fichiers de texte.
Elle réalise beaucoup moins que l'être humain qui, lui, exécute, en plus de la reconnaissance, la compréhension du message, sa mémorisation, voire son analyse critique dans un seul temps.
Un ordinateur réclame pour l'exécution de cette tâche un logiciel de reconnaissance optique de caractères, ROC ou OCR (abréviation du terme anglais optical character recognition), Celui-ci permet de récupérer le texte dans l'image d'un texte imprimé et de le sauvegarder dans un fichier pouvant être exploité dans un traitement de texte pour enrichissement, et stocké dans une base de données ou du moins, sur un support sûr et exploitable par un système informatique. (fr)
- I sistemi di Optical Character Recognition (riconoscimento ottico dei caratteri detti anche OCR) sono programmi dedicati alla conversione di un'immagine contenente testo, solitamente acquisite tramite scanner, in testo digitale modificabile con un normale editor. Il testo può essere convertito in formato ASCII semplice, Unicode o, nel caso dei sistemi più avanzati, in un formato contenente anche l'impaginazione del documento.
L'OCR è un campo di ricerca dell'intelligenza artificiale, della visione artificiale e del pattern recognition, legati al riconoscimento delle immagini. (it)
- 光学文字認識(こうがくもじにんしき、Optical Character Recognition)は、活字の文書の画像(通常イメージスキャナーで取り込まれる)をコンピュータが編集できる形式(文字コードの列)に変換するソフトウェアである。一般にOCRと略記される。OCRは、人工知能やマシンビジョンの研究分野として始まった。研究は続けられているが、OCRの中心はその実装と応用に移っている。
(鏡やレンズといった光学技術を使った)光学文字認識と(スキャナーとアルゴリズムによる)デジタル文字認識は本来別の領域と考えられていた。光学技術として生き残った部分が非常に少ないため、光学文字認識という言葉は現在ではデジタル文字認識を含むものとみなされている。
初期のシステムは特定の書体を読むための「トレーニング」が必要であった(事前にその書体のサンプルを読ませることを意味する)。現在では、ほとんどの書体を高い識字率で変換することが可能である。いくつかのシステムでは読み込まれた画像からそれとほぼ同じになるようフォーマットされた出力(例えばワードプロセッサのファイルのようなもの)を生成することが可能であり、中には画像などの文書以外の部分が含まれていても正しく認識するものもある。 (ja)
- OCR staat voor Optical Character Recognition, of in het Nederlands: optische tekenherkenning. Het is een transformatie waarbij uit een afbeelding van een tekst door middel van patroonherkenning alle tekens uit de afbeelding als zodanig worden herkend en apart opgeslagen door een computer(programma).
Meestal wordt een scanner gebruikt om een afbeelding van het papier te maken en naar de computer te sturen. De afbeelding wordt meestal aangemaakt met een resolutie van 150-300 dpi en opgeslagen in het TIFF formaat. Om goed te kunnen worden geïnterpreteerd door een OCR computerprogramma dient het bestand in zwart-wit opgeslagen te worden met het compressieformaat CCITT G4.
Wanneer alle tekens herkend zijn kan de OCR software verschillende bewerkingen uitvoeren. De meest bekende bewerking is het opslaan van de tekens in een verder bewerkbaar bestandsformaat, waarbij dikwijls zowel de taal van het origineel, de fonts en de opmaak worden gereproduceerd. In dit geval wordt het een "full text" OCR genoemd.
Door OCR'en neemt een A4-pagina met tekst nog maar een paar kilobyte aan geheugenopslag in en is dan weer bewerkbaar in een tekstverwerker. (nl)
- OCR (ang. Optical Character Recognition) - zestaw technik lub oprogramowanie służące do rozpoznawania znaków i całych tekstów. Zadaniem OCR jest zwykle rozpoznanie pisma występującego na obrazie zazwyczaj powstałym po zeskanowaniu dokumentu.
Niegdyś termin oznaczał samo rozpoznawanie ciągów znaków, głównie drukowanych, które są łatwiejsze do rozpoznania, dziś również pisma odręcznego oraz cech formatowania, jak krój pisma, stopień pisma, interlinia (techniki służące do tego typu zaawansowanego rozpoznawania nazywane są terminem ICR), a nawet układów tabelarycznych, np. formularzy. (pl)
- OCR é um acrónimo para o inglês Optical Character Recognition, uma tecnologia para reconhecer caracteres a partir de um arquivo de imagem, ou mapa de bits. Através do OCR é possível digitalizar uma folha de texto impresso e obter um arquivo de texto editável. (pt)
- Optical Character Recognition, OCR, optisk teckenigenkänning, (maskinell) texttolkning, maskinell läsning och tydning av tecken och texter med automatiska bildanalysmetoder. Enklare utrustning klarar oftast bara engelska stilar medan mer avancerade utrustingar även kan klara icke engelska stilar. De flesta program för OCR är också utrustade med en inlärningsfunktion, vilket medför att programmet blir bättre och bättre på att tolka vad det är för tecken som lästs in.
Se även Captcha. (sv)
- 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。 (zh)
|
| p:hasPhotoCollection
| |
| p:reference
| |
| p:wikipage-de
| |
| p:wikipage-es
| |
| p:wikipage-fi
| |
| p:wikipage-fr
| |
| p:wikipage-it
| |
| p:wikipage-ja
| |
| p:wikipage-nl
| |
| p:wikipage-pl
| |
| p:wikipage-pt
| |
| p:wikipage-sv
| |
| p:wikipage-zh
| |
| rdf:type
| |
| rdfs:comment
| - Optical character recognition, usually abbreviated to OCR, is the mechanical or electronic translation of images of handwritten, typewritten or printed text (usually captured by a scanner) into machine-editable text. (en)
- El software de reconocimiento óptico de caracteres, abreviado habitualmente como OCR (Optical character recognition), extrae de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto. (es)
- Texterkennung oder auch Optische Zeichenerkennung (Abkürzung OCR von englisch Optical Character Recognition, selten auch: OZE) ist ein Begriff aus dem IT-Bereich und beschreibt die automatische Texterkennung von einer gedruckten Vorlage. (de)
- Tekstintunnistus (, OCR) on tapa muuntaa esimerkiksi kuvanlukijalla skannatuista kuvista tekstit takaisin muokattavaksi tekstiksi jonkin tähän tarkoitukseen suunnitellun ohjelman avulla. Monissa kuvanlukijoissa on myös OCR-toiminto, jonka avulla tekstin voi skannata suoraan muokattavaksi tekstiksi eikä sitä näin ollen tarvitse skannata kuvana. (fi)
- La reconnaissance optique de caractères (ROC) désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte. Elle réalise beaucoup moins que l'être humain qui, lui, exécute, en plus de la reconnaissance, la compréhension du message, sa mémorisation, voire son analyse critique dans un seul temps. (fr)
- I sistemi di Optical Character Recognition (riconoscimento ottico dei caratteri detti anche OCR) sono programmi dedicati alla conversione di un'immagine contenente testo, solitamente acquisite tramite scanner, in testo digitale modificabile con un normale editor. Il testo può essere convertito in formato ASCII semplice, Unicode o, nel caso dei sistemi più avanzati, in un formato contenente anche l'impaginazione del documento. (it)
- 光学文字認識(こうがくもじにんしき、Optical Character Recognition)は、活字の文書の画像(通常イメージスキャナーで取り込まれる)をコンピュータが編集できる形式(文字コードの列)に変換するソフトウェアである。一般にOCRと略記される。OCRは、人工知能やマシンビジョンの研究分野として始まった。研究は続けられているが、OCRの中心はその実装と応用に移っている。 (ja)
- OCR staat voor Optical Character Recognition, of in het Nederlands: optische tekenherkenning. Het is een transformatie waarbij uit een afbeelding van een tekst door middel van patroonherkenning alle tekens uit de afbeelding als zodanig worden herkend en apart opgeslagen door een computer(programma). (nl)
- OCR (ang. Optical Character Recognition) - zestaw technik lub oprogramowanie służące do rozpoznawania znaków i całych tekstów. Zadaniem OCR jest zwykle rozpoznanie pisma występującego na obrazie zazwyczaj powstałym po zeskanowaniu dokumentu. (pl)
- OCR é um acrónimo para o inglês Optical Character Recognition, uma tecnologia para reconhecer caracteres a partir de um arquivo de imagem, ou mapa de bits. Através do OCR é possível digitalizar uma folha de texto impresso e obter um arquivo de texto editável. (pt)
- Optical Character Recognition, OCR, optisk teckenigenkänning, (maskinell) texttolkning, maskinell läsning och tydning av tecken och texter med automatiska bildanalysmetoder. Enklare utrustning klarar oftast bara engelska stilar medan mer avancerade utrustingar även kan klara icke engelska stilar. De flesta program för OCR är också utrustade med en inlärningsfunktion, vilket medför att programmet blir bättre och bättre på att tolka vad det är för tecken som lästs in. (sv)
- 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。 (zh)
|
| rdfs:label
| - Optical character recognition (en)
- Reconocimiento óptico de caracteres (es)
- Texterkennung (de)
- Tekstintunnistus (fi)
- Reconnaissance optique de caractères (fr)
- Optical Character Recognition (it)
- 光学文字認識 (ja)
- Optical Character Recognition (nl)
- OCR (pl)
- OCR (pt)
- Optical character recognition (sv)
- 光学字符识别 (zh)
|
| owl:sameAs
| |
| skos:subject
| |
| foaf:page
| |
| dbpedia-owl:Work#genre
| |
| p:columnsListProperty
| |
| p:genre
| |
| p:products
| |
| p:redirect
| |
| owl:sameAs
| |