About: Information extraction

Property	Value
dbo:abstract	Extrakce informací (anglicky information extraction; IE) je typ vyhledávání informací, jehož cílem je automaticky vypsat strukturované nebo polostrukturované informace z nestrukturovaných strojově čitelných dokumentů. Typickým příkladem IE je skenování sérii dokumentů napsaných v přirozeném jazyce a se získanými informacemi zaplnění databáze. Aktuální přístup k IE využívá techniky zpracování přirozeného jazyka, ta těží na velmi omezených oblastech. Například Message Understanding Conference (MUC) je mítinkově založená konference, která se soustředí na oblasti v minulosti: * MUC-1 (1987), MUC-2 (1989): Zpráva námořní operace. * MUC-3 (1991), MUC-4 (1992): Terorismus v zemích latinské Ameriky. * MUC-5 (1993): Spojení spekulací a mikroelektronické oblasti. * MUC-6 (1995): Novinky ve změnách managementu. * MUC-7 (1998): Záznam vypuštění satelitu. Typické podúkoly IE jsou: * Rozpoznávání pojmenovaných entit: rozpoznávání jmen (lidé a organizace), názvy míst, časové vyjádření, a určitý typ číselných výrazů. * Určení : identifikace řetězu jmenných frází, které odkazují na identický objekt. (cs) استخراج المعلومات (آي أي) هو نوع من استرجاع المعلومات التي تهدف إلى استخراج تلقائيا من الوثائق غير المهيكلة ، بشكل عام استخراج المعلومات المهيكلة من نصوص اللغات البشرية عن طريق معالجة اللغة الطبيعية. ونظرا لصعوبة المشكلة، فإن النهج الحالي لاستخراج المعلومات هو التركيز على مجالات محدودة ضيقة. ومن الأمثلة على ذلك هو الاستخراج من تقارير وكالات الأنباءمن عمليات الدمج بين الشركات، كما توضح العلاقة التالية: دمج_بين(الشركة_1، الشركة_2، تاريخ)، من الجملة الأخبارية على الإنترنت مثل: امس، أعلنت شركة غزل النسيج المحدودة عن حصولها على شركة الاقطان العربية. الهدف الاشمل لعملية استخراج المعلومات هو السماح للمعالجة الحاسوبية ان تتم سلفا على البيانات غير الهيكلية. وثمة هدف أكثر تحديدا هو السماح للتفكير المنطقي أن يقوم بالاستدلال على أساس المحتوى المنطقي للبيانات المدخلة. البيانات الهيكلية هي بيانات واضحة المعالم دلاليا من المجال المختار، تم تفسيره بدقة وعناية وفقا للتصنيف والسياق. (ar) Η εξαγωγή ή εξόρυξη πληροφοριών είναι ένα είδος ανάκτησης πληροφοριών από μη δομημένα ή ημιδομημένα δεδομένα (unstructured or semi-structured data – τυπικά κείμενα γραμμένα σε φυσική γλώσσα, ιστοσελίδες κ.α.) και αποτελεί κλάδο της σύγχρονης Επιστήμης των υπολογιστών. Είναι βασισμένη στην τεχνολογία της Επεξεργασίας του φυσικού λόγου. (el) Unter Informationsextraktion (engl. Information Extraction, IE) versteht man die ingenieursmäßige Anwendung von Verfahren aus der praktischen Informatik, der künstlichen Intelligenz und der Computerlinguistik auf das Problem der automatischen maschinellen Verarbeitung von unstrukturierter Information mit dem Ziel, Wissen bezüglich einer im Vorhinein definierten Domäne zu gewinnen. Ein typisches Beispiel ist die Extraktion von Informationen über Firmenzusammenschlüsse (engl. merger events), wobei etwa aus Online-Nachrichten Instanzen der Relation merge(Firma1, Firma2, Datum) extrahiert werden. Der Informationsextraktion kommt eine große Bedeutung zu, da viele Informationen in unstrukturierter (nicht relational modellierter) Form vorliegen, zum Beispiel im Internet, und dieses Wissen durch Informationsextraktion besser erschließbar wird. (de) Informazio erauzketa (ingelesez, Information Extraction edo IE) informatikaren alor bat da, ordenagailu batek irakur ditzakeen dokumentuetatik informazio zehatz batzuk formatu egituratu edo erdi-egituratuan ateratzea helburu duena. Bilatutako informazioa edukiko duten esaldi mota batzuk detektatzeko patroiak eta tresna sintaktiko-semantikoak erabiltzen dira entitate, erlazio edota gertaerei buruzko informazioa lortzeko, domeinu mugatu baten dokumentuen artean. Domeinu batzuk hauek dira: enpresa-erabakiak, administrazioa, medikuntza, sal-erosketak, zaintza teknologikoa, (opinion mining), militarra... Gehienetan Intranet mailan erabiltzen da, dokumentu multzo mugatu baten gainean, bilaketa eremua ez da izaten Internet osoa. (eu) Information extraction (IE) is the task of automatically extracting structured information from unstructured and/or semi-structured machine-readable documents and other electronically represented sources. In most of the cases this activity concerns processing human language texts by means of natural language processing (NLP). Recent activities in multimedia document processing like automatic annotation and content extraction out of images/audio/video/documents could be seen as information extraction Due to the difficulty of the problem, current approaches to IE (as of 2010) focus on narrowly restricted domains. An example is the extraction from newswire reports of corporate mergers, such as denoted by the formal relation: , from an online news sentence such as: "Yesterday, New York based Foo Inc. announced their acquisition of Bar Corp." A broad goal of IE is to allow computation to be done on the previously unstructured data. A more specific goal is to allow logical reasoning to draw inferences based on the logical content of the input data. Structured data is semantically well-defined data from a chosen target domain, interpreted with respect to category and context. Information extraction is the part of a greater puzzle which deals with the problem of devising automatic methods for text management, beyond its transmission, storage and display. The discipline of information retrieval (IR) has developed automatic methods, typically of a statistical flavor, for indexing large document collections and classifying documents. Another complementary approach is that of natural language processing (NLP) which has solved the problem of modelling human language processing with considerable success when taking into account the magnitude of the task. In terms of both difficulty and emphasis, IE deals with tasks in between both IR and NLP. In terms of input, IE assumes the existence of a set of documents in which each document follows a template, i.e. describes one or more entities or events in a manner that is similar to those in other documents but differing in the details. An example, consider a group of newswire articles on Latin American terrorism with each article presumed to be based upon one or more terroristic acts. We also define for any given IE task a template, which is a(or a set of) case frame(s) to hold the information contained in a single document. For the terrorism example, a template would have slots corresponding to the perpetrator, victim, and weapon of the terroristic act, and the date on which the event happened. An IE system for this problem is required to “understand” an attack article only enough to find data corresponding to the slots in this template. (en) La extracción de la información (de sus siglas en inglés IE, Information Extraction) es un tipo de recuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora. Una aplicación típica de IE es el escaneado de una serie de documentos escritos en una lengua natural y rellenar una base de datos con la información extraída. Estos textos pueden estar en forma semiestructurada o desestructurada. Estos documentos pueden ser muy variopintos desde artículos de prensa hasta informes científicos que en general están escritos en un lenguaje humano. Las tendencias actuales en relación con la IE utilizan técnicas de procesamiento de lenguaje natural que se centran en áreas muy restringidas. El objetivo es procesar estos documentos con un software de procesamiento de lenguaje natural (NLP) para extraer información útil de ellos. Esta tarea es muy compleja ya que estos programas suelen operar con unos dominios muy restringidos. Lo que dificulta extraer la información de textos con un lenguaje poco formal o imágenes. Por ejemplo, la Message Understanding Conference (MUC), o Conferencia para la Comprensión de Mensajes es una competición que se ha centrado en los siguientes aspectos durante los últimos años: * MUC-1 1987, MUC-2 1989: Mensajes para operaciones navales. * MUC-3 1991: Terrorismo en países latinoamericanos. * MUC-5 1993: Microelectrónica. * MUC-6 1995: Nuevos artículos a cerca de los cambios en la gerencia. * MUC-7 1998: Informes de lanzamiento de satélites. (es) 情報抽出 (じょうほうちゅうしゅつ、英語: Information Extraction、略称: IE) は非構造化文書と機械が読み取れる (machine-readableな) 半構造化文書の両方またはいずれから自動的に構造化データを抽出するタスクである。多くの場合、この作業は人間の言葉で書かれた文書を自然言語処理 (英: Natural Language Processing、略: NLP) の手法を用いて処理することを指す。画像・音楽・動画の自動アノテーションやコンテンツ抽出のような、近年のマルチメディア文書の処理もまた情報抽出として捉えられる。その問題の難しさから、IEに対する現在のアプローチは狭く制限されたドメインに焦点を当てている。例として、ニュースサービスの企業合併についての報道からの情報抽出があり、次のようなフォーマルな関係による情報 , を次のようなニュース文 "Yesterday, New York based Foo Inc. announced their acquisition of Bar Corp." から抜き出す。 IEの広い目標は、蓄積された非構造化データのうえで処理を行えるようにすることである。より具体的な目標は、入力データの論理的内容に基づいて推論を行う論理的推論を可能にすることである。 (ja) Извлечение информации (англ. information extraction) — это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов. Извлечение информации является разновидностью информационного поиска, связанного с обработкой текста на естественном языке. Примером извлечения информации может быть поиск деловых визитов — формально это записывается так: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита) — из новостных лент, таких как: «Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз». Главная цель такого преобразования — возможность анализа изначально «хаотичной» информации с помощью стандартных методов . Более узкой целью может служить, например, задача выявить логические закономерности в описанных в тексте событиях. В современных информационных технологиях роль такой процедуры, как извлечение информации, всё больше возрастает — из-за стремительного увеличения количества неструктурированной (без метаданных) информации, в частности, в Интернете. Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму или добавлением XML разметки. При мониторинге новостных лент с помощью интеллектуальных агентов как раз и потребуются методы извлечения информации и преобразования её в такую форму, с которой будет удобнее работать позже. Типичная задача извлечения информации: просканировать набор документов, написанных на естественном языке, и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка, направленные лишь на очень ограниченный набор тем (вопросов, проблем) — часто только на одну тему. Например, «Конференция по Пониманию сообщений» (en:Message Understanding Conference, MUC) — это конференция соревновательного характера и в прошлом она фокусировалась на таких вопросах: * MUC-1 (1987), MUC-2 (1989): Военно-морские операции. * MUC-3 (1991), MUC-4 (1992): Терроризм в латиноамериканских странах. * MUC-5 (1993): Венчурные операции в области микроэлектроники. * MUC-6 (1995): Новостные статьи об изменениях в управляющих процессах. * MUC-7 (1998): Отчёты о запусках спутников. Тексты на естественном языке могут потребовать некоего предварительного преобразования на язык (например, RDF — Resource Description Framework), понятный для компьютера. Типичные подзадачи извлечения информации: * Распознавание именованных элементов (сущностей), например: имён людей, названий организаций, географических названий, событий, временны́х и денежных обозначений и пр. * Разрешение анафоры и кореференций: поиск связей, относящихся к одному и тому же объекту. Типичный случай таких ссылок — местоименная анафора. * Выделение терминологии: нахождение для данного текста ключевых слов и словосочетаний (коллокаций). * : выделение из текста смысловой, эмотивной, оценочной и пр. информации. Бывает генеративным и декларативным. (ru) Informationsextraktion (engelska Information Extraction) innebär inom informationsteknik att information i datorlagrad form läses ut med hjälp av olika tekniker och teknologier. Informationsextraktion är ett med informationssökning närbesläktat forskningsområde inom informationsåtkomst och språkteknologi. Informationsextraktion bygger på automatisk textförståelse, men förståelse bara av ett begränsat ämnesområde. Eftersom mänskliga språk är variationsrika är informationsextraktion svår att utföra med både god täckning och god precision. Om användaren kan finna sig i lägre täckning ger dock informationsextraktionssystem idag mycket god precision och höga prestanda. Forskningsområdet är ett av de första viktiga tillämpningsområdena för språkteknologi och har i hög grad definierats genom konferensserien MUC (Message Understanding Conferences, 1987-1998) finansierad av Förenta Staternas statsförvaltning. (sv) Видобуток інформації (ВІ, англ. information extraction, IE, рос. извлечение информации) — завдання автоматичного видобутку структурованої інформації з неструктурованих та/або документів та інших джерел в електронному вигляді. У більшості випадків ця діяльність стосується обробки текстів людською мовою за допомогою обробки природної мови (ОПМ, англ. NLP). Останні дії в мультимедіа обробці документів, такі як автоматична анотація та вилучення вмісту із зображень / аудіо / відео / документів, можуть розглядатися як видобуток інформації. Через складність задачі сучасні підходи до витягування інформації зосереджені на вузько обмежених галузях. Прикладом може слугувати витягування з новинної стрічки звітів про корпоративні злиття, наприклад, позначених формальним відношенням: ЗлиттяМіж(компанія1, компанія2, дата) з новин «Вчора компанія „Смартленд“ придбала у держави готель „Дніпро“.» Загальна мета ВІ — дозволити обчислювати раніше неструктуровані дані. Конкретніша мета — за допомогою робити висновки на основі логічного змісту вхідних даних. Структуровані дані — це семантично чітко визначені дані з обраного цільового домену, що інтерпретуються щодо категорії та контексту. Витягування інформації — це частина загальної великої задачі, яка має справу з розробкою автоматичних методів управління текстом, окрім його передачі, зберігання та відображення. В межах інформаційного пошуку (ІП) розроблено автоматичні методи, як правило, статистичного характеру, для індексування та класифікування великих масивів документів. Іншим додатковим підходом є підхід до обробки природної мови (ОПМ), який розв'язав проблему моделювання обробки людської мови, беручи до уваги розмір завдання. Що стосується складності, ВІ має справу із завданнями між ІП та ОПМ. Що стосується вводу, ВІ припускає існування набору документів, в яких кожен документ створений за шаблоном, тобто описує одну або кілька сутностей, подій способом, подібним до того, що і в інших документах, але з різними деталями. Як приклад, розгляньмо групу статей з новин про латиноамериканський тероризм. Кожна стаття заснована на одному або декількох терористичних актах. Ми також визначаємо для будь-якої задачі шаблон ВІ, який є фреймом (або набором фреймів) для зберігання інформації, що міститься в одному документі. Для прикладу тероризму шаблон повинен містити слоти, що відповідають винуватцю, жертві та зброї, яка використовувалася для здійснення теракту, а також дату, коли сталася подія. Система ВІ для цієї проблеми вимагає «розуміння» статті про атаку лише для того, щоб знайти дані, що відповідають слотам у цьому шаблоні. (uk) 信息抽取（Information Extraction，簡稱IE，又譯資訊擷取技術）主要是從大量文字資料中自動抽取特定訊息（Particular Information），以作為資料庫存取（Database Access）之用的技術。信息抽取的一個廣泛目標是允許對以往非結構化的資料去做計算，具體來說就是要允許邏輯推理能對輸入資料的邏輯內容可以舉一反三。其意義在於決定了例如在網際網路上其非結構化（例：不包含元數據）形式中有用資訊數量的成長。在這方面的技術上是透過轉換到關係形式或是經由XML標籤的標記來達到更多的可存取性──一個智慧型代理程序，監督一新聞資料饋流，需要資訊擷取技術來轉換非結構化資料到某種可推論的方式。 (zh)
dbo:wikiPageExternalLink	http://alias-i.com/lingpipe/web/competition.html http://www.gabormelli.com/RKB/Information_Extraction_Task
dbo:wikiPageID	383162 (xsd:integer)
dbo:wikiPageLength	20245 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID	1102562188 (xsd:integer)
dbo:wikiPageWikiLink	dbr:Enterprise_search dbr:List_of_emerging_technologies dbr:Multinomial_logistic_regression dbr:Named_entity_recognition dbr:Natural_language_processing dbr:Joint_venture dbr:Reuters dbr:DARPA_TIPSTER_Program dbr:Information_retrieval dbr:Internet dbc:Artificial_intelligence dbr:Conditional_random_field dbr:Name_resolution_(semantics_and_text_extraction) dbr:Relationship_extraction dbr:ClearForest dbr:General_Architecture_for_Text_Engineering dbr:Multimedia dbr:Concept_mining dbr:Context_(language_use) dbr:Coreference dbr:Thomson_Reuters dbr:Open_information_extraction dbr:Apache_Nutch dbr:Applications_of_artificial_intelligence dbr:Machine_learning dbr:Mallet_(software_project) dbr:Keyword_extraction dbr:Machine-readable_data dbr:DBpedia_Spotlight dbr:Maximum-entropy_Markov_model dbr:Unstructured_data dbr:Barack_Obama dbr:Tim_Berners-Lee dbr:Data_extraction dbr:Logical_reasoning dbr:Anaphora_(linguistics) dbr:DARPA dbr:Knowledge_extraction dbr:Text_corpus dbr:Real-time_data dbr:Recurrent_neural_network dbr:Relational_database dbc:Natural_language_processing dbr:Hidden_Markov_model dbr:Terminology_extraction dbr:Wrapper_(data_mining) dbr:Data_deluge dbr:Metadata dbr:Michelle_Obama dbr:Natural_Language_Toolkit dbr:Naïve_Bayes_classifier dbr:Semantic_web dbr:XML dbr:Message_Understanding_Conference dbr:Principle_of_maximum_entropy dbr:Text_simplification dbr:World_Wide_Web dbr:Faceted_search dbr:Natural_language dbr:OpenNLP dbr:Unsupervised_learning dbr:Web_scraping dbr:Semantic_translation dbr:Knowledge_Base dbr:Outline_of_artificial_intelligence dbr:Supervised_learning dbr:Table_extraction dbr:Textmining dbr:Ontology_extraction
dbp:wikiPageUsesTemplate	dbt:Citation_needed dbt:Colbegin dbt:Colend dbt:Refimprove dbt:Short_description dbt:When dbt:Natural_Language_Processing
dct:subject	dbc:Artificial_intelligence dbc:Natural_language_processing
rdfs:comment	Η εξαγωγή ή εξόρυξη πληροφοριών είναι ένα είδος ανάκτησης πληροφοριών από μη δομημένα ή ημιδομημένα δεδομένα (unstructured or semi-structured data – τυπικά κείμενα γραμμένα σε φυσική γλώσσα, ιστοσελίδες κ.α.) και αποτελεί κλάδο της σύγχρονης Επιστήμης των υπολογιστών. Είναι βασισμένη στην τεχνολογία της Επεξεργασίας του φυσικού λόγου. (el) Informazio erauzketa (ingelesez, Information Extraction edo IE) informatikaren alor bat da, ordenagailu batek irakur ditzakeen dokumentuetatik informazio zehatz batzuk formatu egituratu edo erdi-egituratuan ateratzea helburu duena. Bilatutako informazioa edukiko duten esaldi mota batzuk detektatzeko patroiak eta tresna sintaktiko-semantikoak erabiltzen dira entitate, erlazio edota gertaerei buruzko informazioa lortzeko, domeinu mugatu baten dokumentuen artean. Domeinu batzuk hauek dira: enpresa-erabakiak, administrazioa, medikuntza, sal-erosketak, zaintza teknologikoa, (opinion mining), militarra... Gehienetan Intranet mailan erabiltzen da, dokumentu multzo mugatu baten gainean, bilaketa eremua ez da izaten Internet osoa. (eu) 情報抽出 (じょうほうちゅうしゅつ、英語: Information Extraction、略称: IE) は非構造化文書と機械が読み取れる (machine-readableな) 半構造化文書の両方またはいずれから自動的に構造化データを抽出するタスクである。多くの場合、この作業は人間の言葉で書かれた文書を自然言語処理 (英: Natural Language Processing、略: NLP) の手法を用いて処理することを指す。画像・音楽・動画の自動アノテーションやコンテンツ抽出のような、近年のマルチメディア文書の処理もまた情報抽出として捉えられる。その問題の難しさから、IEに対する現在のアプローチは狭く制限されたドメインに焦点を当てている。例として、ニュースサービスの企業合併についての報道からの情報抽出があり、次のようなフォーマルな関係による情報 , を次のようなニュース文 "Yesterday, New York based Foo Inc. announced their acquisition of Bar Corp." から抜き出す。 IEの広い目標は、蓄積された非構造化データのうえで処理を行えるようにすることである。より具体的な目標は、入力データの論理的内容に基づいて推論を行う論理的推論を可能にすることである。 (ja) 信息抽取（Information Extraction，簡稱IE，又譯資訊擷取技術）主要是從大量文字資料中自動抽取特定訊息（Particular Information），以作為資料庫存取（Database Access）之用的技術。信息抽取的一個廣泛目標是允許對以往非結構化的資料去做計算，具體來說就是要允許邏輯推理能對輸入資料的邏輯內容可以舉一反三。其意義在於決定了例如在網際網路上其非結構化（例：不包含元數據）形式中有用資訊數量的成長。在這方面的技術上是透過轉換到關係形式或是經由XML標籤的標記來達到更多的可存取性──一個智慧型代理程序，監督一新聞資料饋流，需要資訊擷取技術來轉換非結構化資料到某種可推論的方式。 (zh) استخراج المعلومات (آي أي) هو نوع من استرجاع المعلومات التي تهدف إلى استخراج تلقائيا من الوثائق غير المهيكلة ، بشكل عام استخراج المعلومات المهيكلة من نصوص اللغات البشرية عن طريق معالجة اللغة الطبيعية. ونظرا لصعوبة المشكلة، فإن النهج الحالي لاستخراج المعلومات هو التركيز على مجالات محدودة ضيقة. ومن الأمثلة على ذلك هو الاستخراج من تقارير وكالات الأنباءمن عمليات الدمج بين الشركات، كما توضح العلاقة التالية: دمج_بين(الشركة_1، الشركة_2، تاريخ)، من الجملة الأخبارية على الإنترنت مثل: امس، أعلنت شركة غزل النسيج المحدودة عن حصولها على شركة الاقطان العربية. (ar) Extrakce informací (anglicky information extraction; IE) je typ vyhledávání informací, jehož cílem je automaticky vypsat strukturované nebo polostrukturované informace z nestrukturovaných strojově čitelných dokumentů. Typickým příkladem IE je skenování sérii dokumentů napsaných v přirozeném jazyce a se získanými informacemi zaplnění databáze. Aktuální přístup k IE využívá techniky zpracování přirozeného jazyka, ta těží na velmi omezených oblastech. Například Message Understanding Conference (MUC) je mítinkově založená konference, která se soustředí na oblasti v minulosti: (cs) Unter Informationsextraktion (engl. Information Extraction, IE) versteht man die ingenieursmäßige Anwendung von Verfahren aus der praktischen Informatik, der künstlichen Intelligenz und der Computerlinguistik auf das Problem der automatischen maschinellen Verarbeitung von unstrukturierter Information mit dem Ziel, Wissen bezüglich einer im Vorhinein definierten Domäne zu gewinnen. Ein typisches Beispiel ist die Extraktion von Informationen über Firmenzusammenschlüsse (engl. merger events), wobei etwa aus Online-Nachrichten Instanzen der Relation merge(Firma1, Firma2, Datum) extrahiert werden. Der Informationsextraktion kommt eine große Bedeutung zu, da viele Informationen in unstrukturierter (nicht relational modellierter) Form vorliegen, zum Beispiel im Internet, und dieses Wissen durch (de) La extracción de la información (de sus siglas en inglés IE, Information Extraction) es un tipo de recuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora. El objetivo es procesar estos documentos con un software de procesamiento de lenguaje natural (NLP) para extraer información útil de ellos. Esta tarea es muy compleja ya que estos programas suelen operar con unos dominios muy restringidos. Lo que dificulta extraer la información de textos con un lenguaje poco formal o imágenes. (es) Information extraction (IE) is the task of automatically extracting structured information from unstructured and/or semi-structured machine-readable documents and other electronically represented sources. In most of the cases this activity concerns processing human language texts by means of natural language processing (NLP). Recent activities in multimedia document processing like automatic annotation and content extraction out of images/audio/video/documents could be seen as information extraction , from an online news sentence such as: (en) Informationsextraktion (engelska Information Extraction) innebär inom informationsteknik att information i datorlagrad form läses ut med hjälp av olika tekniker och teknologier. Informationsextraktion är ett med informationssökning närbesläktat forskningsområde inom informationsåtkomst och språkteknologi. Informationsextraktion bygger på automatisk textförståelse, men förståelse bara av ett begränsat ämnesområde. Eftersom mänskliga språk är variationsrika är informationsextraktion svår att utföra med både god täckning och god precision. Om användaren kan finna sig i lägre täckning ger dock informationsextraktionssystem idag mycket god precision och höga prestanda. Forskningsområdet är ett av de första viktiga tillämpningsområdena för språkteknologi och har i hög grad definierats genom konf (sv) Извлечение информации (англ. information extraction) — это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов. * MUC-1 (1987), MUC-2 (1989): Военно-морские операции. * MUC-3 (1991), MUC-4 (1992): Терроризм в латиноамериканских странах. * MUC-5 (1993): Венчурные операции в области микроэлектроники. * MUC-6 (1995): Новостные статьи об изменениях в управляющих процессах. * MUC-7 (1998): Отчёты о запусках спутников. Типичные подзадачи извлечения информации: (ru) Видобуток інформації (ВІ, англ. information extraction, IE, рос. извлечение информации) — завдання автоматичного видобутку структурованої інформації з неструктурованих та/або документів та інших джерел в електронному вигляді. У більшості випадків ця діяльність стосується обробки текстів людською мовою за допомогою обробки природної мови (ОПМ, англ. NLP). Останні дії в мультимедіа обробці документів, такі як автоматична анотація та вилучення вмісту із зображень / аудіо / відео / документів, можуть розглядатися як видобуток інформації. ЗлиттяМіж(компанія1, компанія2, дата) з новин (uk)
rdfs:label	استخراج المعلومات (ذكاء اصطناعي) (ar) Extrakce informací (cs) Informationsextraktion (de) Εξαγωγή πληροφοριών (el) Extracción de la información (es) Informazio erauzketa (eu) Information extraction (en) 情報抽出 (ja) Извлечение информации (ru) Informationsextraktion (sv) Видобування інформації (uk) 信息抽取 (zh)
owl:sameAs	freebase:Information extraction wikidata:Information extraction dbpedia-ar:Information extraction dbpedia-az:Information extraction dbpedia-cs:Information extraction dbpedia-de:Information extraction dbpedia-el:Information extraction dbpedia-es:Information extraction dbpedia-eu:Information extraction dbpedia-fa:Information extraction dbpedia-ja:Information extraction dbpedia-ru:Information extraction dbpedia-sr:Information extraction dbpedia-sv:Information extraction dbpedia-uk:Information extraction dbpedia-vi:Information extraction dbpedia-zh:Information extraction https://global.dbpedia.org/id/dfnD
prov:wasDerivedFrom	wikipedia-en:Information_extraction?oldid=1102562188&ns=0
foaf:isPrimaryTopicOf	wikipedia-en:Information_extraction
is dbo:academicDiscipline of	dbr:Rohini_Kesavan_Srihari
is dbo:genre of	dbr:UIMA
is dbo:wikiPageDisambiguates of	dbr:Extraction dbr:Ie
is dbo:wikiPageRedirects of	dbr:Information_Extraction
is dbo:wikiPageWikiLink of	dbr:Carnegie_Mellon_University dbr:Amit_Sheth dbr:Enterprise_information_access dbr:Enterprise_search dbr:Entity_linking dbr:Extraction dbr:Natural-language_understanding dbr:Natural_language_processing dbr:Ontology_learning dbr:Andrew_McCallum dbr:András_Kornai dbr:List_of_SRI_International_people dbr:Culturomics dbr:DARPA_TIPSTER_Program dbr:Deductive_database dbr:Deep_linguistic_processing dbr:Index_of_robotics_articles dbr:Information_filtering_system dbr:International_Conference_on_Computatio...stics_and_Intelligent_Text_Processing dbr:Rohini_Kesavan_Srihari dbr:Timeline_of_artificial_intelligence dbr:Cheminformatics dbr:Ellen_Riloff dbr:Optical_character_recognition dbr:Relationship_extraction dbr:CiteSeerX dbr:Elasticsearch dbr:General_Architecture_for_Text_Engineering dbr:Glossary_of_artificial_intelligence dbr:Concept_mining dbr:Concept_search dbr:Contact_scraping dbr:Cross-language_information_retrieval dbr:Laboratoire_d'informatique_pour_la_mécanique_et_les_sciences_de_l'ingénieur dbr:Social_information_seeking dbr:Open_information_extraction dbr:Apache_Lucene dbr:Apache_Nutch dbr:Link_grammar dbr:Mallet_(software_project) dbr:Comparison_shopping_website dbr:Full-text_search dbr:Heng_Ji dbr:Kernel_method dbr:Keyword_extraction dbr:Text,_Speech_and_Dialogue dbr:Maximum-entropy_Markov_model dbr:MeaningCloud dbr:Automatic_content_extraction dbr:UIMA dbr:Data-centric_programming_language dbr:Data-intensive_computing dbr:Data_extraction dbr:Data_mining dbr:Data_scraping dbr:Document_Exploitation dbr:Language_Computer_Corporation dbr:Language_Technologies_Institute dbr:AUTINDEX dbr:DBpedia dbr:Daniel_S._Weld dbr:Datalog dbr:FrameNet dbr:Noisy_text_analytics dbr:Center_for_Intelligent_Information_Retrieval dbr:Diana_Maynard dbr:Glossary_of_library_and_information_science dbr:Google_Squared dbr:Grammatical_Framework dbr:Graphical_model dbr:Knowledge_extraction dbr:Legal_informatics dbr:Lemmatisation dbr:Abstract_interpretation dbr:Jerry_Hobbs dbr:BioCreative dbr:Biomedical_text_mining dbr:Systems_biology dbr:Collaborative_filtering dbr:Terminology_extraction dbr:Text_nailing dbr:Diffeo_(company) dbr:Artur_d'Avila_Garcez dbr:Automatic_summarization dbr:Automatic_taxonomy_construction dbr:Business_intelligence dbr:Filtered-popping_recursive_transition_network dbr:IBM_SystemT dbr:National_Centre_for_Text_Mining dbr:Ontology_(information_science) dbr:WordNet dbr:Ie dbr:Search_engine_indexing dbr:Machine_translation dbr:Message_Understanding_Conference dbr:Semantic_role_labeling dbr:Semantic_analysis_(machine_learning) dbr:Information_Extraction dbr:Toponym_resolution dbr:Faceted_search dbr:Temporal_annotation dbr:Transderivational_search dbr:Evaluation_of_binary_classifiers dbr:Named-entity_recognition dbr:Named_entity dbr:Syntactic_parsing_(computational_linguistics) dbr:Multi-document_summarization dbr:Semantic_parsing dbr:Text_mining dbr:Outline_of_artificial_intelligence dbr:Outline_of_library_and_information_science dbr:Outline_of_natural_language_processing dbr:Supervised_learning dbr:Textual_entailment dbr:Truth_discovery dbr:Stop_word dbr:Word2vec dbr:Text_graph dbr:Table_extraction
is dbp:field of	dbr:Rohini_Kesavan_Srihari
is dbp:genre of	dbr:UIMA
is foaf:primaryTopic of	wikipedia-en:Information_extraction