In natural language processing, information extraction (IE) is a type of information retrieval whose goal is to automatically extract structured information, i.e. categorized and contextually and semantically well-defined data from a certain domain, from unstructured machine-readable documents.

PropertyValue
dbpprop:abstract
  • In natural language processing, information extraction (IE) is a type of information retrieval whose goal is to automatically extract structured information, i.e. categorized and contextually and semantically well-defined data from a certain domain, from unstructured machine-readable documents. An example of information extraction is the extraction of instances of corporate mergers, more formally <math>MergerBetween(company_1, company_2, date)</math>, from an online news sentence such as: "Yesterday, New-York based Foo Inc. announced their acquisition of Bar Corp. " A broad goal of IE is to allow computation to be done on the previously unstructured data. A more specific goal is to allow logical reasoning to draw inferences based on the logical content of the input data. The significance of IE is determined by the growing amount of information available in unstructured form, for instance on the Internet. This knowledge can be made more accessible by means of transformation into relational form, or by marking-up with XML tags. An intelligent agent monitoring a news data feed requires IE to transform unstructured data into something that can be reasoned with. A typical application of IE is to scan a set of documents written in a natural language and populate a database with the information extracted. Current approaches to IE use natural language processing techniques that focus on very restricted domains. For example, the Message Understanding Conference (MUC) is a competition-based conference that focused on the following domains in the past: MUC-1 (1987), MUC-2 (1989): Naval operations messages. MUC-3 (1991), MUC-4 (1992): Terrorism in Latin American countries. MUC-5 (1993): Joint ventures and microelectronics domain. MUC-6 (1995): News articles on management changes. MUC-7 (1998): Satellite launch reports. Natural Language texts may need to use some form of a Text simplification to create a more easily machine readable text to extract the sentences. Typical subtasks of IE are: Named Entity Recognition: recognition of entity names (for people and organizations), place names, temporal expressions, and certain types of numerical expressions. Coreference: identification chains of noun phrases that refer to the same object. For example, anaphora is a type of coreference. Terminology extraction: finding the relevant terms for a given corpus Relationship Extraction: identification of relations between entities, such as: PERSON works for ORGANIZATION (extracted from the sentence "Bill works for IBM. ") PERSON located in LOCATION (extracted from the sentence "Bill is in France. ")
  • Unter Informationsextraktion (engl. Information Extraction, IE) versteht man die ingenieursmäßige Anwendung von Verfahren aus der praktischen Informatik, der künstlichen Intelligenz und der Computerlinguistik auf das Problem der automatischen maschinellen Verarbeitung von unstrukturierter Information mit dem Ziel, Wissen bezüglich einer im Vorhinein definierten Domäne zu gewinnen. Ein typisches Beispiel ist die Extraktion von Informationen über Firmenzusammenschlüsse (engl. merger events), wobei etwa aus Online-Nachrichten Instanzen der Relation merge(Firma1, Firma2, Datum) extrahiert werden. Der Informationsextraktion kommt eine große Bedeutung zu, da viele Informationen in unstrukturierter (nicht relational modellierter) Form vorliegen, zum Beispiel im Internet, und dieses Wissen durch Informationsextraktion besser erschließbar wird.
  • Extrakce informací (IE) je typ vyhledávání informací, jehož cílem je automaticky vypsat strukturované nebo polostrukturované informace z nestrukturovaných strojově čitelných dokumentů. Typickým příkladem IE je skenování sérii dokumentů napsaných v přirozeném jazyce a se získanými informacemi zaplnění databáze. Aktuální přístup k IE využívá techniky zpracování přirozeného jazyka, ta těží na velmi omezených oblastech. Například, Message Understanding Conference (MUC) je mítinkově založená konference, která se soustředí na oblasti v minulosti: MUC-1 (1987), MUC-2 (1989): Zpráva námořní operace. MUC-3 (1991), MUC-4 (1992): Terorismus v zemích latinské ameriky. MUC-5 (1993): Spojení spekulací a mikroelektronické oblasti. MUC-6 (1995): Novinky ve změnách managementu. MUC-7 (1998): Záznam vypuštění satelitu. Typické podúkoly IE jsou: Rozpoznávání Pojmenované Entity: rozpoznávání jmen (lidé a organizace), názvy míst, časové vyjádření, a určitý typ číselných výrazů. Koreference: identifikace řetězu jmenných frází, které odkazují na identický objekt.
  • La Extracción de la información (de sus siglas en inglés IE, Information Extraction) es un tipo de recuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora. Una aplicación típica de IE es el escaneado de una serie de documentos escritos en una lengua natural y rellenar una base de datos con la información extraída. Las tendencias actuales en relación con la IE utilizan técnicas de procesamiento de lenguaje natural que se centran en áreas muy restringidas. Por ejemplo, la Message Understanding Conference (MUC), o Conferencia para la Comprensión de Mensajes es una competición que se ha centrado en los siguientes aspectos durante los últimos años: MUC-1 1987, MUC-2 1989: Mensajes para operaciones navales. MUC-3 1991: Terrorismo en países latinoamericanos. MUC-5 1993: Microelectrónica. MUC-6 1995: Nuevos artículos a cerca de los cambios en la gerencia. MUC-7 1998: Informes de lanzamiento de satélites.
  • 情報抽出は、情報ルーティングの分野のひとつである。特定の文章やサイトから必要な情報をフィルタリングなどを通して取得する方法である。ただ機械的に抜き出すこともあるが、自然言語処理を用いることもある。
  • Извлечение информации — в области обработки естественного языка, это разновидность информационного поиска, при которой из неструктурированного машинно-читаемого текста выделяется некая структурированная информация, то есть категоризированные, семантически значимые данные по какой-либо проблеме или вопросу. Примером извлечения информации может послужить выискивание случаев деловых визитов — формально это записывается так: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита), — из новостных лент, таких как: «Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз». Главная цель такого преобразования — возможность анализа изначально «хаотичной» информацию с помощью стандартных методов обработки данных. Более узкой целью, может служить, например, задача выявить логические закономерности в описанных в тексте событиях. В современных информационных технологиях роль такой процедуры, как извлечение информации, всё больше возрастает — из-за стремительного увеличения количества неструктурированной информации, в частности, в Интернете. Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму или добавлением XML разметки. При мониторинге новостных лент с помощью интеллектуальных агентов как раз и потребуется методы извлечения информации и преобразования её в такую форму, с которой будет удобнее работать позже. Типичная задача извлечения информации: просканировать набор документов, написанных на естественном языке, и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка, направленные лишь на очень ограниченный набор тем (вопросов, проблем) — часто только на одну тему. Например, «Конференция по Пониманию сообщений» — это конференция соревновательного характера и в прошлом она фокусировалась на таких вопросах: MUC-1 (1987), MUC-2 (1989): Военно-морские операции. MUC-3 (1991), MUC-4 (1992): Терроризм в латиноамериканских странах. MUC-5 (1993): Венчурные операции в области микроэлектроники. MUC-6 (1995): Новостные статьи об изменениях в управляющих процессах. MUC-7 (1998): Отчёты о запусках спутников. Тексты на естественном языке могут потребовать некоего предварительного упрощения, для создания текста, который будет лучше «пониматься» компьютером. Типичные подзадачи извлечения информации: Распознавание именованых элементов: распознавание имён людей, названий организаций, мест, временны́х обозначений и некоторых типов численных выражений. Ссылки: выделение словесных оборотов, ссылающихся на один и тот же объект. Типичный случай таких ссылок — анафора и использование местоимений. Выделение терминологии: нахождение для данного текста ключевых слов.
  • 信息抽取(Information Extraction,簡稱IE,又譯資訊擷取技術)主要是從大量文字資料中自動抽取特定訊息(Particular Information),以作為資料庫存取(Database Access)之用的技術。 信息抽取的一個廣泛目標是允許對以往非結構化的資料去做計算,具體來說就是要允許邏輯推理能對輸入資料的邏輯內容可以舉一反三。其意義在於決定了例如在網際網路上其非結構化(例:不包含元數據)形式中有用資訊數量的成長。在這方面的技術上是透過轉換到關係形式或是經由XML標籤的標記來達到更多的可存取性──一個智慧型代理程序,監督一新聞資料饋流,需要資訊擷取技術來轉換非結構化資料到某種可推論的方式。
dbpprop:date
  • December 2008
dbpprop:hasPhotoCollection
dbpprop:reference
dbpprop:wikiPageUsesTemplate
rdfs:comment
  • In natural language processing, information extraction (IE) is a type of information retrieval whose goal is to automatically extract structured information, i.e. categorized and contextually and semantically well-defined data from a certain domain, from unstructured machine-readable documents.
  • Unter Informationsextraktion (engl. Information Extraction, IE) versteht man die ingenieursmäßige Anwendung von Verfahren aus der praktischen Informatik, der künstlichen Intelligenz und der Computerlinguistik auf das Problem der automatischen maschinellen Verarbeitung von unstrukturierter Information mit dem Ziel, Wissen bezüglich einer im Vorhinein definierten Domäne zu gewinnen. Ein typisches Beispiel ist die Extraktion von Informationen über Firmenzusammenschlüsse (engl.
  • Extrakce informací (IE) je typ vyhledávání informací, jehož cílem je automaticky vypsat strukturované nebo polostrukturované informace z nestrukturovaných strojově čitelných dokumentů. Typickým příkladem IE je skenování sérii dokumentů napsaných v přirozeném jazyce a se získanými informacemi zaplnění databáze. Aktuální přístup k IE využívá techniky zpracování přirozeného jazyka, ta těží na velmi omezených oblastech.
  • La Extracción de la información (de sus siglas en inglés IE, Information Extraction) es un tipo de recuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora. Una aplicación típica de IE es el escaneado de una serie de documentos escritos en una lengua natural y rellenar una base de datos con la información extraída.
  • 情報抽出は、情報ルーティングの分野のひとつである。特定の文章やサイトから必要な情報をフィルタリングなどを通して取得する方法である。ただ機械的に抜き出すこともあるが、自然言語処理を用いることもある。
rdfs:label
  • Information extraction
  • Informationsextraktion
  • Extrakce informací
  • Extracción de la información
  • 情報抽出
  • Извлечение информации
  • 信息抽取
owl:sameAs
skos:subject
foaf:page
is dbpprop:columnsListProperty of
is dbpprop:redirect of