| dbpprop:abstract
|
- Bitextor is a free and open source application whose objective is to generate translation memories using multilingual websites as a corpus source. It is licensed under GNU GPL v2. This application downloads all the HTML files in a website (given by the user). Then, it performs a preprocess to convert them to a coherent and suitable format and, finally, applies a set of heuristics (based mainly on HTML tag structure and text block length) to make pairs of files which are candidates to contain the same text in different languages. From these candidates, translation memories are generated in TMX format using the library LibTagAligner, which uses the HTML tags and the length of text chunks to perform the alignment. The objective of this tool is to provide an easy way to obtain a multilingual corpus obtained from the web. This application has been developer to make easier the process of training automatic translation tools (concretly, it has been developed to train Apertium application).
- Bitextor és una aplicació lliure de codi obert que té com a objectiu la generació de memòries de traducció a partri de llocs web multilingües, que són utilitzats com a corpus base. Bitextor ha estat publicat sota llicència GNU GPL v2. L'aplicació descarrega tots els fitxers HTML del lloc web indicat per l'usuari. Aleshores, realitza un preprocessament per a convertir-los a un format coherent i adequat per a les següents etapes. Seguidament, s'hi aplica un conjunt d'heurístiques (principalment basades en l'estructura d'etiquetes HTML i la longitud de les cadenes de text) per a fer parelles de fitxers que seran considerats com a candidats a contenir el mateix text en diferents idiomes. A partir d'aquests candidats, es generen les memòries de traducció en format TMX mitjançant la llibreria LibTagAligner, que utilitza les etiquetes HTML i la longitud dels blocs de text (també) per a realitzar l'alineament. L'objectiu d'aquesta eina és el de facilitar l'obtenció de corpus multilingüe a partir d'Internet. Bitextor va ser desenvolupat, en un principi, per a facilitar el procés d'entrenament d'aplicacions de traducció automàtica i, concretament, la de la plataforma Apertium.
- Bitextor es una aplicación libre de código abierto que tiene como objetivo la generación de memorias de traducción a partir de sitios web multilingües, que son utilizados como corpus base. Bitextor está publicado bajo licencia GNU GPL v2. La aplicación descarga todos los ficheros HTML del sitio web indicado por el usuario. Entonces, realiza un preproceso para convertirlos a un formato coherente y adecuado para los siguientes pasos. Seguidamente, se aplica un conjunto de heurísticas (principalmente basadas en la estructura de etiquetas HTML y la longitud de las cadenas de texto) para hacer parejas de ficheros que seran considerados como candidatos a contener el mismo texto en diferentes idiomas. A partir de estos candidatos, se generan las memorias de traducción en formato TMX mediante la librería LibTagAligner, que utilitza las etiquetas HTML y la longitud de los bloques de texto (también) para realizar el alineamiento. El objetivo de esta herramienta es el de facilitar la obtención de corpus multilingüe a partir de Internet. Bitextor fue desarrollado, en un principio, para facilitar el proceso de entrenamiento de aplicaciones de traducción automática y, concretamente, la de la plataforma Apertium.
- Bitextor è una applicazione libera di codice aperto che ha come obiettivo la generazione di memorie di traduzione a partire da pagine web multilingue, che sono utilizzati come corpus base. Bitextor è pubblicato sotto licenza GNU GPL v2. L'applicazione scarica tutti i file HTML dalla pagina web indicata dall'utente. Quindi, realizza un pre-processo per convertirli a un formato coerente e adeguato per le tappe successive. Dopodiché Si applica un insieme di euristicas (principalmente basate nella struttura di etichette HTML e nella longitudine delle catene di testo) per fare coppie di file che saranno considerati come candidati a contenere lo stesso testo in differenti idiomi. A Partire da questi candidati, si generano le memorie di traduzione in formato TMX mediante la libreria LibTagAligner, che utilizza le etichette HTML e la longitudine dei blocchi di testo (anche) per realizzare l'allineamiento. Lo scopo di questo strumento è quello di facilitare l'ottenimento di corpus multilingue a partire da Internet. Bitextor Fu sviluppato, in un principio, per facilitare il processo di allenamento di applicazioni di traduzione automatica e, concretamente, quello della piattaforma Apertium.
|
| rdfs:comment
|
- Bitextor is a free and open source application whose objective is to generate translation memories using multilingual websites as a corpus source. It is licensed under GNU GPL v2. This application downloads all the HTML files in a website (given by the user).
- Bitextor és una aplicació lliure de codi obert que té com a objectiu la generació de memòries de traducció a partri de llocs web multilingües, que són utilitzats com a corpus base. Bitextor ha estat publicat sota llicència GNU GPL v2. L'aplicació descarrega tots els fitxers HTML del lloc web indicat per l'usuari. Aleshores, realitza un preprocessament per a convertir-los a un format coherent i adequat per a les següents etapes.
- Bitextor es una aplicación libre de código abierto que tiene como objetivo la generación de memorias de traducción a partir de sitios web multilingües, que son utilizados como corpus base. Bitextor está publicado bajo licencia GNU GPL v2. La aplicación descarga todos los ficheros HTML del sitio web indicado por el usuario. Entonces, realiza un preproceso para convertirlos a un formato coherente y adecuado para los siguientes pasos.
- Bitextor è una applicazione libera di codice aperto che ha come obiettivo la generazione di memorie di traduzione a partire da pagine web multilingue, che sono utilizzati come corpus base. Bitextor è pubblicato sotto licenza GNU GPL v2. L'applicazione scarica tutti i file HTML dalla pagina web indicata dall'utente. Quindi, realizza un pre-processo per convertirli a un formato coerente e adeguato per le tappe successive.
|