The purpose of the Wikipedia Machine Translation Project is to develop ideas, methods and tools that can help translate Wikipedia articles from one language to another (particularly out of English and into languages with small numbers of fluent speakers).
Motivation
Small languages can't produce articles as fast as English wikipedia because the number of wikipedians is too low. The solution for this problem is the translation of English wikipedia. But, some languages will not have enough translators. Machine Translation can improve the productivity of the community.
- But manual translation can be added later, for a more accurate text.
TradWiki/WikiTran
TradWiki/WikiTran (WikipediaTranslator/WikiTranslator/BabelWiki) is a wiki that will be coded to help wikipedians translate articles from English to other languages.
- I prefer Wikibabel, in a similar way to WIKIpedia, WIKIspecies and so on.
- How about Wikitongues? - FrancisTyers 21:21, 16 October 2005 (UTC)
License
All code and data should be released under a free licence (GPL for code, GFDL for text).
Advantages
- faster translation of wikipedia
- generation of large amounts of useful data (corpora).
- creation of a useful tool
TradWiki/WikiTran - Translation memory approach
A Translation Memory is a computer program that uses a database of old translations to help a human translator. If this approach is followed, WikipediaTranslator will need the following features:
- visualization of translated and original versions
- split of original versions on several parts for individual translation
GATOS DE EXPOSICIÓN
Los gatos de exposición (también conocidos como gatos de pura raza o gatos con pedigrí) se juzgan en función de la proximidad de sus características físicas con el físico que se considera ideal para su raza. No todos gatos con pedigrí son gatos de exposición, muchos son sólo mascotas, pero aquéllas que poseen la mejor conformación y personalidad se muestran, a menudo, en asociaciones como la CFA y TICA en los EE.UU., el GCCF en el Reino Unido y la FiFe en el resto de Europa. Es poco común, pero aquéllos gatos que tienen pedigrí y han ganado algún premio pueden costar varios miles de dólares. Sin embargo, la mayoría son mascotas encantadoras. Para comparar las distintas razas y mejoraras se llevan a cabo exposiciones, en las cuales los jueces evalúan a estos animales teniendo en cuenta la pureza de su raza. Muchas veces, los gatos con pedigrí se identifican con implantes de microchips.
Un error muy común consiste en creer que los gatos con pedigrí no están tan sanos como aquéllos cuyos progenitores pertenecen a distintas razas, debido a la endogamia. No obstante, algunos son demasiado endogámicos. En el pasado, antes de que se extendieran los conocimientos de genética, éste era el caso de algunas razas. En la actualidad, los criadores tienen mucho cuidado a la hora de elegir los animales más sanos, que han reducido ampliamente los problemas relacionados con la salud. Muchos de los peores, como los PKD entre los persas y los HCM en los Maine Coons se han extinguido prácticamente como consecuencia de las emisiones preventivas, una larga trayectoria y los estudios de los genetistas.
File:Example.jpgGato persa.
Los gatos persas se popularizaron en el siglo XIX durante el reinado de la reina Victoria, cuando ella y otros miembros de la familia real tuvieron persas azules. Aunque pueden tener muchos colores, los más corrientes son los azules, negros y blancos.
Las distintas razas tienen diversos orígenes, algunas las han creado los hombres o son el resultado de mutaciones, mientras que otras se encuentran en la naturaleza. Ciertas razas de gatos han surgido a partir de un único macho con características físicas poco comunes que se fueron heredando. Todos los Cornish Rex proceden de un único progenitor con una mutación genética poco corriente que es la responsable de su pelo rizado. Tanto los burmeses como los tonkineses tienen sus orígenes en el Wong mau, traído de Birmania en la década de los años treinta. Los criadores se esfuerzan cada día por eliminar las características negativas que muestran varias razas a medida que se desarrollan. Realmente, no existen los gatos de raza pura porque, todas las razas conocidas, proceden de gatos que, en sus orígenes, no son endogámicos. En este caso, es más preciso utilizar el término “con pedigrí”.
Los criadores de gatos compiten continuamente por encontrar el “ideal” de cada raza, es decir, compiten por encontrar aquellos gatos que se adecuan más y mejor al físico estándar de cada raza. Por este motivo, las características físicas de los ganadores de las exposiciones han cambiado de forma gradual en algunas razas. A pesar de todo, las razas de algunos gatos de exposición se han perpetuado para preservar la apariencia original de los gatos de una determinada región. Algunos ejemplos son el “Maine Coon” y el angora turco.
Lexical, syntactic and semantic analysis of wikipedia content
The first step for wikipedia translation is the analysis of wikipedia's content. This analysis will determine:
- Number of words and sentences
- Words distribution
- Frequency of the most popular sentences and expressions
- Semantic relations between words and between sentences
- Syntactic analysis of all sentences
- It would be interesting the user could click on every word in an article to link to the wiktionary definition, if there is not an inside wikipedia article. And indicate to the software to translate the word into another language ( using the right mouse clicking).
Information about the most popular sentences and expressions can be used to create a translation database of such expressions so translators don't need to repeat a translation.
- Yes, a database of idioms
- You mean like a w:translation memory system?
Resources:
- General
- Dictionaries
- Dutch to English Translation Tools (source available)
- English dictionary
- Portuguese dictionary
- English-Portuguese dictionary
- Ergane (free dictionary, several languages)
- WWWJDIC (English-Japanese/Japanese-English dictionary)
- Papillon project (free multilingual dictionary buillt by computational linguists)
- All Free Dictionaries Project - Dicts.info
- Unfortunately none of these projects seem to have been updated since around 2003.
- Interlingua Translator (Translator under LGPL)
- http://intertrans.sourceforge.net/
- Translate every text in an abstract unique digital Interlingua (Parser)
- Translate the Interlingua to the new text (Generator)
- Written in Java
- GPLTran (Translator under GPL)
- http://www.translator.cx
- Supposed to translate paragraphs or entire webpapges
- Paragraph translation is spotty and buggy
- Web translation doesn't seem to work at all.
- Actually this isn't machine translation, it is a literal word-for-word translation
- Download code at http://www.translator.cx/dist/
- Linguaphile (Translator under GPL)
- Traduki
- C/Lua-based project, uses the metalanguage approach with Esperanto for lexycal content (to some extent)
- Project restarted in 2003, current being developed
- http://traduki.sourceforge.net (version 0.2 released, and translates "The dog eats the apple" to Esperanto: "La hundo mangxas la pomon")
- I like the idea use traduki. One can use traduki keys to stablish relations between words in different languages. I.e. hundo is the key to en:dog, es:perro and so on. So, going to hundo, you can add another translation to other lnnguages, without add language: links in the es:perro article, for example.
Links
- general
- Visual Interactive Syntax Learning: http://visl.sdu.dk/visl/
- wikipedia articles
- Free translations on the web
- Neural nets
- Machine translation
- Translations memories
- wired magazine
- Portuguese
- Meta-language
- http://www.undl.org A United Nations project based on an artificial, machine-readable language (UNL). The idea is to semi-automatically create a UNL text from, say, English, then have it fully-automatically translated in up to 150 languages on-the-fly. The project is now an independent organization.
- The World Wide Translator (The Tragedy of the Anticommons of translations memories)
References:
Discussion
See the talk:Wikipedia Machine Translation Project page.
|