Tipo de servicio: SOAPLAB
ca: ejecuta el comando linux pdftotext (versión 3.00) que convierte textos de formato pdf a texto plano.
ca:executa la comanda linux pdftotext (versió 3.00) que converteix textos de format pdf a text pla.
en: runs the linux pdftotext command (version 3.00) which converts text from pdf to plain text.
Tipo de servicio: SOAPLAB
es:corversor de MS-word a texto plano. Este servicio implementa el comando linux catdoc que lee un documento MS-Word y retorna su contenido como texto plano por la salida estándar
ca:corversor de MS-word a text pla. Aquest servei implementa la comanda linux catdoc que llegeix un document MS-Word i retorna el seu contingut com a text pla per la sortida estàmdar
en: 'Word doc' to txt converter. Implements the linux catdoc command which reads MS-Word file and puts its content as plain text on standard output.
Tipo de servicio: SOAPLAB
es: Este servicio implementa el comando linux htmtotext (versión 1.3.2.a) el cual lee texto en html y genera texto plano (en ASCII o UFT-8).
ca: Aquest servei implementa la comanda linux htmtotext (versió 1.3.2.a) la qual llegeix text en html i genera text pla (en ASCII o UFT-8).
en: Implements the linux html2text (version 1.3.2.a) command which reads html from 'input-url' or STDIN and generates ASCII or UTF-8 text.
Tipo de servicio: SOAPLAB
ca:El xsltproc es una herramienta que aplica hojas de etilo XSLT a documentos XML. Forma parte de la libxslt, la llibrería XSLT de C para GNOME.
ca:El xsltproc és una eina que aplica fulls d'estil XSLT a documents XML. Forma part de la libxslt, la llibreria XSLT de C per a GNOME.
en:The xsltproc is a command line tool for applying XSLT tylesheets to XML documents. It is part of libxslt, the XSLT C library for GNOME.
Tipo de servicio: SOAPLAB
es: ejecuta el comando linux iconv que convierte una codificación de caràcter en otra(por ejemplo, de ISO-8859-1 a UTF-b)
ca: executa la comanda linux iconv que converteix un codificació de caràcter en una altra (per exemple, de ISO-8859-1 a UTF-b)
en: linux iconv command which converts text from one encoding to another encoding.
Tipo de servicio: Soap (Axis2)
ca: El IMS Open Corpus Workbench (CWB) es una colecciónde herramientas de codigo abierto para gestionar y consultar grandes corpus textuals (desde 10 millones hasta 2000 millones de palabras) con anotaciones lingüísticas. Su componente principal es el processador de consultas CQP
El servicio permite indexar un corpus y consultarlo
ca: El IMS Open Corpus Workbench (CWB) és una col·lecció d’eines de codi obert per a gestionar i consultar grans corpus textuals (des de 10 milions fins a 2000 milons de paraules) amb anotacions lingüístiques. El seu component principal és el processador de consultes CQP
El servei permet indexar un corpus i consultar-lo
en: The IMS Open Corpus Workbench (CWB) is a collection of open-source tools for managing and querying large text corpora (ranging from 10 million to 2 billion words) with linguistic annotations. Its central component is the flexible and efficient query processor CQP.
The service makes it possible to index a new corpus and query it
Tipo de servicio: SOAPLAB
es: Este servicio implementa el paquete estadístico 'Ngram Statistics Package' de Ted Pedersen. Se utiliza para calcular la coocurrencia entre palabras en corpus grandes utilitzando diferentes tests de asociación.
ca: Aquest servei implementa el paquest estadístic 'Ngram Statistics Package' de Ted Pedersen. S'utilitza per calcular la coocurrència entre paraules en corpus grans utilitzant diferents tests d'associacions.
en:This service implments the Ted Pedersen's Ngram Statistics Package (used to identify word Ngrams that appear in large corpora using standard tests of association such as Fisher's exact test, the log likelihood ratio, Pearson's chi-squared test, the Dice Coefficient, etc.).
Tipo de servicio: SOAPLAB
es: Dado un corpus, calcula cada N palabras el número de palabras (tokens, palabras diferenes (Types), palabras únicas (hapaxes) y la ratio /type/token. Muestra los resultados gráficamente utilitzando la herramienta R.
El corpus de entrada tiene que estar en format "one token per line" (se puede generar este formato utilitzando el servicio freeling_tokenizer)
ca: Donat un corpus calcula, a cada N paralues, el nombre de paraules (tokens), de paraules diferents (types), paraules úniques (hapaxes) i la ratio type/token. Mostra els resultats gràficament utilitzant l'eina R.
El corpus d'entrada ha d'estar en format "one token per line" (aquest format es pot generar utilitzant l'eina freeling_tokenizer)
en:calculates different lexicometric measures and displays them graphically (tokens, types, hapaxes & type/token ratio)
es: 'Función Count Ngram Statistics Package' de Ted Pedersen (se utiliza para calcular la coocurrencia entre palabras).
en: Count function from Ted Pedersen's Ngram Statistics Package (used to identify word Ngrams that appear in large corpora using standard tests of association such as Fisher's exact test, the log likelihood ratio, Pearson's chi-squared test, the Dice Coefficient, etc.).
Tipo de servicio: SOAPLAB
es: buscador de concordancias
ca: cercador de concordances
en: concordancer (key word in context)
es: Dado un lema y una categoría, devuelve las frases del corpus IULA donde este lema aparece. Se puede restringir la búsqueda por dominio.
cat: Donats un lema i una categoria, retorna les frases del corpus IULA on aquest lema apareix. Es pot restringir la cerca per domini.
en: Given a lemma and a category, returns the sentences of the IULA corpus where this lemma occurs. You can perform a domain search.
Tipo de servevicio: SOAPLAB
es: Preproceso de textos (el servicio de preproceso requiere que el texto de entrada esté en formato de texto plano (file .txt) y en UTF-8. Esencialmente, el preproceso se encarga de: (i) segmentar el texto en unidades estructurales menores (títulos, párrafos, oraciones, etc.); (ii) detectar entidades que no se encuentren en los diccionarios (números, abreviaturas, URLs, correos electrónicos, nombres propios, etc.); y (iii) mantener en un único bloque secuencias de dos o más palabras (fechas, locuciones, nombres propios, etc.).
cat: Preprocés de textos (el servei de preprocés requereix que el text d'entrada estigui en format text pla (file.txt) i UTF-8. Bàsicament, el preprocés s'encarrega de (i) segmentar el text en unitats estructurals menors (títols, paràgrafs, oracions, etc.); (ii) detectar entitats que no es troben als diccionaris (nombres, abreviatures, URLs, correus electrònics, noms propis, etc.); i (iii) mantenir en un únic bloc seqüències de dos o més mots (dates, locucions, noms propis, etc.).
en: Text preprocess. (this preprocess service requires that the input text be in plain text format (file .txt) and UTF-8. Basically, it carries out: (i) text segmentation into minor structural units (titles, paragraphs, sentences, etc.); (ii) detection of entities not found in dictionaries (numbers, abbreviations, URLs, emails, proper nouns, etc.); and (iii) the keeping of sequences of two or more words in a single block (dates, phrases, proper nouns, etc.).
Tipo de servevicio: SOAPLAB
es: segmentador de textos basado en Freeling.(develve el texto en formato "one word per line")
cat: segmentador de textos basat en Freeling.(identifica els 'tokens' d'un text i els retorna en format 'one token per line')
en: Freeling-based text tokenizer.
Tipo de servicio: SOAPLAB
es: Segmentador de textos. (requiere que el texto de entrada esté en formato texto plano (file.txt) y en UTF-8.)
cat: Segmentador de textos. (requereix que el text d'entrada estigui en format text pla (file.txt) i UTF-8.)
en: Text tokenizer.(the text tokenizer requires that the input text be in plain text format (file.txt) and UTF-8 encoded.)
Tipo de servicio: SOAPLAB
es: analizador morfológico basado en Freeling. Este servicio requiere que el texto de entrada esté en UTF-8
ca: analitzador morfològic basat en Freeling. Aquest servei requereix que el text d'entrada estigui en UTF-8
en: Freeling morphology analyzer based. This service requires UTF-8 input data
Tipo de servicio: SOAPLAB
es: consulta diccionario. (dada una forma, el servicio devuelve la información asociada al léxico).
cat: donada una forma, el servei iula_lexicon_lookup retorna la informació associada al lèxic.
en: lexicon lookup. (given a word form, the webservice returns the information in the lexicon).
Tipo de servicio: REST
es: Analizador morfológico para el catalán antiguo de la erramienta Apertium
ca: Analitzador morfològic per al catala antic de l'Apertium
en: The Apertium morphological analizer for Old Catalan
Tipo de servicio: SOAPLAB
es: etiquetador morfosintáctico basado en Freeling.Este servicio requiere que el texto de entrada esté en UTF-8.
ca: etiquetador morfosintàctic basat en Freeling.Aquest servei requereis que el text d'entrada estigui en UTF-8.
en: Freeling-based part-of-speech tagger.This service requires UTF8 input data
Tipo de servicio: SOAPLAB
es: etiquetador morfosintáctico basado en Freeling.Este servicio requeriere que el texto de entrada esté en UTF-8
ca: etiquetador morfosintàctic basat en Freeling. Aquest ervei requereix que el text d'estrada estigui en UTF-8
en: Freeling-based part-of-speech tagger.This service requires UTF-8 input data
Tipo de servicio: SOAPLAB
es: analizador sintàctico superficial basado en Freeling.Este servicio requiere que el texto de entrada esté en UTF-8
ca: analitzador sintàctic superficial basat en Freeling. Aquest ervei requereix que el text d'estrada estigui en UTF-8
en: Freeling-based shallow parsing.This service requires UTF-8 input data
Tipo de servicio: SOAPLAB
es: analizador sintàctico de dependencias basado en Freeling.Este servicio requiere que el texto de entrada esté en UTF-8
ca: analitzador sintàctic de dependències basat en Freeling. Aquest ervei requereix que el text d'estrada estigui en UTF-8
en: Freeling-based deep parsing.This service requires UTF-8 input data
Tipo de servicio: RESTful
es: Este servicio permite acceder a parte del corpus de prensa del IULA. El corpus contiene todas las noticias publicadas en EL País digital durante el año 2005. El acceso se realiza mediante el protocolo SRU.
ca: Aquest servei permet l’accés a part del corpus de premsa del IULA. El corpus conté les notñicies publicades a EL País digital durant l'any 2005. L’accés es realitza mitjançant el protocol SRU.
en: This service accesses to part of IULA's press corpus. The corpus includes pieces of news published by EL Pais ditigal during 2005. The service uses the SRU protocol and allows both metadata and content search.
es: Este servico permite acceder y consultar diferentes corpus anotados morfosintácticamente
cat: Este servico permite acceder y consultar diferentes corpus anotados morfosintácticamente
en: This service has access to different POS annotated corpora.
Este workflow toma un texto en formato PDF, realiza las conversiones de formato que corresponda y lo envia, primero, al etiquetador morfosintáctico de Freeling y, después, al indexador del CQP.
Uns vez tenemos el texto de entrada anotado e indexado, el servico de consultas del CQP puede actuar proesando la lista de consultas del parámetro de entrada.