Clarin-Cat-Lab | Catàleg

Herramientas

Herramientas de conversión de formato
- Pdf2txt
- Doc2txt
- Html2txt
- XSLTtransformer
- Iconv
Herramientas de gestión de corpus
- Corpus Work Bench CWB (CQP)
Herramientas estadísticas
Text Mining
- Buscador de concordancias (kwic)
- get_concordances
Herramientas de pre-procesamiento
Herramientas de anotación

Recursos

Herramientas de acceso a datos
- Acceso a Prensa
- Acceso a Corpus Anotados

Documentación

Workflows de ejemplo
Clarin-eu deliverables
The Harvesting Day
Powered by Clarin !!!

Herramientas

Herramientas de conversión de formato
- Pdf2txt
  
  Tipo de servicio: SOAPLAB
  
  ca: ejecuta el comando linux pdftotext (versión 3.00) que convierte textos de formato pdf a texto plano.
  
  ca:executa la comanda linux pdftotext (versió 3.00) que converteix textos de format pdf a text pla.
  
  en: runs the linux pdftotext command (version 3.00) which converts text from pdf to plain text.
  
  WSDL: http://ws04.iula.upf.edu/soaplab2-axis/typed/services/format_conversion.pdftotext?wsdl Acceder
- Doc2txt
  
  Tipo de servicio: SOAPLAB
  
  es:corversor de MS-word a texto plano. Este servicio implementa el comando linux catdoc que lee un documento MS-Word y retorna su contenido como texto plano por la salida estándar
  
  ca:corversor de MS-word a text pla. Aquest servei implementa la comanda linux catdoc que llegeix un document MS-Word i retorna el seu contingut com a text pla per la sortida estàmdar
  
  en: 'Word doc' to txt converter. Implements the linux catdoc command which reads MS-Word file and puts its content as plain text on standard output.
  
  WSDL: http://ws04.iula.upf.edu/soaplab2-axis/typed/services/format_conversion.catdoc?wsdl Acceder
- Html2txt
  
  Tipo de servicio: SOAPLAB
  
  es: Este servicio implementa el comando linux htmtotext (versión 1.3.2.a) el cual lee texto en html y genera texto plano (en ASCII o UFT-8).
  
  ca: Aquest servei implementa la comanda linux htmtotext (versió 1.3.2.a) la qual llegeix text en html i genera text pla (en ASCII o UFT-8).
  
  en: Implements the linux html2text (version 1.3.2.a) command which reads html from 'input-url' or STDIN and generates ASCII or UTF-8 text.
  
  WSDL: http://ws04.iula.upf.edu/soaplab2-axis/typed/services/format_conversion.html2text?wsdl Acceder
- XSLTtransformer
  
  Tipo de servicio: SOAPLAB
  
  ca:El xsltproc es una herramienta que aplica hojas de etilo XSLT a documentos XML. Forma parte de la libxslt, la llibrería XSLT de C para GNOME.
  
  ca:El xsltproc és una eina que aplica fulls d'estil XSLT a documents XML. Forma part de la libxslt, la llibreria XSLT de C per a GNOME.
  
  en:The xsltproc is a command line tool for applying XSLT tylesheets to XML documents. It is part of libxslt, the XSLT C library for GNOME.
  
  WSDL: http://ws04.iula.upf.edu/soaplab2-axis/typed/services/format_conversion.xsltproc?wsdl Acceder
- Iconv
  
  Tipo de servicio: SOAPLAB
  
  es: ejecuta el comando linux iconv que convierte una codificación de caràcter en otra(por ejemplo, de ISO-8859-1 a UTF-b)
  
  ca: executa la comanda linux iconv que converteix un codificació de caràcter en una altra (per exemple, de ISO-8859-1 a UTF-b)
  
  en: linux iconv command which converts text from one encoding to another encoding.
  
  WSDL: http://ws04.iula.upf.edu/soaplab2-axis/typed/services/format_conversion.iconv?wsdl Acceder
Herramientas de gestión de corpus
- Corpus Work Bench CWB (CQP)
  
  Tipo de servicio: Soap (Axis2)
  
  ca: El IMS Open Corpus Workbench (CWB) es una colecciónde herramientas de codigo abierto para gestionar y consultar grandes corpus textuals (desde 10 millones hasta 2000 millones de palabras) con anotaciones lingüísticas. Su componente principal es el processador de consultas CQP
  
  El servicio permite indexar un corpus y consultarlo
  
  ca: El IMS Open Corpus Workbench (CWB) és una col·lecció d’eines de codi obert per a gestionar i consultar grans corpus textuals (des de 10 milions fins a 2000 milons de paraules) amb anotacions lingüístiques. El seu component principal és el processador de consultes CQP
  
  El servei permet indexar un corpus i consultar-lo
  
  en: The IMS Open Corpus Workbench (CWB) is a collection of open-source tools for managing and querying large text corpora (ranging from 10 million to 2 billion words) with linguistic annotations. Its central component is the flexible and efficient query processor CQP.
  
  The service makes it possible to index a new corpus and query it
  
  WSDL: http://gilmere.upf.edu:8080/iulaws/services/cqp?wsdl Acceder
Herramientas estadísticas
- Paquete estadístic Ngrams (Ngrams Statistics Pkg.)
  
  Tipo de servicio: SOAPLAB
  
  es: Este servicio implementa el paquete estadístico 'Ngram Statistics Package' de Ted Pedersen. Se utiliza para calcular la coocurrencia entre palabras en corpus grandes utilitzando diferentes tests de asociación.
  
  ca: Aquest servei implementa el paquest estadístic 'Ngram Statistics Package' de Ted Pedersen. S'utilitza per calcular la coocurrència entre paraules en corpus grans utilitzant diferents tests d'associacions.
  
  en:This service implments the Ted Pedersen's Ngram Statistics Package (used to identify word Ngrams that appear in large corpora using standard tests of association such as Fisher's exact test, the log likelihood ratio, Pearson's chi-squared test, the Dice Coefficient, etc.).
  
  WSDL: http://ws04.iula.upf.edu/queries/soaplab2-axis/typed/services/statistics_analysis.ngrams?wsdl Acceder
- Análisis del Vocabulario (Vocabulary Analysis)
  
  Tipo de servicio: SOAPLAB
  
  es: Dado un corpus, calcula cada N palabras el número de palabras (tokens, palabras diferenes (Types), palabras únicas (hapaxes) y la ratio /type/token. Muestra los resultados gráficamente utilitzando la herramienta R.
  
  El corpus de entrada tiene que estar en format "one token per line" (se puede generar este formato utilitzando el servicio freeling_tokenizer)
  
  ca: Donat un corpus calcula, a cada N paralues, el nombre de paraules (tokens), de paraules diferents (types), paraules úniques (hapaxes) i la ratio type/token. Mostra els resultats gràficament utilitzant l'eina R.
  
  El corpus d'entrada ha d'estar en format "one token per line" (aquest format es pot generar utilitzant l'eina freeling_tokenizer)
  
  en:calculates different lexicometric measures and displays them graphically (tokens, types, hapaxes & type/token ratio)
  
  WSDL: http://ws04.iula.upf.edu/queries/soaplab2-axis/typed/services/statistics_analysis.vocabulary_analysis?wsdl Acceder
- countngrams
  
  es: 'Función Count Ngram Statistics Package' de Ted Pedersen (se utiliza para calcular la coocurrencia entre palabras).
  
  en: Count function from Ted Pedersen's Ngram Statistics Package (used to identify word Ngrams that appear in large corpora using standard tests of association such as Fisher's exact test, the log likelihood ratio, Pearson's chi-squared test, the Dice Coefficient, etc.).
  
  WSDL: http://ws04.iula.upf.edu/soaplab2-axis/typed/services/statistics_analysis.countngrams?wsdl Acceder
Text Mining
- Buscador de concordancias (kwic)
  
  Tipo de servicio: SOAPLAB
  
  es: buscador de concordancias
  
  ca: cercador de concordances
  
  en: concordancer (key word in context)
  
  WSDL: http://ws04.iula.upf.edu/soaplab2-axis/typed/services/text_mining.kwic?wsdl Acceder
- get_concordances
  
  es: Dado un lema y una categoría, devuelve las frases del corpus IULA donde este lema aparece. Se puede restringir la búsqueda por dominio.
  
  cat: Donats un lema i una categoria, retorna les frases del corpus IULA on aquest lema apareix. Es pot restringir la cerca per domini.
  
  en: Given a lemma and a category, returns the sentences of the IULA corpus where this lemma occurs. You can perform a domain search.
  
  WSDL: http://kurwenal.upf.edu:8080/soaplab2-axis/typed/services/text_mining.get_concordances?wsdl Acceder
Herramientas de pre-procesamiento
- Herramientas de segmentación (pre-process)
  - Herramienta de pre-proceso del IULA (IULA preprocess tool)
    
    Tipo de servevicio: SOAPLAB
    
    es: Preproceso de textos (el servicio de preproceso requiere que el texto de entrada esté en formato de texto plano (file .txt) y en UTF-8. Esencialmente, el preproceso se encarga de: (i) segmentar el texto en unidades estructurales menores (títulos, párrafos, oraciones, etc.); (ii) detectar entidades que no se encuentren en los diccionarios (números, abreviaturas, URLs, correos electrónicos, nombres propios, etc.); y (iii) mantener en un único bloque secuencias de dos o más palabras (fechas, locuciones, nombres propios, etc.).
    
    cat: Preprocés de textos (el servei de preprocés requereix que el text d'entrada estigui en format text pla (file.txt) i UTF-8. Bàsicament, el preprocés s'encarrega de (i) segmentar el text en unitats estructurals menors (títols, paràgrafs, oracions, etc.); (ii) detectar entitats que no es troben als diccionaris (nombres, abreviatures, URLs, correus electrònics, noms propis, etc.); i (iii) mantenir en un únic bloc seqüències de dos o més mots (dates, locucions, noms propis, etc.).
    
    en: Text preprocess. (this preprocess service requires that the input text be in plain text format (file .txt) and UTF-8. Basically, it carries out: (i) text segmentation into minor structural units (titles, paragraphs, sentences, etc.); (ii) detection of entities not found in dictionaries (numbers, abbreviations, URLs, emails, proper nouns, etc.); and (iii) the keeping of sequences of two or more words in a single block (dates, phrases, proper nouns, etc.).
    
    WSDL: http://kurwenal.upf.edu:8080/soaplab2-axis/typed/services/chunking_segmentation.iula_preprocess?wsdl Acceder
- Tokenizers
  - Freeling tokenizer
    
    Tipo de servevicio: SOAPLAB
    
    es: segmentador de textos basado en Freeling.(develve el texto en formato "one word per line")
    
    cat: segmentador de textos basat en Freeling.(identifica els 'tokens' d'un text i els retorna en format 'one token per line')
    
    en: Freeling-based text tokenizer.
    
    WSDL: http://ws04.iula.upf.edu/soaplab2-axis/typed/services/tokenization.freeling_tokenizer?wsdl Acceder
  - IULA tokenizer
    
    Tipo de servicio: SOAPLAB
    
    es: Segmentador de textos. (requiere que el texto de entrada esté en formato texto plano (file.txt) y en UTF-8.)
    
    cat: Segmentador de textos. (requereix que el text d'entrada estigui en format text pla (file.txt) i UTF-8.)
    
    en: Text tokenizer.(the text tokenizer requires that the input text be in plain text format (file.txt) and UTF-8 encoded.)
    
    WSDL: Acceder
- Lemmatizers (lematizadores)
  - Analizador morfológico Freeling (Freeling morphological analysis)
    
    Tipo de servicio: SOAPLAB
    
    es: analizador morfológico basado en Freeling. Este servicio requiere que el texto de entrada esté en UTF-8
    
    ca: analitzador morfològic basat en Freeling. Aquest servei requereix que el text d'entrada estigui en UTF-8
    
    en: Freeling morphology analyzer based. This service requires UTF-8 input data
    
    WSDL: http://ws04.iula.upf.edu/soaplab2-axis/typed/services/morphosintactic_tagging.freeling_morpho?wsdl Acceder
  - Analizador morfológico del IULA (IULA morphological analyser)
    
    Tipo de servicio: SOAPLAB
    
    es: consulta diccionario. (dada una forma, el servicio devuelve la información asociada al léxico).
    
    cat: donada una forma, el servei iula_lexicon_lookup retorna la informació associada al lèxic.
    
    en: lexicon lookup. (given a word form, the webservice returns the information in the lexicon).
    
    WSDL: http://kurwenal.upf.edu:8080/soaplab2-axis/typed/services/stemming_lemmatization.iula_lexicon_lookup?wsdl Acceder
  - Analitzador Apertium del catalán antiguo (Apertium morphological analyser for old Catalan)
    
    Tipo de servicio: REST
    
    es: Analizador morfológico para el catalán antiguo de la erramienta Apertium
    
    ca: Analitzador morfològic per al catala antic de l'Apertium
    
    en: The Apertium morphological analizer for Old Catalan
    
    WSDL: Acceder
Herramientas de anotación
- POS-taggers (anotación morfosintáctica)
  - Anotador morfosintáctico del Freeling (Freeling pos-tagger)
    
    Tipo de servicio: SOAPLAB
    
    es: etiquetador morfosintáctico basado en Freeling.Este servicio requiere que el texto de entrada esté en UTF-8.
    
    ca: etiquetador morfosintàctic basat en Freeling.Aquest servei requereis que el text d'entrada estigui en UTF-8.
    
    en: Freeling-based part-of-speech tagger.This service requires UTF8 input data
    
    WSDL: http://ws04.iula.upf.edu/soaplab2-axis/typed/services/morphosintactic_tagging.freeling_tagging?wsdl Acceder
  - Anotador morfosintáctico del IULA TreeTagger (IULA pos-tagger based on TreeTagger)
    
    Tipo de servicio: SOAPLAB
    
    es: etiquetador morfosintáctico basado en Freeling.Este servicio requeriere que el texto de entrada esté en UTF-8
    
    ca: etiquetador morfosintàctic basat en Freeling. Aquest ervei requereix que el text d'estrada estigui en UTF-8
    
    en: Freeling-based part-of-speech tagger.This service requires UTF-8 input data
    
    WSDL: http://kurwenal.upf.edu:8080/soaplab2-axis/typed/services/morphosintactic_tagging.iula_tagger?wsdl Acceder
- Shallow Parsing (analisis sintáctico superficial)
  - Analizador sintáctico Freeling (Freeling parser)
    
    Tipo de servicio: SOAPLAB
    
    es: analizador sintàctico superficial basado en Freeling.Este servicio requiere que el texto de entrada esté en UTF-8
    
    ca: analitzador sintàctic superficial basat en Freeling. Aquest ervei requereix que el text d'estrada estigui en UTF-8
    
    en: Freeling-based shallow parsing.This service requires UTF-8 input data
    
    WSDL: http://ws04.iula.upf.edu/soaplab2-axis/typed/services/syntactic_tagging.freeling_parsed?wsdl Acceder
- Dependency Parsing (analisis sintáctico de dependencias)
  - Analizador de dependencias Freeling (Freeing dependency parser)
    
    Tipo de servicio: SOAPLAB
    
    es: analizador sintàctico de dependencias basado en Freeling.Este servicio requiere que el texto de entrada esté en UTF-8
    
    ca: analitzador sintàctic de dependències basat en Freeling. Aquest ervei requereix que el text d'estrada estigui en UTF-8
    
    en: Freeling-based deep parsing.This service requires UTF-8 input data
    
    WSDL: http://ws04.iula.upf.edu/soaplab2-axis/typed/services/syntactic_tagging.freeling_dependency?wsdl Acceder

Recursos

Herramientas de acceso a datos
- Acceso a Prensa
  
  Tipo de servicio: RESTful
  
  es: Este servicio permite acceder a parte del corpus de prensa del IULA. El corpus contiene todas las noticias publicadas en EL País digital durante el año 2005. El acceso se realiza mediante el protocolo SRU.
  
  ca: Aquest servei permet l’accés a part del corpus de premsa del IULA. El corpus conté les notñicies publicades a EL País digital durant l'any 2005. L’accés es realitza mitjançant el protocol SRU.
  
  en: This service accesses to part of IULA's press corpus. The corpus includes pieces of news published by EL Pais ditigal during 2005. The service uses the SRU protocol and allows both metadata and content search.
  
  WSDL: Acceder
- Acceso a Corpus Anotados
  
  es: Este servico permite acceder y consultar diferentes corpus anotados morfosintácticamente
  
  cat: Este servico permite acceder y consultar diferentes corpus anotados morfosintácticamente
  
  en: This service has access to different POS annotated corpora.
  
  WSDL: Acceder

Documentación

Workflows de ejemplo
- Análisis del vocabulario (Taverna)
  El servicio estadístico vocabulary_analisys divide el texto de entrada en particiones y calcula el número de palabras (tokens), palabras diferentes (types) y palabras únicas (hapaxes) a medida que avanza en las particiones del texto.
  WSDL: Acceder
- Co-ocurrencia de términos (Taverna)
  Este workflow permite identifiar las co-ocurrencias de palabras más significativas de un texto. En este caso se utilitzan dos servicios, el primero convierte el fichero PDF de entrada en formato texto plano, el segundo ejecuta el paquete estadístico Ngrams de Ted Pedersen.
  WSDL: Acceder
- Análisis de un texto usando CQP (Taverna)
  
  Este workflow toma un texto en formato PDF, realiza las conversiones de formato que corresponda y lo envia, primero, al etiquetador morfosintáctico de Freeling y, después, al indexador del CQP.
  
  Uns vez tenemos el texto de entrada anotado e indexado, el servico de consultas del CQP puede actuar proesando la lista de consultas del parámetro de entrada.
  
  WSDL: Acceder
Clarin-eu deliverables
The Harvesting Day
- All you need to know about The Harvesting Day
  Breve descripción del TheHarvestingDay.org
  WSDL: Acceder
- The BAMDES in 2 pages.pdf (June 2010)
  Descripción de los metadatos utilitzados en la iniciativa The Harvesting Day
  WSDL: Acceder
- BAMDES-ISOcat-ENABLER-LRECMAPcorrespondences
  Tabla de correspondencias entre metadatos de BAMDES, ISO.cat Enables y el LREC map
  WSDL: Acceder
- BAMDES XSD Schema
  Xsd esquema para los metadatos de lainiciativa The Harvesting Day.
  WSDL: Acceder
Powered by Clarin !!!
- Elecciones 2011
  
  WSDL: Acceder
- ¿De quién hablan las noticias?
  
  WSDL: Acceder
- Análisis de opinión
  
  WSDL: Acceder

Herramientas

Herramientas de conversión de formato

Herramientas de gestión de corpus

Herramientas estadísticas

Text Mining

Herramientas de pre-procesamiento

Herramientas de segmentación (pre-process)

Tokenizers

Lemmatizers (lematizadores)

Herramientas de anotación

POS-taggers (anotación morfosintáctica)

Shallow Parsing (analisis sintáctico superficial)

Dependency Parsing (analisis sintáctico de dependencias)

Recursos

Herramientas de acceso a datos

Documentación

Workflows de ejemplo

Clarin-eu deliverables

The Harvesting Day

Powered by Clarin !!!