{"id":6139,"date":"2026-04-27T12:29:20","date_gmt":"2026-04-27T10:29:20","guid":{"rendered":"https:\/\/espanolcontacto.unirioja.es\/?p=6139"},"modified":"2026-04-27T12:30:06","modified_gmt":"2026-04-27T10:30:06","slug":"seminario-de-informatica-mirian-andres-seleccion-prototipica-multivariante-y-segmentacion-discursiva-en-un-corpus-oral-el-corpus-oral-de-referencia-del-espanol-en-contacto-corec-ii","status":"publish","type":"post","link":"https:\/\/espanolcontacto.unirioja.es\/index.php\/2026\/04\/27\/seminario-de-informatica-mirian-andres-seleccion-prototipica-multivariante-y-segmentacion-discursiva-en-un-corpus-oral-el-corpus-oral-de-referencia-del-espanol-en-contacto-corec-ii\/","title":{"rendered":"Seminario de Inform\u00e1tica Mirian Andr\u00e9s \u2013Selecci\u00f3n protot\u00edpica multivariante y segmentaci\u00f3n discursiva en un corpus oral: el Corpus Oral de Referencia del Espa\u00f1ol en Contacto (COREC II)"},"content":{"rendered":"\n<p><strong>Ponente<\/strong>: Rebeca Patricia G\u00f3mez Ru\u00edz (Universidad de La Rioja).<\/p>\n\n\n\n<p><strong>Lugar<\/strong>: Seminario Mirian Andr\u00e9s (Edificio CCT, Universidad de La Rioja; Logro\u00f1o, La Rioja).<\/p>\n\n\n\n<p><strong>Hora<\/strong>: viernes 8 de mayo de 2026, 11:00.<\/p>\n\n\n\n<p><strong>Resumen<\/strong>: Este trabajo desarrolla una propuesta metodol\u00f3gica aplicable a tareas de procesamiento del lenguaje natural (PLN) sobre corpus orales. Por su naturaleza heterog\u00e9nea, estos corpus presentan retos espec\u00edficos que dificultan su procesamiento mediante herramientas de PLN entrenadas generalmente sobre datos escritos.<\/p>\n\n\n\n<p>En este contexto y a partir de la necesidad surgida en el COREC de crear un corpus de referencia para la anotaci\u00f3n ling\u00fc\u00edstica autom\u00e1tica, se plantean tres preguntas de investigaci\u00f3n: (i) \u00bfc\u00f3mo seleccionar una muestra representativa del corpus que optimice el proceso de etiquetado ling\u00fc\u00edstico?; (ii) \u00bfc\u00f3mo segmentar las transcripciones ortogr\u00e1ficas del habla en unidades discursivas que respeten la l\u00f3gica de la oralidad y, al mismo tiempo, sean anotables autom\u00e1ticamente?; y (iii) \u00bfpuede la decisi\u00f3n de segmentaci\u00f3n interpretarse algebraicamente de modo que se explicite su organizaci\u00f3n interna, se justifique su implementaci\u00f3n en cascada y ofrezca una lectura geom\u00e9trica de la frontera discursiva?<\/p>\n\n\n\n<p>Para responder a estas cuestiones, proponemos el siguiente flujo metodol\u00f3gico reproducible: a) una selecci\u00f3n muestral protot\u00edpica robusta, filtrada por estrato ling\u00fc\u00edstico y basada en una representaci\u00f3n vectorial multivariante, la distancia Manhattan (L1) y una penalizaci\u00f3n por ruido; b) una segmentaci\u00f3n discursiva que interpreta las pausas transcritas como fronteras candidatas evaluables contextualmente mediante variables booleanas ling\u00fc\u00edsticas, cuya combinaci\u00f3n determina, mediante una funci\u00f3n de decisi\u00f3n, la aceptaci\u00f3n o el rechazo de cada frontera; y c) una formalizaci\u00f3n algebraica del criterio de segmentaci\u00f3n que, a partir de las configuraciones v\u00e1lidas de activaci\u00f3n, caracteriza el subespacio que estas generan e identifica su n\u00facleo com\u00fan y sus ejes de variaci\u00f3n.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Ponente: Rebeca Patricia G\u00f3mez Ru\u00edz (Universidad de La Rioja). Lugar: Seminario Mirian Andr\u00e9s (Edificio CCT, Universidad de La Rioja; Logro\u00f1o, La Rioja). Hora: viernes 8 de mayo de 2026, 11:00. Resumen: Este trabajo desarrolla una propuesta metodol\u00f3gica aplicable a tareas de procesamiento del lenguaje natural (PLN) sobre corpus orales. Por<\/p>\n","protected":false},"author":3,"featured_media":6141,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[270,4,5,6,8],"tags":[],"_links":{"self":[{"href":"https:\/\/espanolcontacto.unirioja.es\/index.php\/wp-json\/wp\/v2\/posts\/6139"}],"collection":[{"href":"https:\/\/espanolcontacto.unirioja.es\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/espanolcontacto.unirioja.es\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/espanolcontacto.unirioja.es\/index.php\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/espanolcontacto.unirioja.es\/index.php\/wp-json\/wp\/v2\/comments?post=6139"}],"version-history":[{"count":2,"href":"https:\/\/espanolcontacto.unirioja.es\/index.php\/wp-json\/wp\/v2\/posts\/6139\/revisions"}],"predecessor-version":[{"id":6143,"href":"https:\/\/espanolcontacto.unirioja.es\/index.php\/wp-json\/wp\/v2\/posts\/6139\/revisions\/6143"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/espanolcontacto.unirioja.es\/index.php\/wp-json\/wp\/v2\/media\/6141"}],"wp:attachment":[{"href":"https:\/\/espanolcontacto.unirioja.es\/index.php\/wp-json\/wp\/v2\/media?parent=6139"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/espanolcontacto.unirioja.es\/index.php\/wp-json\/wp\/v2\/categories?post=6139"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/espanolcontacto.unirioja.es\/index.php\/wp-json\/wp\/v2\/tags?post=6139"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}