From 31f6e35fc101d09f800b0d27e58d5d08533917d4 Mon Sep 17 00:00:00 2001 From: carolisteia Date: Tue, 11 Mar 2025 17:31:02 +0100 Subject: [PATCH] adding portuguese word delimiters and increased the italians and catalans ones --- aquilign/preproc/delimiters.json | 461 +++++++++++++++++++------------ 1 file changed, 286 insertions(+), 175 deletions(-) diff --git a/aquilign/preproc/delimiters.json b/aquilign/preproc/delimiters.json index 1f4db39f..ca0e5abb 100644 --- a/aquilign/preproc/delimiters.json +++ b/aquilign/preproc/delimiters.json @@ -1,176 +1,287 @@ -{"la": {"punctuation": ["\\(", - "\\)", - "\\.", - ";", - ",", - "/", - "\\!", - ":", - "\\?", - "·", -"¶"], - "word_delimiters": [ - "[Qq]u[io]d", - "[Cc]um", - "[Ss]ed", - "[Nn]ec", - "[Aa]ut", - "[uU]t", - "[Qq]uare", - "[nN]am", - "[Ss]icut", - "[Ss]i", - "[Pp]er", - "[Ee]t" - ]},"es": {"punctuation": ["\\(", - "\\)", - "\\.", - ";", - ",", - "/", - "\\!", - ":", - "\\?", - "·", -"¶"], - "word_delimiters": [ - " los? que", - "nin para", - "a[ns]?si que", - "[Cc]a s[yi]", - "[Cc]a", - "ut", - "[pP]ares?[çc]e que", - "[Pp]ues que", - "[pP]or ?que", - "[pP]or", - "a que", - "si", - "[Dd]o", - "[Ee]", - "[fh]asta que", - "commo quier que", - "⁊", - "ass?[iy] que", - "ass?[iy] como", - "como", - "[Aa]n?ss?i", - "para que", - "para", - "n[ji]n", - "en que", - "aquel que", - "Et [Qq]uan[dt]o", - "[Qq]uan[dt]o", - "[lL]uego", - "[eE]nton[çc]es?", - "el que", - "pues", - "y", - "[Qq]ue" - ]}, - "fr": {"punctuation": [ - "\\.", - ",", - "\\?", -"¶"], - "word_delimiters": [ -"pou?r ce que", -"ceulz qui", -"si est a sçavoir que", - "[Tt]ant que", - "[Aa]nsi", - "[sS]i est car", - "[sS]i est que", - "[sS]i", - "[Ee]t", - "mais", - "qu[ie] si", - "[kc]ar", - "[Qq]u?ant", - "quar", - "[Qq]u'", - "[Qq]u[ei]", - "[Qq]uel", - "[Dd]on[ct]", - "[pP]uis", - "[&⁊]", - "pour", - "comment", - "[Mm]ais" - ]}, "it": - {"punctuation": ["\\(", - "\\)", - "\\.", - ";", - "/", - "\\!", - ":", - "\\?", - "·", -"¶"], - "word_delimiters": [ - "[mM]a si", - "[Ss]i", - "tanto che", - "che", - "e", - "donde", - "ch’?"]}, - "ca": - {"punctuation": ["\\(", - "\\)", - "\\.", - ";", - ",", - "/", - "\\!", - ":", - "\\?", - "·", -"¶"], - "word_delimiters": [ - - "[Ss]embla que", - "axí que", - "[Cc]a s[yi]", - "[Cc]a", - "ut", - "[Pp]ues que", - "[pP]or ?que", - "[pP]er", - "[Qq]ue", - "a que", - "si", - "[Dd]o", - "[Ee]", - "commo quier que", - "⁊", - "mas", - "ass?i como", - "como", - "[Aa]n?ss?i", - "para", - "aquel que", - "[Qq]uan[dt]o", - "el que", "pues "]}, - "en": - {"punctuation": ["\\(", - "\\)", - "\\.", - ";", - ",", - "/", - "\\!", - ":", - "\\?", - "·", -"¶"], - "word_delimiters": ["[aA]lso", - "to", -"whan", -"and þat", -"and", -"so þat", - "þat"]} +{ + "la": { + "punctuation": [ + "\\(", + "\\)", + "\\.", + ";", + ",", + "/", + "\\!", + ":", + "\\?", + "·", + "¶" + ], + "word_delimiters": [ + "[Qq]u[io]d", + "[Cc]um", + "[Ss]ed", + "[Nn]ec", + "[Aa]ut", + "[uU]t", + "[Qq]uare", + "[nN]am", + "[Ss]icut", + "[Ss]i", + "[Pp]er", + "[Ee]t" + ] + }, + "pt": { + "punctuation": [ + "\\(", + "\\)", + "\\.", + ";", + ",", + "/", + "-", + "\\!", + ":", + "\\?", + "·", + "¶" + ], + "word_delimiters": [ + "[pP]or[éeẽ]m", + "[mM]as|mais", + "[pP]or\\s?que", + "[cC]a(r)?", + "h?e", + "poe?is", + "\\b(hu|u|onde)\\b", + "logo( que)?", + "[aA]ta{1,2}", + "salvo", + "[aA]ss[yi]( que)?", + "de guisa que", + "[oO]?utros?sy", + "se nom|senão", + "[eE]stomçe|[eE]mtõçe", + "posto que", + "[aA]inda que", + "[tT]anto que", + "com quanto", + "bẽ assy como", + "que", + "também|tabẽ|tam bem", + "por", + "porquuoanto", + "pero", + "todavya", + "para( que)?", + "entom", + "desy", + "convem saber", + "a saber", + "ante que", + "ora" + ] + }, + "es": { + "punctuation": [ + "\\(", + "\\)", + "\\.", + ";", + ",", + "/", + "\\!", + ":", + "\\?", + "·", + "¶" + ], + "word_delimiters": [ + "los? que", + "nin para", + "a[ns]?si que", + "[Cc]a s[yi]", + "[Cc]a", + "ut", + "[pP]ares?[çc]e que", + "[Pp]ues que", + "[pP]or ?que", + "[pP]or", + "a que", + "si", + "[Dd]o", + "[Ee]", + "[fh]asta que", + "commo quier que", + "⁊", + "ass?[iy] que", + "ass?[iy] como", + "como", + "[Aa]n?ss?i", + "para que", + "para", + "n[ji]n", + "en que", + "aquel que", + "Et [Qq]uan[dt]o", + "[Qq]uan[dt]o", + "[lL]uego", + "[eE]nton[çc]es?", + "el que", + "pues", + "y", + "[Qq]ue" + ] + }, + "fr": { + "punctuation": [ + "\\.", + ",", + "\\?", + "¶" + ], + "word_delimiters": [ + "pou?r ce que", + "ceulz qui", + "si est a sçavoir que", + "[Tt]ant que", + "[Aa]nsi", + "[sS]i est car", + "[sS]i est que", + "[sS]i", + "[Ee]t", + "mais", + "qu[ie] si", + "[kc]ar", + "[Qq]u?ant", + "quar", + "[Qq]u'", + "[Qq]u[ei]", + "[Qq]uel", + "[Dd]on[ct]", + "[pP]uis", + "[&⁊]", + "pour", + "comment", + "[Mm]ais" + ] + }, + "it": { + "punctuation": [ + "\\(", + "\\)", + "\\.", + ";", + "/", + "\\!", + ":", + "\\?", + "·", + "¶" + ], + "word_delimiters": [ + "[mM]a si", + "[Ss]i", + "anco", + "che", + "e", + "donde", + "tuttavia", + "pur che", + "ancorché", + "accioché", + "subito che", + "imperò", + "percioché", + "per ciò", + "imperciò", + "per forma che", + "ancora che", + "sì come", + "innanzi", + "ove", + "ma", + "mentre", + "adunque", + "alquanto", + "tanto( que)?", + "overo", + "laonde", + "in ciò che", + "ch’?" + ] + }, + "ca": { + "punctuation": [ + "\\(", + "\\)", + "\\.", + ";", + ",", + "/", + "\\!", + ":", + "\\?", + "·", + "¶" + ], + "word_delimiters": [ + "[Ss]embla que", + "axí que", + "[Cc]a s[yi]", + "[Cc]a(r)?", + "ut", + "[Pp]ues que", + "[pP]or ?que", + "[pP]er", + "[Qq]ue", + "a que", + "si", + "[Dd]o", + "[Ee]", + "commo quier que", + "⁊", + "mas", + "ass?i como", + "como", + "[Aa]n?ss?i", + "para", + "aquel que", + "[Qq]uan[dt]o", + "el que", + "pues", + "enaxí", + "[aA]ytambe", + "per asó", + "per so que", + "cor", + "emperò", + "enaprés", + "aprés", + "pus que", + "adonchs" + ] + }, + "en": { + "punctuation": [ + "\\(", + "\\)", + "\\.", + ";", + ",", + "/", + "\\!", + ":", + "\\?", + "·", + "¶" + ], + "word_delimiters": [ + "[aA]lso", + "to", + "whan", + "and þat", + "and", + "so þat", + "þat" + ] + } } +