hu_Hung.sor 9.4 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291
  1. # Old Hungarian script (ISO 15924 code: Hung)
  2. # Transliterate numbers and words
  3. # parentheses
  4. "([\(\[\{])(.*) 0$" \1$2
  5. "(.*)([\]\)\}]) 0$" $1\2
  6. # convert words with traditional or foreign "i" written as "y"
  7. # e.g. Áprily, Champs-Élysées, Élysée-palota, Dolly, Folly, Hollywood, jolly, intercity, Kisfaludy ...
  8. "^(Áp​?ri​?l|Champs-Él|[cC]i​?t|Do​?lák-Sa​?l|[dfhjDFHJ]ol​?l|Él|Fesz​?t|[gG]rizz​?l|Ha​?rasz​?t|Hat​?va​?n|Husz​?t|[iI]n​?ter​?ci​?t|Jé​?ke​?l|Kis​?fa​?lu​?d|Ku​?ko​?r​?el​?l|Mo​?ho​?l|Mind​?szen​?t|Nosz​?t|[pP]en​n|Pes​?t|Re​?gu​?l|So​?n|Szi​?l|Szte​?va​?no​?vi​?t|Vö​?rös​?mar​?t|[zZ][lł]ot)y(.*) 0$" $1𐳐$2
  9. "^(ÁP​?RI​?L|CHAMPS-ÉL|CI​?T|DO​?LÁK-SA​?L|[DFHJ]OL​?L|ÉL|FESZ​?T|GRIZZ​?L|HA​?RASZ​?T|HAT​?VA​?N|HUSZ​?T|IN​?TER​?CI​?T|JÉ​?KE​?L|KIS​FA​LU​?D|KU​?KO​?R​?EL​?L|MIND​?SZEN​?T|MO​?HO​?L|NOSZ​?T|PEN​?N|PES​?T|RE​?GU​?L|SO​?N|SZI​?L|SZTE​?VA​?NO​?VI​?T|VÖ​?RÖS​?MAR​?T|Z[LŁ]OT)Y(.*) 0$" $1𐲐$2
  10. # punctuation with transliterated letters
  11. "^((𐲀|𐲁|𐲂|𐲄|𐲆|𐲇|𐲉|𐲊|𐲋|𐲌|𐲍|𐲎|𐲏|𐲐|𐲑|𐲒|𐲓|𐲖|𐲗|𐲘|𐲙|𐲚|𐲛|𐲜|𐲞|𐲟|𐲠|𐲢|𐲤|𐲥|𐲦|𐲨|𐲪|𐲫|𐲬|𐲭|𐲮|𐲯|𐲰|𐳀|𐳁|𐳂|𐳄|𐳆|𐳇|𐳉|𐳊|𐳋|𐳌|𐳍|𐳎|𐳏|𐳐|𐳑|𐳒|𐳓|𐳖|𐳗|𐳘|𐳙|𐳚|𐳛|𐳜|𐳞|𐳟|𐳠|𐳢|𐳤|𐳥|𐳦|𐳨|𐳪|𐳫|𐳬|𐳭|𐳮|𐳯|𐳰|𐳺|𐳻|𐳼|𐳽|𐳾|𐳿|[-0-9​–,„”.!\?\;‟⹂⹁⁏⸮])*[,„”\?\;]) 0$" $1
  12. # if the original word contains an unknown character, return without modification
  13. "^(.*[^-0-9qwertzuiopasdfghjklyxcvbnmQWERTZUIOPASDFGHJKLYXCVBNMáäéëíóöőúüűÁÄÉËÍÓÖŐÚÜŰ​–,„”\?\;].*) 0$" \1
  14. # words with y
  15. "^y(ard.*) 0$" 𐳒$1
  16. "^Y([aA][rR][dD].*|[uU]​?[cC][oO][nN].*) 0$" 𐲒$1
  17. "^Y([bB][lL].*) 0$" 𐲑$1
  18. "^Y(vet​?te.*) 0$" 𐲐$1
  19. "^([bB]o|[cC]ow​?bo|[dD]isp​?la|[gG]ra|[pP]la)y(.*) 0$" $1𐳒$2
  20. "^(BO|COW​?BO|DISP​?LA|GRA|PLA)Y(.*) 0$" $1𐲒$2
  21. # don't transliterate other words with starting y
  22. "(^[yY].*) 0$" \1
  23. # don't transliterate words with q, but not with qu
  24. "(^.*[qQ][^uU].*) 0$" \1
  25. "(^.*[qQ]) 0$" \1
  26. # other exceptions
  27. # Ágh -> Ág, Balogh -> Balog, Horváth -> Horvát, Mikszáth -> Mikszát, Németh -> Német, Tóth -> Tót, Virágh -> Virág, Végh -> Vég
  28. ^([Á][gG]|B[aA]​?[lL][oO][gG]|H[oO][rR]​?[vV][áÁ][tT]|M[iI][kK]​?[sS][zZ][áÁ][tT]|N[éÉ]​?[mM][eE][tT]|T[óÓ][tT]|V[iI]​?[rR][áÁ][gG]|V[éÉ][gG])[hH](.*) $(\1\2)
  29. # Antall -> Antal, Gáll -> Gál, Széll -> Szél
  30. "^(An​?tal|Gál|Szél)​?l 0$" $(\1)
  31. "^(AN​?TAL|GÁL|SZÉL)​?L 0$" $(\1)
  32. # Apáthy -> Apáti, Bláthy -> Bláti, Básthy -> Básti ...
  33. ^(A​?pá|Blá|Bás|Hon|Hor|Ka​?rin|Kom​?já|Szent​?ku|Szom​?ba)​?thy(.*) $(\1ti\2)
  34. ^(A​?PÁ|BLÁ|BÁS|HON|HOR|KA​?RIN|KOM​?JÁ|SZENT​?KU|SZOM​?BA)​?THY(.*) $(\1TI\2)
  35. # Apponyi -> Aponyi
  36. ^Ap​?([pP][oO]​?[nN][yY][iI].*) $(A\1)
  37. # Babits -> Babics, Derkovits -> Derkovics, Takáts -> Takács, Szűts -> Szűcs
  38. ^(Ba​?bi|Der​?ko​?vi|Sin​?ko​?vi|Ta​?ká|Sz[üű])ts(.*) $(\1cs\2)
  39. ^(BA​?BI|DER​?KO​?VI|SIN​?KO​?VI|TA​?KÁ|SZ[ÜŰ])TS(.*) $(\1CS\2)
  40. # Bakách -> Bakács, Damjanich -> Damjanics, Forgách -> Forgács, Jurisich -> Jurisics, Madách -> Madács
  41. ^(Ba​?ká|Dam​?ja​?ni|For​?gá|Gras​?sal​?ko​?vi|Ju​?ri​?si|Ma​?dá)ch(.*) $(\1cs\2)
  42. ^(BA​?KÁ|DAM​?JA​?NI|FOR​?GÁ|GRAS​?SAL​?KO​?VI|JU​?RI​?SI|MA​?DÁ)CH(.*) $(\1CS\2)
  43. # Bakócz -> Bakóc, Börötz -> Böröc, Göncz -> Gönc, Makovecz -> Makovec, Móricz -> Móric ...
  44. ^(B[aA]​?[kK][óÓ]|B[öÖ]​?[rR][öÖ][cC]|G[öÖ][nN]|M[aA]​?[kK][oO]​?[vV][eE]|M[óÓ]​?[rR][iI]|K[oO][nN]|O​?[rR][aA]​?[vV][eE]|R[áÁ]|R[áÁ]|T[iI]​?[bB][oO][rR])([cCtT])[zZ](.*) $(\1\2\3)
  45. # Bakoss -> Bakos, Baross -> Baros, Boross -> Boros, Hankiss -> Hankis, Kass -> Kas, Kiss -> Kis, Terebess -> Terebes, Vass -> Vas
  46. "^(Ba​?kos|Ba​?ros|Bo​?ros|Han​?kis|Kas|Kis|Lo​?vas|Te​?re​?bes|Vas)​?s 0$" $(\1)
  47. "^(BA​?KOS|BA​?ROS|BO​?ROS|HAN​?KIS|KAS|KIS|LO​?VAS|TE​?RE​?BES|VAS)​?S 0$" $(\1)
  48. # Bay -> Baji
  49. "^Bay 0$" $(Baji)
  50. # Batsányi -> Bacsányi
  51. ^Ba​?tsá​?nyi(.*) $(Bacsányi)
  52. ^BA​?TSÁ​?NYI(.*) $(BACSÁNYI)
  53. # Bárczi -> Bárci, Kazinczy -> Kazinci, Rákóczi -> Rákóci
  54. ^(Bár|Ka​?zin|Rá​?kó)​?cz[iy](.*) $(\1ci\2)
  55. ^(BÁR|KA​?ZIN|RÁ​?KÓ)​?CZ[IY](.*) $(\1CI\2)
  56. # Báthory -> Bátori
  57. ^(B[áÁ]​?[tT])[hH]([oO]​?[rR][yY].*) $(\1\2)
  58. # Batthyány -> Battyányi
  59. ^Bat​?thyá​?ny(.*) $(Battyányi\1)
  60. ^BAT​?THYÁ​?NY(.*) $(BATTYÁNYI\1)
  61. # Bessenyei -> Besenyei
  62. ^(B[eE][sS])​?[sS]([eE]​?[nN][yY][eE]​?[iI].*) $(\1\2)
  63. # Czuci -> Cuci, Czuczor -> Cucor
  64. ^Cz(u​?c)z(([iI]|[oO][rR]).*) $(C\1\2)
  65. # Csathó -> Csató
  66. ^(C[sS][aA]​?[tT])[hH]([óÓ].*) $(\1\2)
  67. # Dessewffy -> Dezsőfi
  68. ^De​?s​?sew​?ffy(.*) $(Dezsőfi\1)
  69. ^DE​?S​?SEW​?FFY(.*) $(DEZSŐFI\1)
  70. # Eördögh -> Ördög
  71. ^Eör​?dögh(.*) $(Ördög\1)
  72. ^EÖR​?DÖGH(.*) $(ÖRDÖG\1)
  73. # Eöry -> Őri, Eőry -> Őri
  74. ^E[öő]​?ry(.*) $(Őri\1)
  75. ^E[ÖŐ]​?RY(.*) $(ŐRI\1)
  76. # Eötvös -> Ötvös
  77. ^Eöt​?vös(.*) $(Ötvös\1)
  78. ^EÖT​?VÖS(.*) $(ÖTVÖS\1)
  79. # Gaál -> Gál
  80. ^Ga​?ál(.*) $(Gál\1)
  81. # Háy -> Háji, Fáy -> Fáji, Márki-Zay -> Márki-Zaji, Vay -> Vaji
  82. ^(Há|Fá|Már​?ki-​?Za|Va|Za)y(.*) $(\1ji\2)
  83. ^(HÁ|FÁ|MÁR​?KI-​?ZA|VA|ZA)Y(.*) $(\1JI\2)
  84. # Joó -> Jó
  85. ^J[oO]​?([óÓ].*) $(J\1)
  86. # Kéthly -> Kétli
  87. ^Kéth​?ly(.*) $(Kétli\1)
  88. ^KÉTH​?LY(.*) $(KÉTLI\1)
  89. # Konkoly-Thege -> Konkoli-Tege
  90. ^Kon​?ko​?ly-​?The​?g([eé].*) $(Konkoli-Teg\1)
  91. ^KON​?KO​?LY-​?THE​?G([EÉ].*) $(KONKOLI-TEG\1)
  92. # Koós -> Kós, Soós -> Sós
  93. ^([KS])[oO]([óÓ][sS])(.*) $(\1\2\3)
  94. # Kossuth -> Kosut, Passuth -> Pasut
  95. ^(K[oO]|P[aA])[sS]​?([sS][uU][tT])[hH](.*) $(\1\2\3)
  96. # Pais -> Pajzs
  97. ^Pai​?s(.*) $(Pajzs\1)
  98. ^PAI​?S(.*) $(PAJZS\1)
  99. # Széchenyi -> Szécsényi
  100. ^Szé​?che​?nyi(.*) $(Szécsényi\1)
  101. ^SZÉ​?CHE​?NYI(.*) $(SZÉCSÉNYI\1)
  102. # Széchy -> Szécsi, Zichy -> Zicsi
  103. ^(Szé|Zi)​?chy(.*) $(\1csi\2)
  104. ^(SZÉ|ZI)​?CHY(.*) $(\1CSI\2)
  105. # Tarr -> Tar
  106. "^(T[aA][rR])[rR] 0$" $(\1)
  107. # Thewrewk -> Török
  108. ^Thew​?rewk(.*) $(Török\1)
  109. ^THEW​?REWK(.*) $(TÖRÖK\1)
  110. # Thököly -> Tököli
  111. ^Thö​?kö​?ly(.*) $(Tököli\1)
  112. ^THÖ​?KÖ​?LY(.*) $(TÖKÖLI\1)
  113. # Veér -> Vér
  114. ^V[eE]​?([éÉ][rR].*) $(V\1)
  115. # Verseghy -> Versegi
  116. ^Ver​?se​?ghy(.*) $(Versegi\1)
  117. # Wass -> Vas
  118. "^Was​?(sal|sá) 0$" $(Vas\1)
  119. "^WAS​?(SAL|SÁ) 0$" $(VAS\1)
  120. ^Was​?s(.*) $(Vas\1)
  121. ^WAS​?S(.*) $(VAS\1)
  122. # Wesselényi -> Veselényi
  123. ^Wes​?se​?lé​?nyi(.*) $(Veselényi\1)
  124. ^WES​?SE​?LÉ​?NYI(.*) $(VESELÉNYI\1)
  125. # Weöres -> Vörös
  126. ^Weö​?res(.*) $(Vörös\1)
  127. ^WEÖ​?RES(.*) $(VÖRÖS\1)
  128. # Zigány -> Cigány
  129. ^Zi​?gán(y|ny)(.*) $(Cigán\1\2)
  130. ^ZI​?GÁN(Y|NY)(.*) $(CIGÁN\1\2)
  131. # avoid of exceeding recursion depth
  132. # convert by 200-character parts
  133. (.{200})(.+) $1$2
  134. # numbers
  135. # remove space separated zero (in LibreOffice integration)
  136. "(\d+) 0" $1
  137. "0: (.*) (.*)"
  138. "1: (.*) (.*)" \1
  139. "2: (.*) (.*)" \1\1
  140. "3: (.*) (.*)" \1\1\1
  141. "4: (.*) (.*)" \1\1\1\1
  142. "5: (.*) (.*)" \2
  143. "6: (.*) (.*)" \2\1
  144. "7: (.*) (.*)" \2\1\1
  145. "8: (.*) (.*)" \2\1\1\1
  146. "9: (.*) (.*)" \2\1\1\1\1
  147. (\d) $(\1: 𐳺 𐳻)
  148. (\d)(\d) $(\1: 𐳼 𐳽)$2
  149. 1(\d\d) 𐳾$1
  150. (\d)(\d\d) $1𐳾$2
  151. 1(\d\d\d)$ 𐳿$1
  152. (\d{1,3})(\d\d\d) $1𐳿$2
  153. 1(\d{6})$ 𐳿𐳿$1
  154. (\d{1,3})(\d{6}) $1𐳿𐳿$2
  155. 1(\d{9})$ 𐳿𐳿𐳿$1
  156. (\d{1,3})(\d{9}) $1𐳿𐳿𐳿$2
  157. # numbers with letters, for example dates with affixes
  158. "(\d+)([^ ]+)" $1$2
  159. # letters
  160. "^(.*) 0$" $1
  161. a(.*) 𐳀$1
  162. A(.*) 𐲀$1
  163. á(.*) 𐳁$1
  164. Á(.*) 𐲁$1
  165. b(.*) 𐳂$1
  166. B(.*) 𐲂$1
  167. ccs(.*) 𐳆𐳆$1
  168. CCS(.*) 𐲆𐲆$1
  169. cs(.*) 𐳆$1
  170. C[sS](.*) 𐲆$1
  171. c(.*) 𐳄$1
  172. C(.*) 𐲄$1
  173. d(.*) 𐳇$1
  174. D(.*) 𐲇$1
  175. e(.*) 𐳉$1
  176. E(.*) 𐲉$1
  177. é(.*) 𐳋$1
  178. É(.*) 𐲋$1
  179. ä(.*) 𐳋$1
  180. Ä(.*) 𐲋$1
  181. ë(.*) 𐳊$1
  182. Ë(.*) 𐲊$1
  183. f(.*) 𐳌$1
  184. F(.*) 𐲌$1
  185. ggy(.*) 𐳎𐳎$1
  186. GGY(.*) 𐲎𐲎$1
  187. gy(.*) 𐳎$1
  188. G[yY](.*) 𐲎$1
  189. g(.*) 𐳍$1
  190. G(.*) 𐲍$1
  191. h(.*) 𐳏$1
  192. H(.*) 𐲏$1
  193. i(.*) 𐳐$1
  194. I(.*) 𐲐$1
  195. í(.*) 𐳑$1
  196. Í(.*) 𐲑$1
  197. j(.*) 𐳒$1
  198. J(.*) 𐲒$1
  199. k(.*) 𐳓$1
  200. K(.*) 𐲓$1
  201. lly(.*) 𐳗𐳗$1
  202. LLY(.*) 𐲗𐲗$1
  203. ly(.*) 𐳗$1
  204. L[yY](.*) 𐲗$1
  205. l(.*) 𐳖$1
  206. L(.*) 𐲖$1
  207. m(.*) 𐳘$1
  208. M(.*) 𐲘$1
  209. nny(.*) 𐳚𐳚$1
  210. NNY(.*) 𐲚𐲚$1
  211. ny(.*) 𐳚$1
  212. N[yY](.*) 𐲚$1
  213. n(.*) 𐳙$1
  214. N(.*) 𐲙$1
  215. o(.*) 𐳛$1
  216. O(.*) 𐲛$1
  217. ó(.*) 𐳜$1
  218. Ó(.*) 𐲜$1
  219. ö(.*) 𐳞$1
  220. Ö(.*) 𐲞$1
  221. ő(.*) 𐳟$1
  222. Ő(.*) 𐲟$1
  223. p(.*) 𐳠$1
  224. P(.*) 𐲠$1
  225. qu(.*) 𐳓𐳮$1 # qu->kv
  226. Qu(.*) 𐲓𐳮$1 # Qu->Kv
  227. QU(.*) 𐲓𐲮$1 # QU->KV
  228. r(.*) 𐳢$1
  229. R(.*) 𐲢$1
  230. ssz(.*) 𐳥𐳥$1
  231. SSZ(.*) 𐲥𐲥$1
  232. sz(.*) 𐳥$1
  233. S[zZ](.*) 𐲥$1
  234. sch(.*) 𐳤$1
  235. Sch(.*) 𐲤$1
  236. s(.*) 𐳤$1
  237. S(.*) 𐲤$1
  238. tty(.*) 𐳨𐳨$1
  239. TTY(.*) 𐲨𐲨$1
  240. ty(.*) 𐳨$1
  241. T[yY](.*) 𐲨$1
  242. t(.*) 𐳦$1
  243. T(.*) 𐲦$1
  244. u(.*) 𐳪$1
  245. U(.*) 𐲪$1
  246. ú(.*) 𐳫$1
  247. Ú(.*) 𐲫$1
  248. ü(.*) 𐳭$1
  249. Ü(.*) 𐲭$1
  250. ű(.*) 𐳬$1
  251. Ű(.*) 𐲬$1
  252. [vw](.*) 𐳮$1
  253. [VW](.*) 𐲮$1
  254. x(.*) 𐳓𐳥$1 # x->ksz
  255. ^X 𐲓𐳥$1 # X->KSz
  256. X 𐲓𐲥$1 # X->KSZ
  257. X([A-ZÁÉËÍÓÖŐÚÜŰ].*) 𐲓𐲥$1 # X->KSZ
  258. X(.*) 𐲓𐳥$1 # X->Ksz
  259. y(.*) 𐳐$1 # .+y->i
  260. Y(.*) 𐲐$1 # .+Y->I
  261. zzs(.*) 𐳰𐳰$1
  262. ZZS(.*) 𐲰𐲰$1
  263. zs(.*) 𐳰$1
  264. Z[sS](.*) 𐲰$1
  265. z(.*) 𐳯$1
  266. Z(.*) 𐲯$1
  267. # remove ZWSP (used for consonant disambiguation)
  268. ​(.*) $1
  269. # punctuation
  270. ”(.*) ‟$1
  271. \;(.*) ⁏$1
  272. \?(.*) ⸮$1
  273. ,(.*) ⹁$1
  274. „(.*) ⹂$1
  275. # don't modify unknown characters
  276. (.)(.*) \1$2
  277. (.*) \1