summaryrefslogtreecommitdiff
path: root/src/GF/Text/Hiragana.hs
blob: ba74fc83cdfb95772778997f116843a3d7e3653f (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
----------------------------------------------------------------------
-- |
-- Module      : Hiragana
-- Maintainer  : (Maintainer)
-- Stability   : (stable)
-- Portability : (portable)
--
-- > CVS $Date: 2005/04/21 16:23:38 $ 
-- > CVS $Author: bringert $
-- > CVS $Revision: 1.5 $
--
-- (Description of the module)
-----------------------------------------------------------------------------

module GF.Text.Hiragana (mkJapanese) where

-- long vowel romaaji must be ei, ou not ee, oo  

mkJapanese :: String -> String
mkJapanese = digraphWordToUnicode . romaajiToDigraphWord

romaajiToDigraphWord :: String -> [(Char, Char)]
romaajiToDigraphWord str = case str of
  [] -> []
  '<' : cs -> ('\\', '<') : spoolMarkup cs 
  ' ' : cs -> ('\\', ' ') : romaajiToDigraphWord cs
  
  c1 : cs | isVowel c1 -> (' ', cap c1) : romaajiToDigraphWord cs

  -- The combinations
  c1 : 'y' : c2 : cs -> (c1, 'i') : ('y', cap c2) : romaajiToDigraphWord cs 

  's' : 'h' : 'a' : cs -> ('S', 'i') : ('y', 'A') : romaajiToDigraphWord cs
  'c' : 'h' : 'a' : cs -> ('C', 'i') : ('y', 'A') : romaajiToDigraphWord cs
  'j' : 'a' : cs -> ('j', 'i') : ('y', 'A') : romaajiToDigraphWord cs

  's' : 'h' : 'u' : cs -> ('S', 'i') : ('y', 'U') : romaajiToDigraphWord cs
  'c' : 'h' : 'u' : cs -> ('C', 'i') : ('y', 'U') : romaajiToDigraphWord cs
  'j' : 'u' : cs -> ('j', 'i') : ('y', 'U') : romaajiToDigraphWord cs

  's' : 'h' : 'o' : cs -> ('S', 'i') : ('y', 'O') : romaajiToDigraphWord cs
  'c' : 'h' : 'o' : cs -> ('C', 'i') : ('y', 'O') : romaajiToDigraphWord cs
  'j' : 'o' : cs -> ('j', 'i') : ('y', 'O') : romaajiToDigraphWord cs

  'd' : 'z' : c3 : cs -> ('D', c3) : romaajiToDigraphWord cs
  't' : 's' : c3 : cs -> ('T', c3) : romaajiToDigraphWord cs
  'c' : 'h' : c3 : cs -> ('C', c3) : romaajiToDigraphWord cs
  's' : 'h' : c3 : cs -> ('S', c3) : romaajiToDigraphWord cs
  'z' : 'h' : c3 : cs -> ('Z', c3) : romaajiToDigraphWord cs

  c1 : ' ' : cs -> (' ', c1) : ('\\', ' ') : romaajiToDigraphWord cs -- n
  c1 : [] -> [(' ', c1)] -- n
   
  c1 : c2 : cs | isVowel c2 -> (c1, c2) : romaajiToDigraphWord cs
  c1 : c2 : cs | c1 == c2 -> ('T', 'U') : romaajiToDigraphWord (c2 : cs) -- double cons
  c1 : cs -> (' ', c1) : romaajiToDigraphWord cs -- n
  
isVowel x = elem x "aeiou"
cap :: Char -> Char
cap x = case x of 
  'a' -> 'A'
  'e' -> 'E'
  'i' -> 'I'
  'o' -> 'O'
  'u' -> 'U'
  c   -> c 

spoolMarkup :: String -> [(Char, Char)]
spoolMarkup s = case s of
  -- [] -> [] -- Shouldn't happen
  '>' : cs -> ('\\', '>') : romaajiToDigraphWord cs  
  c1 : cs -> ('\\', c1) : spoolMarkup cs

digraphWordToUnicode :: [(Char, Char)] -> String
digraphWordToUnicode = map digraphToUnicode

digraphToUnicode :: (Char, Char) -> Char
digraphToUnicode (c1, c2) = case lookup (c1, c2) cc of Just c' -> c' ; _ -> c2 
 where 
   cc = zip allHiraganaCodes allHiragana

allHiraganaCodes :: [(Char, Char)]
allHiraganaCodes = mkPairs digraphedHiragana

allHiragana :: String
allHiragana = (map toEnum [0x3041 .. 0x309f]) 

mkPairs :: String -> [(Char, Char)]
mkPairs str = case str of
  [] -> []
  c1 : c2 : cs -> (c1, c2) : mkPairs cs

digraphedHiragana = " a A i I u U e E o OkagakigikugukegekogosazaSiZisuzusezesozotadaCijiTUTuDutedetodonaninunenohabapahibipihubupuhebepehobopomamimumemoyAyayUyuyOyorarirurerowaWawiwewo nvukAkE____<< o>>o  >'> b"