中国語の文章を分析する際に排除したかったのは「ピンイン」です。
ある文書を「中国語だけの情報」に加工する場合、
正規表現
を活用します。
正規表現とはWikipediaによると、
字列の集合を一つの文字列で表現する方法の一つ
のこと。
正規表現で「漢字以外の表記」を検索し、それを「空文字」で置き換えれば漢字だけが残るはずです。
正規表現を駆使し、あらゆる数字や記号を削除してきたのですが、最後まで排除しきれなかったのが声調記号付きのピンインだったのです。
声調記号なしピンインならば「AからZの正規表現(大文字・小文字)」の
[a-zA-Za-zA-Z]
でヒットします。
しかし、
ǎǎǎǎììììǎèǎùǎìǎǜūīùíūīùíǐǐàǐàǐ
といった声調記号ありの特殊アルファベットは検索できません。
困るに困ったので、日本語で検索してみましたが、有益な情報が見つからず。
英語で検索してみても情報は見つからず。
そして、たどり着いたのは中国語によるBaidu検索でした。
この方法でも苦戦しましたが、ようやく7ページ目くらいで次の神記事に遭遇。苦し紛れに「拼音 正则表达式」と検索して辿り着きました。
ちょっと何を言ってるかわかりませんが、どうやら、
[āáǎàēéěèīíǐìōóǒòūúǔùǖǘǚǜüêɑńňɡa-zA-ZA-Za-z\\s∥-]+
という正規表現なら声調記号つきのピンインを検索できる、と。
試しにこちらの正規表現でピンイン混じりの文章で検索し、空文字で置き換えたところ、成功!
声調記号つきピンインだろうが無事におさらばです。
正規表現を駆使してもピンインが削除できず悩んでいる方はお試しあれ。
それでは!
Ken