Handle emojis that have multiple readings correctly There are some emojis in emoji_data.ts which contain multiple readings but gen_emoji_rewriter_data.py couldn't handle them correctly. As a result, some emoji are registered as if they could be read as " ". This CL addresses the issue. Closes Issue 266. BUG=Issue mozc:266 TEST=manually done with Nexus 5 / Android 5.0.1 (LRX22C) git-svn-id: https://mozc.googlecode.com/svn/trunk@478 a6090854-d499-a067-5803-1114d4e51264

commit: 854543293bcd31be546c4eaa41a76974339b6f12 [log] [tgz]
author: Noriyuki Takahashi <noriyukit@google.com> Fri Jan 02 21:59:46 2015 +0000
committer: Yohei Yukawa <yukawa@google.com> Fri Jan 02 21:59:46 2015 +0000
tree: 463405afd7829b1ebf64e800397caab75e4ae7e6
parent: ebb825a0e3556e0630e5b2884d18388ee53e765f [diff]
diff --git a/src/mozc_version_template.txt b/src/mozc_version_template.txt
index 239cfcd..b6b4a66 100644
--- a/src/mozc_version_template.txt
+++ b/src/mozc_version_template.txt

@@ -1,6 +1,6 @@
 MAJOR=2
 MINOR=16
-BUILD=2011
+BUILD=2012
 REVISION=102
 # NACL_DICTIONARY_VERSION is the target version of the system dictionary to be
 # downloaded by NaCl Mozc.

diff --git a/src/rewriter/gen_emoji_rewriter_data.py b/src/rewriter/gen_emoji_rewriter_data.py
index 49a59bc..262f503 100644
--- a/src/rewriter/gen_emoji_rewriter_data.py
+++ b/src/rewriter/gen_emoji_rewriter_data.py

@@ -126,7 +126,7 @@
                             kddi_description))
 
     # \xe3\x80\x80 is a full-width space
-    for reading in re.split(r'( |\xe3\x80\x80)+', readings.strip()):
+    for reading in re.split(r'(?: |\xe3\x80\x80)+', readings.strip()):
       token_dict[reading].append(index)
 
   return (emoji_data_list, token_dict)
commit	854543293bcd31be546c4eaa41a76974339b6f12	[log] [tgz]
author	Noriyuki Takahashi <noriyukit@google.com>	Fri Jan 02 21:59:46 2015 +0000
committer	Yohei Yukawa <yukawa@google.com>	Fri Jan 02 21:59:46 2015 +0000
tree	463405afd7829b1ebf64e800397caab75e4ae7e6
parent	ebb825a0e3556e0630e5b2884d18388ee53e765f [diff]