[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[chasen-users:00325]
英数字が
混在する文字列の扱い
はじめまして
あおいと申します。
初心者なので、これからいろいろとお世話になりますが
宜しくお願いしますm(__)m
茶筅をRedhat linux 7.3と8.0で、php_chasen経由で使ってます。
入れたRPMは、以下です。
chasen-2.2.9-1.i386.rpm
chasen-devel-2.2.9-1.i386.rpm
フリマのWEBサイトを運営していて、
茶筅で文字列を分解してインデックスを作成しているのですが
商品の型番など英数字が混在する場合に、最適なインデックスを作成できなくて
検索が遅くなる問題を抱えています。
現在は、全角英数字を全て半角。英字大文字を小文字にして
データベースに登録しています。
やりたいことは、12345などの全角数字を
12345 (複合名詞)
p2b−dxやsp97vなどの英数字が混在する文字列を(複合名詞)として
認識させたいのです。
この場合の、茶筅に利用するデータベースの文字列の登録ポリシーを
どのようにすればいいでしょうか?
(全角英数字を全て全角。英字大文字を小文字など。。)
また、茶筅の設定ファイルの記載についても教えて下さい。
chasenrcの記載の仕方が悪いのかもしれないのでご指導いただけたら助かります。
chasenrcに以下のように記載しましたが、文字が分解されてしまい
全然反映してくれないです。。
茶筅は、chasenrcを編集するだけで即時動作に反映するでしょうか?
/usr/etc/chasenrc
に以下を追記。
(COMPOSIT ((名詞-数)) ((記号-アルファベット)))
(COMPOSIT ((複合名詞) (名詞) (接頭詞名詞接続) (接頭詞数接続) (記号一般)))
(COMPOSIT ((複合名詞) (名詞-数) (名詞-接尾-助数詞)))
(COMPOSIT ((複合名詞) (名詞-数) (名詞-数)))
*COMPOSITをマニュアルにある連結品詞と書くとchasenが動きません。
*(名詞-数)を(名詞 数)と-を抜いても同じでした。
それから
/usr/share/chasen/dic/ipadic/grammar.cha
に
(複合名詞)
を追記しました。
chasenrcは、以下の2つにありますが、
これはこの2ヶ所を編集する必要があるでしょうか?
/usr/etc/chasenrc
/usr/share/chasen/dic/ipadic/chasenrc
以上、沢山質問がありますが、宜しくお願いしますm(__)m
あおい