MeCab - MeCab

MeCab
Geliştirici (ler)Taku Kudou, Google Japonca Giriş proje
Kararlı sürüm
0.996 / 18 Şubat 2013; 7 yıl önce (2013-02-18)
Depo Bunu Vikiveri'de düzenleyin
YazılmışC ++ için modülleri var C, C #, Java, Perl, Python, ve Yakut
PlatformÇapraz platform
LisansAltında üç lisanslı GPL, LGPL ve BSD lisansları
İnternet sitesihttps://taku910.github.io/mecab

MeCab bir açık kaynak metin bölütleme kitaplıkta yazılan metinle kullanım için Japon Dili başlangıçta tarafından geliştirilmiştir Nara Bilim ve Teknoloji Enstitüsü ve şu anda Taku Kudou (工藤 拓) tarafından Google Japonca Giriş proje.[1][2] İsim, geliştiricinin en sevdiği yiyeceklerden geliyor. Mekabu [ja ] (和 布 蕪), bir Japon yemeği den imal edilmiş uyanmak yapraklar.

Yazılım orijinal olarak ChaSen ve ChaSenTNG adı altında geliştirildi, ancak şimdi ChaSen'den bağımsız olarak geliştirildi ve sıfırdan yeniden yazıldı. MeCab'in analiz doğruluğu ChaSen ile karşılaştırılabilir ve analiz hızı ortalamada 3–4 kat daha hızlıdır.

MeCab bir cümleyi analiz edebilir ve kendi konuşmanın bölümleri. MeCab için kullanılabilen birkaç sözlük vardır, ancak IPADIC ChaSen'de olduğu gibi en yaygın kullanılanıdır.

2007'de Google, MeCab'i kullanarak n-gram Google Japan blogunda yayınladığı büyük bir Japonca metin külliyatı için veriler.[3]

MeCab ayrıca Japonca giriş açık Mac OS X 10.5 ve 10.6 ve içinde iOS 2.1 sürümünden beri.[4][5]

Misal

Giriş:

ウ ィ キ ペ デ ィ ア (Wikipedia) は 誰 で も 編 集 で き る フ リ ー 百科 事 典 で す

Sonuçlar:

ウ ィ キ ペ デ ィ ア 名詞, 一般, *, *, *, *, * (記号, 括弧 開, *, *, *, *, (, (, (Wikipedia 名詞, 固有 名詞, 組織, *, *, *, *) 記号, 括弧 閉, *, *, *, *,),),) は 助詞, 係 助詞, *, *, *, *, は, ハ, ワ 誰 名詞, 代名詞, 一般, *, *, *, 誰, ダ レ, ダ レ で も 助詞, 副 助詞, *, *, *, *, で も, デ モ, デ モ 編 集 名詞, サ 変 接 続, *, *, *, *, 編 集, ヘ ン シ ュ ウ, ヘ ン き * ュ ー で, 一段, 基本 形, で き る, デ キ ル, デ キ ル フ リ ー 名詞, 一般, *, *, *, *, フ リ ー, フ リ ー, フ リ ー 百科 名詞, 一般, *, *, *, *, 百科, ャ ッ カ, ャ ッ, *, *, *, *, 事 典, ジ テ ン, ジ テ ン で す 助動詞, *, *, *, 特殊 ・ デ ス, 基本 形, で す, デ ス, デ ス EOS

Metni bölümlere ayırmanın yanı sıra, MeCab ayrıca sözcüğün konuşma bölümünü ve uygunsa ve sözlükte telaffuzunu da listeler. Yukarıdaki örnekte, で き る (Dekiru, "yapabilmek") olarak sınıflandırılır Ichidan (一段) fiil (動詞) mastar zamanda (基本 形).で も kelimesi (demo) bir zarf parçacık (副 助詞). Tüm sütunlar tüm sözcükler için geçerli olmadığından, bir sütun bir sözcük için geçerli olmadığında, yıldız işareti kullanılır; bu, kelime ve kelimeden sonraki bilgileri biçimlendirmeyi mümkün kılar. sekme karakteri olarak virgülle ayrılmış değerler.

MeCab ayrıca çeşitli çıktı formatlarını destekler; bunlardan biri Chasen, çıktılar sekmeyle ayrılmış değerler için yazılmış programlar biçiminde ChaSen kullanabilirsiniz. Başka bir format, yomi (itibaren 読 from yomu, okumak), giriş metninin telaffuzunu şu şekilde çıkarır: Katakana,[6] Aşağıda gösterildiği gibi.

ウ ィ キ ペ デ ィ ア (Wikipedia) ハ ダ レ デ モ ヘ ン シ ュ ウ デ キ ル フ リ ー ヒ ャ ッ カ ジ テ ン デ ス

Referanslar

  1. ^ "「 グ グ る 」の 精度 を 高 め る た め に 必要 な も の - @IT 自 分 戦 略 研究所" [Google'ın doğruluğunu iyileştirmek için ihtiyacı olan şeyler]. ITmedia (Japonyada). 2006-03-15. Alındı 2009-04-09.
  2. ^ "思 い ど お り の 日本語 入 力 - Google 日本語 入 力" [Daha doğru Japonca girdiye doğru]. Google (Japonyada). 2009-12-03. Alındı 2009-12-03.
  3. ^ "Google Japan Blogu: 大規模 日本語 n-gram デ ー タ の 公開" [Büyük Japonca metin külliyatında n-gram verilerinin yayınlanması]. Google (Japonyada). 2007-11-01. Alındı 2009-04-09.
  4. ^ "大規模 テ キ ス ト 処理 を 支 え る 形態 素 解析 技術 (工藤 拓 氏 ・ Google)" [(Ders) Morfolojik analiz, büyük ölçekli metin işlemeyi destekler (Bay Taku Kudou, Google'da çalışan)] (Japonca). 2009-12-03. Alındı 2009-12-03.
  5. ^ "iPhone の 仮 名 漢字 変 換 は MeCab を 利用" [iPhone, kana-kanji dönüşümü için MeCab'i kullanır] (Japonca). 2009-12-03. Arşivlenen orijinal 2008-09-18 tarihinde. Alındı 2009-12-03.
  6. ^ Kudou, Taku. "MeCab: Yine Başka Bir Konuşma Parçası ve Morfolojik Analiz Aracı". taku910.github.io (Japonyada). Alındı 23 Ocak 2018.

Dış bağlantılar