日本語NER資料

kiracomp 于 2020-01-06 发布

日本語NER資料

1.NERとは?

固有表現抽出(named entity recognition)とは、計算機を用いた自然言語処理技術の一つであり、情報抽出の一分野である。文中から固有表現 (Named Entity) を抽出し、それを固有名詞(人名、組織名、地名など)や日付、時間表現、数量、金額、パーセンテージなどのあらかじめ定義された固有表現分類へと分類する。

2.NERのレベル方法

BIO方法

レベル 意味
B Begin
I Inside
O Outside

例文:太郎は5月18日の朝9時に花子に会いに行った。

レベル レベル
B-PER O
I-PER B-PER
O I-PER
5 B-DATE O
I-DATE O
1 I-DATE O
8 I-DATE O
I-DATE O
O O
I-TIME O
9 I-TIME O
I-TIME    

3.単語分割:日本語と英語と中国語の違い

\ 英語 日本語 中国語
時制
漢字
単語分割 単語 ?

4.日本語のデータセット

IOB2Corpus by Hironsan:ウィキニュース日本語版をMeCabで形態素解析してIOB2タグでタグ付けしたコーパス。

juand-r/entity-recognition-datasets japanese part:A collection of corpora for named entity recognition (NER) and entity recognition tasks.

IREX公開データ・ツール (最終版)ーデータは有料です
MET-2 Datasets japanese-xmlフォーマットのタグ付けデータ
BCCWJ基本固有表現抽出コーパス-タグはありますが、テキストデータはありません
DBpedia abstract corpus
Data from: Mai et al., An Empirical Study on Fine-Grained Named Entity Recognition, COLING 2018-BIOとjsonフォーマットのタグ付けデータ
GSK2014-A 拡張固有表現タグ付きコーパス有料

5.bert

BERT日本語Pretrainedモデル @黒橋-河原研究室
BERT with SentencePiece:日本語 Wikipedia で学習してモデル

6.ツール

DBpedia jp