日本語NER資料
1.NERとは?
固有表現抽出(named entity recognition)とは、計算機を用いた自然言語処理技術の一つであり、情報抽出の一分野である。文中から固有表現 (Named Entity) を抽出し、それを固有名詞(人名、組織名、地名など)や日付、時間表現、数量、金額、パーセンテージなどのあらかじめ定義された固有表現分類へと分類する。
2.NERのレベル方法
BIO方法
レベル | 意味 |
---|---|
B | Begin |
I | Inside |
O | Outside |
例文:太郎は5月18日の朝9時に花子に会いに行った。
文 | レベル | 文 | レベル |
---|---|---|---|
太 | B-PER | に | O |
郎 | I-PER | 花 | B-PER |
は | O | 子 | I-PER |
5 | B-DATE | に | O |
月 | I-DATE | 会 | O |
1 | I-DATE | い | O |
8 | I-DATE | に | O |
日 | I-DATE | 行 | O |
の | O | っ | O |
朝 | I-TIME | た | O |
9 | I-TIME | 。 | O |
時 | I-TIME |
3.単語分割:日本語と英語と中国語の違い
\ | 英語 | 日本語 | 中国語 |
---|---|---|---|
時制 | 有 | 有 | 無 |
漢字 | 無 | 有 | 有 |
単語分割 | 単語 | ? | 字 |
- 日本語の単語分割-日本語形態素解析システム JUMAN++ @黒橋-河原研究室
4.日本語のデータセット
IOB2Corpus by Hironsan:ウィキニュース日本語版をMeCabで形態素解析してIOB2タグでタグ付けしたコーパス。
juand-r/entity-recognition-datasets japanese part:A collection of corpora for named entity recognition (NER) and entity recognition tasks.
IREX公開データ・ツール (最終版)ーデータは有料です
MET-2 Datasets japanese-xmlフォーマットのタグ付けデータ
BCCWJ基本固有表現抽出コーパス-タグはありますが、テキストデータはありません
DBpedia abstract corpus
Data from: Mai et al., An Empirical Study on Fine-Grained Named Entity Recognition, COLING 2018-BIOとjsonフォーマットのタグ付けデータ
GSK2014-A 拡張固有表現タグ付きコーパス有料
5.bert
BERT日本語Pretrainedモデル @黒橋-河原研究室
BERT with SentencePiece:日本語 Wikipedia で学習してモデル6.ツール