辞書とルールで固有表現抽出器を作れるライブラリfunerを公開しました

自然言語処理 Python

概要こんにちは@kajyuuenです。辞書とルールによる固有表現抽出（Named Entity Recognition; NER）を実現するライブラリfunerを作りました。 github.com 辞書とルールによって抽出した固有表現をこんな感じで確認できます。 tokens 東京出身の吉田は 4…

#Python #自然言語処理 #固有表現抽出 #機械学習

2022-02-21

日本語文書分類・固有表現抽出タスクに対するData Augmentationの性能検証

概要こんにちは@kajyuuenです。本記事では日本語データセットに対して、Data Augmentation（データ拡張）を行い、モデルの性能が向上するか検証します。今回は文書分類と固有表現抽出の2つのタスクに対して、実験を行いました。その結果、文書分類タスク…

2022-02-14

日本語自然言語処理のData Augmentationライブラリdaajaを作りました

概要こんにちは@kajyuuenです。日本語自然言語処理のData Augmentationライブラリdaajaを作成しました。この記事ではdaajaが実装しているData Augmentation手法についての解説とその使い方について紹介します。ソースコードは以下のリポジトリで公開して…

#自然言語処理 #NLP #機械学習

2020-07-20

クラウドソーシングのためのDawid-Skeneモデルと確率的プログラミングPyroによるベイズ化

自分の研究とはあまり関係はないのですが、最近趣味で確率的プログラミングを触っています。これが結構面白いので試しにDawid-SkeneモデルをPyroで実装してみました。はじめにまずクラウドソーシングにおけるラベル集約について説明します。教師あり学習…

2019-09-21

フルアノテーションコーパスを利用出来ない状況下での固有表現抽出の論文について発表した

概要 NLP/CV SoTA Survey Challenge #3にて，フルアノテーションコーパスを利用しない固有表現抽出の論文を三本まとめて発表しました． speakerdeck.com コメント完全なアノテーションってなんだよというツッコミがあって確かにそうだなと思ってしまった。…

2019-08-22

非固有表現タグを学習に用いない固有表現抽出モデル: Better Modeling of Incomplete Annotations for Named Entity Recognitionを読んで実装しました

前回に引き続き，部分的アノテーションコーパスが使える固有表現抽出手法の紹介と実装です．概要 Better Modeling of Incomplete Annotations for Named Entity Recognitionが読んだ論文になります．著者実装はこちらこの論文では部分的アノテーションコー…

2019-07-14

部分的アノテーションが利用可能な固有表現抽出モデル Fuzzy-LSTM-CRFの実装

概要固有表現タスクにおいて重要な役割を持つCRF(条件付き確率場)ですが，CRFでは全ての単語に対してラベルが付けられている必要があるため，アノテーションコストが高くなる傾向があります．そこで，今回は部分的アノテーションコーパスを利用可能な固有表…