- 1. コンテンツの収集。
- 私たちは毎日、求人サイトや企業のウェブサイトなど、さまざまなデータソースをクロールしています。
- 2. 情報抽出。
- さまざまなエンティティ(組織、人、技術、タスクなど)とそれらの相互作用は、独自のモデルによって抽出されます。
- 3. エンティティ解決。
- 組織エンティティは、さらなるデータ拡充のために固有のドメイン名に紐付けられます。
- 4. 正規化と重複排除。
- エンティティは一連のルールベースの手法で正規化され、その後、重複排除システムに送られます。
- 5. 品質保証。
- 複数のデータアナリストが、データが最高品質であることを確保するため、日々監視と検証を行っています。