- 1. コンテンツ取得。
- 私たちは毎日、求人掲示板や企業のウェブサイトなどのさまざまなデータソースをクローリングしています。
- 2. 情報抽出。
- さまざまなエンティティ(組織、人々、技術、タスクなど)およびそれらの相互作用は、独自のモデルを通じて抽出されます。
- 3. エンティティ解決。
- 組織エンティティは、さらに充実させるためにユニークなドメイン名にリンクされています。
- 4. 正規化 & 重複除去。
- エンティティは一連のルールベースのアプローチで正規化され、その後重複排除システムに送られます。
- 5. 品質保証。
- 複数のデータアナリストが毎日データを監視し、検証して、データが最高品質であることを保証しています。