- 1. コンテンツ取得。
- 私たちは、毎日、求人掲示板や企業のウェブサイトなど、さまざまなデータソースをクロールしています。
- 2. 情報抽出。
- 異なるエンティティ(組織、人々、技術、タスクなど)とそれらの相互作用は、独自のモデルを通じて抽出されます。
- 3. エンティティリゾリューション。
- 組織のエンティティは、さらなる充実のためにユニークなドメイン名にリンクされています。
- 4. 正規化 & 重複排除。
- エンティティは一連のルールベースのアプローチで正規化され、その後重複排除システムに送られます。
- 5. Quality Assurance(品質保証)。
- 複数のデータアナリストが毎日データを監視し、確認することで、データが最高品質であることを保証します。