これまでこれまでは、ログデータを重複して転送した場合、そのままActivityに登録されてしまう上に、Activityのアップデートや削除ができませんでした。今回のリリースCygieneでログの自動重複を排除するようになります!そもそも:Cygieneでのログとアクティビティの取り扱いCygieneでは、時系列を持つデータを、全て「ログデータ」として取り扱っています。このログデータに、任意のメタデータが付加され、横断してクエリを実行できる状態となったものを「アクティビティ」と読んでいます。Cygieneは無制限・重複可能なログデータストアと、時系列に特化したクラスタ化されたアクティビティデータベース(+そして、さらに高速な検索が可能な検出DB)の多層構造で構成されています。Cygieneでは*「ログは世界で1つだけしかない(意味のある情報は必ずユニークである)」*という前提のもと、全てのアクティビティに256bitのIDを割り当てており、一度割り当てられたIDは失われることがありません。再取り込み時(データ再投入時)の重複の発生一方で、データソース(DataSource)から、例えば外部SaaSのログを重複して読み出した場合、Cygiene上では異なるアクティビティIDが割り当てられる場合があります。これは、外部SaaSのAPI応答が必ずしも同一とは限らない(APIの仕様変更、ログの仕様変更などが生じる)ことが想定されるためです。▲重複したデータが含まれている例。Google Driveのログを2回取り込んだ状態になっています。また、Cygiene側でも自動的に別のアクティビティIDを割り当てる場合があります。同一内容だが異なるタイムスタンプを持つデータを着信した場合Identityを新たに紐付け直したり、変更した場合カスタムトランスフォームの設定を変更した場合(この機能はまだリリースされていません)結果として、IDは異なるが、内容が完全に同じログが取り込まれる場合がありました。そこで:今回の自動重複排除いわゆる「生ログ」が完全に一致するものは、重複したものとして表示されなくなります。テキスト、バイナリ、JSONのいずれの方式であっても、完全一致するデータは表示されません。これにより、特に重複を意識することなく、データの再投入が可能になります。▲重複データが取り除かれます。最も新しいデータが保持されます。今後について現在のCygieneの各ストア・データベースはお客様から動作がわかりづらいことが多く、仕様面での振る舞いやAPI経由での読み書きについてお問い合わせを頂いております。この辺りは、SIEM機能強化と合わせて、より柔軟な構成ができるよう改善してまいります!