Artwork

内容由Philippe Nieuwbourg提供。所有播客内容(包括剧集、图形和播客描述)均由 Philippe Nieuwbourg 或其播客平台合作伙伴直接上传和提供。如果您认为有人在未经您许可的情况下使用您的受版权保护的作品,您可以按照此处概述的流程进行操作https://zh.player.fm/legal
Player FM -播客应用
使用Player FM应用程序离线!

#4.3 AWS met le catalogue de données au coeur de sa Data Zone

4:37
 
分享
 

Manage episode 407433533 series 3560168
内容由Philippe Nieuwbourg提供。所有播客内容(包括剧集、图形和播客描述)均由 Philippe Nieuwbourg 或其播客平台合作伙伴直接上传和提供。如果您认为有人在未经您许可的情况下使用您的受版权保护的作品,您可以按照此处概述的流程进行操作https://zh.player.fm/legal

Un peu comme Monsieur Jourdain faisait de la prose sans le savoir, la mode semble aujourd’hui de faire du Data Mesh sans le dire. Presque toutes les entreprises que je rencontre testent actuellement le concept de Data Product, permettant de faire négocier directement les producteurs et les consommateurs de données. Mais personne ne semble utiliser le terme de Data Mesh. Alors certes, inventé par Zhamak Dehghani en 2019, le data mesh est également devenu pour son inventeur l’occasion de promouvoir un outil informatique ad-hoc.

Mais c’est surtout parce que le data mesh est assez contraignant, si l’on en respecte l’ensemble des principes. Les entreprises choisissent donc plutôt de s’en inspirer et de sélectionner les règles qu’elles souhaitent appliquer.

Se pose bien entendu la question de l’architecture informatique qui va supporter ces data products. Hors de question de laisser chaque utilisateur gérer cela de son côté. Ce serait une catastrophe technique et de conformité. Mais on ne veut pas non plus revenir à une centralisation, dans un outil technique inaccessible aux utilisateurs… nous n’aurions alors pas progressé par rapport au data warehouse… Et n’oublions pas, pour compléter le tableau, que ces data products vont devoir partager la scène, pendant plusieurs années sans doute, avec les architectures centralisées actuelles. Difficile d’imaginer qu’une grande entreprise ait la maturité nécessaire pour que tous les utilisateurs prennent dès maintenant le contrôle de leurs données. Il va donc falloir gérer une transition par étape, avant d’envisager de décommissioner les systèmes centraux.

Amazon propose d’apporter une réponse avec un nouveau produit, appelé Data Zone. Il s’agit d’un “espace”, où l’on va pouvoir conserver l’ensemble des données, qu’elles soient dans des data lakes, des data products, avec une logique de place de marché. En parallèle, Amazon lance un outil d’intelligence artificielle générative au service de la donnée. Il s’appelle Data Genie. Il va fonctionner de concert avec le catalogue de données Amazon Glue Data Catalog. Et s’appuie sur ce catalogue pour y ajouter un glossaire métier, permettant à l’IA générative de créer des descriptions automatisées, et de comprendre des requêtes en langage naturel. Amazon reconnait que “cela ne remplacera jamais la description rédigée par un spécialiste métier”, mais c’est une avancée intéressante. Attention cependant, les descriptions sont uniquement générées en anglais pour l’instant.

Dans le cadre de la compréhension des requêtes envoyées par l’utilisateur en langage naturel (d’ailleurs cela fonctionne ici en français, en espagnol et en anglais), plutôt que de vectoriser l’ensemble des données pour essayer de les comprendre, Amazon Genie s’appuie là encore sur le catalogue; et c’est lui qui est vectorisé - à la clef, gain d’espace, de temps de calcul et de coût. Cela renforce la place centrale de la gouvernance des données, et de son catalogue au coeur de la plateforme data. Bien sur cela ne fonctionne que si vous utilisez l’ensemble de l’écosystème Amazon. L’éditeur nous dit que le lien peut être fait avec des catalogues existants tels que Collibra ou Alation, mais cela suppose un export de tout le catalogue au format JSON… je n’appelle pas cela de l’intégration.

Alors, la Data Zone est-elle plus claire que les Data Plate-forme, Data Hub, Data Fabric et autres Data Trucs inventés par chaque fournisseur ? Je n’en suis pas certain, mais en plaçant le catalogue de données au centre de sa Data Zone, Amazon clairement va dans la bonne direction, celle de la gouvernance des données. Et celle d’une gouvernance appliquée à une architecture moderne, autour des data products, préservant cependant l’existant.

  continue reading

67集单集

Artwork
icon分享
 
Manage episode 407433533 series 3560168
内容由Philippe Nieuwbourg提供。所有播客内容(包括剧集、图形和播客描述)均由 Philippe Nieuwbourg 或其播客平台合作伙伴直接上传和提供。如果您认为有人在未经您许可的情况下使用您的受版权保护的作品,您可以按照此处概述的流程进行操作https://zh.player.fm/legal

Un peu comme Monsieur Jourdain faisait de la prose sans le savoir, la mode semble aujourd’hui de faire du Data Mesh sans le dire. Presque toutes les entreprises que je rencontre testent actuellement le concept de Data Product, permettant de faire négocier directement les producteurs et les consommateurs de données. Mais personne ne semble utiliser le terme de Data Mesh. Alors certes, inventé par Zhamak Dehghani en 2019, le data mesh est également devenu pour son inventeur l’occasion de promouvoir un outil informatique ad-hoc.

Mais c’est surtout parce que le data mesh est assez contraignant, si l’on en respecte l’ensemble des principes. Les entreprises choisissent donc plutôt de s’en inspirer et de sélectionner les règles qu’elles souhaitent appliquer.

Se pose bien entendu la question de l’architecture informatique qui va supporter ces data products. Hors de question de laisser chaque utilisateur gérer cela de son côté. Ce serait une catastrophe technique et de conformité. Mais on ne veut pas non plus revenir à une centralisation, dans un outil technique inaccessible aux utilisateurs… nous n’aurions alors pas progressé par rapport au data warehouse… Et n’oublions pas, pour compléter le tableau, que ces data products vont devoir partager la scène, pendant plusieurs années sans doute, avec les architectures centralisées actuelles. Difficile d’imaginer qu’une grande entreprise ait la maturité nécessaire pour que tous les utilisateurs prennent dès maintenant le contrôle de leurs données. Il va donc falloir gérer une transition par étape, avant d’envisager de décommissioner les systèmes centraux.

Amazon propose d’apporter une réponse avec un nouveau produit, appelé Data Zone. Il s’agit d’un “espace”, où l’on va pouvoir conserver l’ensemble des données, qu’elles soient dans des data lakes, des data products, avec une logique de place de marché. En parallèle, Amazon lance un outil d’intelligence artificielle générative au service de la donnée. Il s’appelle Data Genie. Il va fonctionner de concert avec le catalogue de données Amazon Glue Data Catalog. Et s’appuie sur ce catalogue pour y ajouter un glossaire métier, permettant à l’IA générative de créer des descriptions automatisées, et de comprendre des requêtes en langage naturel. Amazon reconnait que “cela ne remplacera jamais la description rédigée par un spécialiste métier”, mais c’est une avancée intéressante. Attention cependant, les descriptions sont uniquement générées en anglais pour l’instant.

Dans le cadre de la compréhension des requêtes envoyées par l’utilisateur en langage naturel (d’ailleurs cela fonctionne ici en français, en espagnol et en anglais), plutôt que de vectoriser l’ensemble des données pour essayer de les comprendre, Amazon Genie s’appuie là encore sur le catalogue; et c’est lui qui est vectorisé - à la clef, gain d’espace, de temps de calcul et de coût. Cela renforce la place centrale de la gouvernance des données, et de son catalogue au coeur de la plateforme data. Bien sur cela ne fonctionne que si vous utilisez l’ensemble de l’écosystème Amazon. L’éditeur nous dit que le lien peut être fait avec des catalogues existants tels que Collibra ou Alation, mais cela suppose un export de tout le catalogue au format JSON… je n’appelle pas cela de l’intégration.

Alors, la Data Zone est-elle plus claire que les Data Plate-forme, Data Hub, Data Fabric et autres Data Trucs inventés par chaque fournisseur ? Je n’en suis pas certain, mais en plaçant le catalogue de données au centre de sa Data Zone, Amazon clairement va dans la bonne direction, celle de la gouvernance des données. Et celle d’une gouvernance appliquée à une architecture moderne, autour des data products, préservant cependant l’existant.

  continue reading

67集单集

所有剧集

×
 
Loading …

欢迎使用Player FM

Player FM正在网上搜索高质量的播客,以便您现在享受。它是最好的播客应用程序,适用于安卓、iPhone和网络。注册以跨设备同步订阅。

 

快速参考指南