Моделиране на данни в Касандра

1. Общ преглед

Cassandra е база данни NoSQL, която осигурява висока наличност и хоризонтална мащабируемост, без да нарушава производителността.

За да постигнем най-доброто представяне на Cassandra, трябва внимателно да проектираме схемата около модели на заявки, специфични за съответния бизнес проблем.

В тази статия ще разгледаме някои от ключовите концепции около това как да подходим към моделирането на данни в Касандра .

Преди да продължите, можете да преминете през нашата статия за Касандра с Java, за да разберете основите и как да се свържете с Касандра с помощта на Java.

2. Разделен ключ

Касандра е разпределена база данни, в която данните се разделят и съхраняват в множество възли в рамките на клъстер.

Разделителният ключ се състои от едно или повече полета с данни и се използва от дяла за генериране на маркер чрез хеширане за равномерно разпределение на данните в клъстер .

3. Клъстериращ ключ

Клъстериращият ключ се състои от едно или повече полета и помага при групирането или групирането на редове с един и същ дялов ключ и съхраняването им в сортиран ред.

Да кажем, че съхраняваме данни от времеви редове в Касандра и искаме да ги извлечем в хронологичен ред. Клъстериращ ключ, който включва полета с данни от времеви редове, ще бъде много полезен за ефективно извличане на данни за този случай на употреба.

Забележка: Комбинацията от дялов ключ и кластеризиращ ключ съставя първичния ключ и уникално идентифицира всеки запис в клъстера Cassandra.

4. Указания около моделите на заявки

Преди да започнем с моделирането на данни в Касандра, трябва да идентифицираме моделите на заявките и да се уверим, че те спазват следните насоки:

  1. Всяка заявка трябва да извлича данни от един дял
  2. Трябва да следим колко данни се съхраняват в дял, тъй като Касандра има ограничения около броя колони, които могат да се съхраняват в един дял
  3. Добре е да денормализирате и дублирате данните, за да поддържате различни видове модели на заявки върху едни и същи данни

Въз основа на горните насоки, нека разгледаме някои реални случаи на използване и как бихме моделирали моделите на данни от Cassandra за тях.

5. Примери за моделиране на данни в реалния свят

5.1. Постове във Facebook

Да предположим, че съхраняваме публикации във Facebook на различни потребители в Касандра. Един от често срещаните модели на заявки ще бъде извличането на горните публикации „ N “, направени от даден потребител.

По този начин трябва да съхраняваме всички данни за конкретен потребител на един дял съгласно горните насоки.

Също така, използването на клеймото за време на публикация като кластеризиращ ключ ще бъде полезно за извличане на най-добрите ' N ' публикации по-ефективно.

Нека дефинираме схемата на таблицата Cassandra за този случай на употреба:

CREATE TABLE posts_facebook ( user_id uuid, post_id timeuuid, content text, PRIMARY KEY (user_id, post_id) ) WITH CLUSTERING ORDER BY (post_id DESC);

Сега, нека напишем заявка, за да намерим топ 20 публикации за потребителя Анна :

SELECT content FROM posts_facebook WHERE user_id = "Anna_id" LIMIT 20

5.2. Фитнес зали в цялата страна

Да предположим, че съхраняваме подробности за различни спортни зали в различните градове и щати на много страни и бихме искали да вземем спортните зали за даден град.

Също така, да предположим, че трябва да върнем резултатите с фитнес зали, сортирани по датата на отваряне.

Въз основа на горните насоки трябва да съхраняваме фитнес залите, разположени в даден град на конкретна държава и държава, на един дял и да използваме датата на отваряне и името на фитнеса като клъстерен ключ.

Нека дефинираме схемата на таблицата Cassandra за този пример:

CREATE TABLE gyms_by_city ( country_code text, state text, city text, gym_name text, opening_date timestamp, PRIMARY KEY ( (country_code, state_province, city), (opening_date, gym_name)) WITH CLUSTERING ORDER BY (opening_date ASC, gym_name ASC);

Сега, нека да разгледаме заявка, която извлича първите десет фитнес зали до датата на откриването им за град Финикс в американския щат Аризона:

SELECT * FROM gyms_by_city WHERE country_code = "us" AND state = "Arizona" AND city = "Phoenix" LIMIT 10

След това нека видим заявка, която извлича десетте най-скоро отворени фитнес зали в град Финикс в американския щат Аризона:

SELECT * FROM gyms_by_city WHERE country_code = "us" and state = "Arizona" and city = "Phoenix" ORDER BY opening_date DESC LIMIT 10

Забележка: Тъй като редът на сортиране на последната заявка е противоположен на реда на сортиране, дефиниран по време на създаването на таблицата, заявката ще работи по-бавно, тъй като Касандра първо ще извлече данните и след това ще ги сортира в паметта.

5.3. Клиенти и продукти за електронна търговия

Да приемем, че управляваме магазин за електронна търговия и че съхраняваме информация за клиенти и продукти в Cassandra. Нека да разгледаме някои от често срещаните модели на заявки около този случай на употреба:

  1. Вземете информация за клиента
  2. Вземете информация за продукта
  3. Вземете всички клиенти, които харесват даден продукт
  4. Вземете всички продукти, които даден клиент харесва

Ще започнем с използване на отделни таблици за съхраняване на информация за клиента и продукта . Трябва обаче да въведем справедлива доза денормализация, за да подкрепим третата и четвъртата заявки, показани по-горе.

We will create two more tables to achieve this – “Customer_by_Product” and “Product_by_Customer“.

Let's look at the Cassandra table schema for this example:

CREATE TABLE Customer ( cust_id text, first_name text, last_name text, registered_on timestamp, PRIMARY KEY (cust_id)); CREATE TABLE Product ( prdt_id text, title text, PRIMARY KEY (prdt_id)); CREATE TABLE Customer_By_Liked_Product ( liked_prdt_id text, liked_on timestamp, title text, cust_id text, first_name text, last_name text, PRIMARY KEY (prdt_id, liked_on)); CREATE TABLE Product_Liked_By_Customer ( cust_id text, first_name text, last_name text, liked_prdt_id text, liked_on timestamp, title text, PRIMARY KEY (cust_id, liked_on));

Note: To support both the queries, recently-liked products by a given customer and customers who recently liked a given product, we have used the “liked_on” column as a clustering key.

Let's look at the query to find the ten Customers who most recently liked the product “Pepsi“:

SELECT * FROM Customer_By_Liked_Product WHERE title = "Pepsi" LIMIT 10

And let's see the query that finds the recently-liked products (up to ten) by a customer named “Anna“:

SELECT * FROM Product_Liked_By_Customer WHERE first_name = "Anna" LIMIT 10

6. Inefficient Query Patterns

Due to the way that Cassandra stores data, some query patterns are not at all efficient, including the following:

  • Извличане на данни от множество дялове - това ще изисква координатор да извлича данните от множество възли, да ги съхранява временно в купчина и след това да агрегира данните, преди да върне резултатите на потребителя
  • Заявки, базирани на присъединяване - поради своя разпределен характер, Cassandra не поддържа обединения на таблици в заявки по същия начин, както релационната база данни, и в резултат на това заявките със съединения ще бъдат по-бавни и могат също да доведат до проблеми с несъответствието и наличността

7. Заключение

В този урок разгледахме няколко най-добри практики за това как да подходим към моделирането на данни в Касандра.

Разбирането на основните концепции и предварително идентифицирането на моделите на заявките е необходимо за проектиране на правилен модел на данни, който получава най-добро представяне от клъстера Cassandra.