Справочник по классу DataStore
В этом справочнике описаны основные классы API DataStore.
DataStore
Основной класс, аналогичный DataFrame, для работы с данными.
Конструктор
Параметры:
| Параметр | Тип | Описание |
|---|---|---|
data | dict/list/DataFrame/DataStore | Входные данные |
columns | list | Имена столбцов |
index | Index | Индекс строки |
dtype | dict | Типы данных столбцов |
copy | bool | Копировать данные |
Примеры:
Свойства
| Свойство | Тип | Описание |
|---|---|---|
columns | Index | Имена столбцов |
dtypes | Series | Типы данных столбцов |
shape | tuple | (строки, столбцы) |
size | int | Общее количество элементов |
ndim | int | Число измерений (2) |
empty | bool | Является ли DataFrame пустым |
values | ndarray | Базовые данные в виде массива NumPy |
index | Index | Индекс строк |
T | DataStore | Транспонированный DataStore |
axes | list | Список осей |
Методы-фабрики
| Метод | Описание |
|---|---|
uri(uri) | Универсальный метод-фабрика по URI |
from_file(path, ...) | Создать из файла |
from_df(df) | Создать из pandas DataFrame |
from_s3(url, ...) | Создать из S3 |
from_gcs(url, ...) | Создать из Google Cloud Storage |
from_azure(url, ...) | Создать из Azure Blob |
from_mysql(...) | Создать из MySQL |
from_postgresql(...) | Создать из PostgreSQL |
from_clickhouse(...) | Создать из ClickHouse |
from_mongodb(...) | Создать из MongoDB |
from_sqlite(...) | Создать из SQLite |
from_iceberg(path) | Создать из таблицы Iceberg |
from_delta(path) | Создать из Delta Lake |
from_numbers(n) | Создать с последовательными числами |
from_random(rows, cols) | Создать со случайными данными |
run_sql(query) | Создать из SQL-запроса |
Подробности см. в разделе Методы-фабрики.
Методы запросов
| Метод | Возвращает | Описание |
|---|---|---|
select(*cols) | DataStore | Выбрать столбцы |
filter(condition) | DataStore | Отфильтровать строки |
where(condition) | DataStore | Синоним метода filter |
sort(*cols, ascending=True) | DataStore | Отсортировать строки |
orderby(*cols) | DataStore | Синоним метода sort |
limit(n) | DataStore | Ограничить количество строк |
offset(n) | DataStore | Пропустить строки |
distinct(subset=None) | DataStore | Удалить дубликаты строк |
groupby(*cols) | LazyGroupBy | Сгруппировать строки |
having(condition) | DataStore | Отфильтровать группы |
join(right, ...) | DataStore | Объединить объекты DataStore |
union(other, all=False) | DataStore | Скомбинировать объекты DataStore |
when(cond, val) | CaseWhen | CASE WHEN |
Подробности см. в разделе Query Building.
Методы, совместимые с Pandas
Полный список из 209 методов см. в разделе Совместимость с Pandas.
Индексирование:
head(), tail(), sample(), loc, iloc, at, iat, query(), isin(), where(), mask(), get(), xs(), pop()
Агрегация:
sum(), mean(), std(), var(), min(), max(), median(), count(), nunique(), quantile(), describe(), corr(), cov(), skew(), kurt()
Манипуляции:
drop(), drop_duplicates(), dropna(), fillna(), replace(), rename(), assign(), astype(), copy()
Сортировка:
sort_values(), sort_index(), nlargest(), nsmallest(), rank()
Изменение структуры:
pivot(), pivot_table(), melt(), stack(), unstack(), transpose(), explode(), squeeze()
Комбинирование:
merge(), join(), concat(), append(), combine(), update(), compare()
Применение/преобразование:
apply(), applymap(), map(), agg(), transform(), pipe(), groupby()
Временные ряды:
rolling(), expanding(), ewm(), shift(), diff(), pct_change(), resample()
Методы ввода-вывода
| Метод | Описание |
|---|---|
to_csv(path, ...) | Экспорт в CSV |
to_parquet(path, ...) | Экспорт в Parquet |
to_json(path, ...) | Экспорт в JSON |
to_excel(path, ...) | Экспорт в Excel |
to_df() | Преобразовать в pandas DataFrame |
to_pandas() | Синоним to_df |
to_arrow() | Преобразовать в таблицу Arrow |
to_dict(orient) | Преобразовать в словарь |
to_records() | Преобразовать в записи |
to_numpy() | Преобразовать в массив NumPy |
to_sql() | Сгенерировать строку SQL |
to_string() | Строковое представление |
to_markdown() | Таблица в Markdown |
to_html() | Таблица в HTML |
Подробности см. в разделе I/O Operations.
Методы отладки
| Method | Description |
|---|---|
explain(verbose=False) | Показать план выполнения |
clear_cache() | Очистить кэшированные результаты |
Подробнее см. раздел Debugging.
Магические методы
| Method | Description |
|---|---|
__getitem__(key) | ds['col'], ds[['a', 'b']], ds[condition] |
__setitem__(key, value) | ds['col'] = value |
__delitem__(key) | del ds['col'] |
__len__() | len(ds) |
__iter__() | for col in ds |
__contains__(key) | 'col' in ds |
__repr__() | repr(ds) |
__str__() | str(ds) |
__eq__(other) | ds == other |
__ne__(other) | ds != other |
__lt__(other) | ds < other |
__le__(other) | ds <= other |
__gt__(other) | ds > other |
__ge__(other) | ds >= other |
__add__(other) | ds + other |
__sub__(other) | ds - other |
__mul__(other) | ds * other |
__truediv__(other) | ds / other |
__floordiv__(other) | ds // other |
__mod__(other) | ds % other |
__pow__(other) | ds ** other |
__and__(other) | ds & other |
__or__(other) | `ds |
__invert__() | ~ds |
__neg__() | -ds |
__pos__() | +ds |
__abs__() | abs(ds) |
ColumnExpr
Выражение столбца, используемое для отложенных вычислений. Возвращается при обращении к столбцу.
Свойства
| Свойство | Тип | Описание |
|---|---|---|
name | str | Имя столбца |
dtype | dtype | Тип данных |
Аксессоры
| Accessor | Описание | Методы |
|---|---|---|
.str | Операции со строками | 56 методов |
.dt | Операции с DateTime | 42+ методов |
.arr | Операции с массивами | 37 методов |
.json | Разбор JSON | 13 методов |
.url | Разбор URL | 15 методов |
.ip | Операции с IP-адресами | 9 методов |
.geo | Гео-/операции с расстоянием | 14 методов |
Полную документацию см. в разделе Accessors.
Арифметические операции
Операции сравнения
Логические операции
Методы
| Method | Description |
|---|---|
as_(alias) | Задать псевдоним |
cast(dtype) | Привести к типу |
astype(dtype) | Псевдоним для cast |
isnull() | Проверка на NULL |
notnull() | Проверка на не-NULL |
isna() | Псевдоним для isnull |
notna() | Псевдоним для notnull |
isin(values) | В списке значений |
between(low, high) | Между двумя значениями |
fillna(value) | Заполнить NULL-значения |
replace(to_replace, value) | Заменить значения |
clip(lower, upper) | Обрезать значения |
abs() | Абсолютное значение |
round(decimals) | Округлить значения |
floor() | Округление вниз до целого |
ceil() | Округление вверх до целого |
apply(func) | Применить функцию |
map(mapper) | Отобразить значения |
Методы агрегации
| Method | Description |
|---|---|
sum() | Сумма |
mean() | Среднее значение |
avg() | Псевдоним функции mean |
min() | Минимум |
max() | Максимум |
count() | Количество непустых значений |
nunique() | Количество уникальных значений |
std() | Стандартное отклонение |
var() | Дисперсия |
median() | Медиана |
quantile(q) | Квантиль |
first() | Первое значение |
last() | Последнее значение |
any() | Есть хотя бы одно истинное значение |
all() | Все значения истинны |
LazyGroupBy
Представляет сгруппированное хранилище DataStore для выполнения операций агрегации.
Методы
| Метод | Возвращает | Описание |
|---|---|---|
agg(spec) | DataStore | Агрегирование |
aggregate(spec) | DataStore | Псевдоним agg |
sum() | DataStore | Сумма по группе |
mean() | DataStore | Среднее по группе |
count() | DataStore | Количество по группе |
min() | DataStore | Минимум по группе |
max() | DataStore | Максимум по группе |
std() | DataStore | Стандартное отклонение по группе |
var() | DataStore | Дисперсия по группе |
median() | DataStore | Медиана по группе |
nunique() | DataStore | Количество уникальных значений по группе |
first() | DataStore | Первое значение по группе |
last() | DataStore | Последнее значение по группе |
nth(n) | DataStore | n-е значение по группе |
head(n) | DataStore | Первые n в группе |
tail(n) | DataStore | Последние n в группе |
apply(func) | DataStore | Применить функцию к каждой группе |
transform(func) | DataStore | Преобразование каждой группы |
filter(func) | DataStore | Фильтрация групп |
Выбор столбцов
Спецификации агрегирования
LazySeries
Представляет ленивую Series (один столбец).
Свойства
| Свойство | Тип | Описание |
|---|---|---|
name | str | Название серии |
dtype | dtype | Тип данных |
Методы
Наследует большинство методов от ColumnExpr. Основные методы:
| Метод | Описание |
|---|---|
value_counts() | Частоты значений |
unique() | Уникальные значения |
nunique() | Количество уникальных значений |
mode() | Модальное значение |
to_list() | Преобразовать в список |
to_numpy() | Преобразовать в массив NumPy |
to_frame() | Преобразовать в DataStore |
Связанные классы
F (Функции)
Пространство имён для функций ClickHouse.
Дополнительные сведения см. в разделе Aggregation.
Field
Ссылка на столбец по его имени.
CaseWhen
Билдер для выражений CASE WHEN.
Window
Определение окна для оконных функций.