Личный IT-блог: Кластер postgresql с pgpool

четверг, 12 сентября 2013 г.

Кластер postgresql с pgpool

Небольшая хаутушечка по настройке pgpool-кластера с steaming replication postgres.

1. Подготовка посгреса

Необходимо настроить потоковую репликацию.
Первым делом необходимо настроить авторизацию юзера postgres на машинах кластера по ssh-ключам без пароля (причем, не забыть про коннект по ssh к самому себе). ssh-keygen и ssh-copy-id в помощь.
Конфиг postgresql.conf лучше иметь одинаковый (за исключением директивы archive_command), что на мастере, что на слейве - так удобнее и проще, тоже самое касается каталогов с базой и архивлогами.
Добавляем директивы:

hot_standby = on // указывает что слейв будет в одноименном режиме, т.е. с него возможны селекты; на мастере она игнорируется
wal_level = hot_standby    // директива для мастера, указывает режим репликации; на слейве игнорируется
max_wal_senders = 4    // число процессов репликации, должно быть не меньше числа слейвов
wal_keep_segments = 12    // сколько хранить wal-логов, если число будет слишком маленьким - слейв не сможет засинхронизироваться после длительного оффлайна
archive_mode = on    // дополнение к потоковой репликации, ускоряет синхронизацию после длительного оффлайна
archive_command = 'rsync -aq %p <slave-name>:/somedir/archive/%f' // команда для отправки файликов архив-логов. единственный параметр, который будет различаться на мастере и слейве (мастер указывает на слейв, слейв на мастер)

Кроме того, listen_address не должен быть localhost, иначе слейв не сможет подключиться (извращения со слейвом на том же хосте опустим), а так же необходимо настроить pg_hba.conf для разрешения подключения replication-юзера, что-то вроде такого:

host replication postgres 192.168.1.0/24 trust

После этого запускаем мастер-сервер. Готовим слейв.
Проще всего сделать pg_basebackup с работающего мастера, указать в archive_command хостнейм мастера и добавить файлик recovery.conf:

standby_mode='on'
primary_conninfo='host=master port=5432 user=postgres' // реквизиты подключения к мастеру
trigger_file='/somedir/trigger_file' // путь до триггер-файла. при его появлении посгрес будет считать что мастер сдох и нужно самому становиться мастером
restore_command='cp /somedir/archive/%f %p' // команда для применения архивлогов
archive_cleanup_command='/usr/pgsql-9.2/bin/pg_archivecleanup /somedir/archive %r' // очистка примененных архивлогов

После этого можно можно запускать слейва, он должен успешно подключиться к мастеру и войти в режим hot_standby.

2. Настройка pgpool

Поставить pgpool под rhel/centos можно из пакетов, так что про традиционное для подобных хаутушечек configure&&make&&make install можно забыть.
Правим pgpool.conf:

backend_hostname0 = 'hostname'
backend_port0 = 5432
backend_weight0 = 1
backend_data_directory0 = '/opt/pgsql/9.2/data'
backend_flag0 = 'ALLOW_TO_FAILOVER'

Такими директивами (с увеличением порядкового номера) описываются все ноды кластера.
Включаем авторизацию через pgpool:

enable_pool_hba = on
authentication_timeout = 60
pool_passwd = 'pool_passwd' #имя файлика с юзерами/паролями в каталоге /etc/pgpool-II

Для авторизации по паролям через pgpool необходимо чтобы юзер и пароль совпадали, что в pgpool-е, что в посгресе, тип авторизации в посгресе должен быть md5. Например, создаем юзера "root" с паролем "qwerty":

createuser -lP root

в pg_hba.conf добавляем

host all root pgpool-host-ip md5
pg_md5 -u root -p

вывод добавляем в pool_passwd, права на файл должны позволять юзеру postgres его прочитать.
Возвращаемся к pgpool.conf:

load_balance_mode = on        # включаем балансировку нагрузки - селекты смогут выполняться в т.ч. на слейве

master_slave_mode = on
master_slave_sub_mode = 'stream' # включаем streaming replication

sr_check_period = 10        # период проверки репликации
sr_check_user = 'root'        # реквизиты для проверки репликации
sr_check_password = 'qwerty'

health_check_period = 5        # проверка доступности нод
health_check_timeout = 10
health_check_user = 'root'    # реквизиты для проверки
health_check_password = 'qwerty'

failover_command = '/opt/pgsql/failover.sh %d %P %H %R' # самое важное - команда для файловера, будет исполняться при падении какой-либо из нод

Скрипт файловера довольно простой: если упал слейв - не делать ничего, если мастер - создать триггер-файл на слейве. А чтобы все это получилось - ssh-ключики и создавались.

#!/bin/bash
failed_id=$1
old_primary_id=$2
new_master_host_name=$3
new_database_path=$4
trigger=trigger_file

if [ $failed_id = $old_primary_id ];then # master failed
ssh $new_master_host_name touch $new_database_path/$trigger # let standby take over
fi

На этом минимум - закончен. pgpool сможет обслуживать соединения, отслеживать состояния нод и промоутить слейва в случае падения мастера.
Остается решить вопрос с рекавери - восстановлением работы упавшей ноды. Для этого есть 2 варианта:

восстанавливать ноду ручками (т.е. без участия pgpool-а) и давать pgpool-у команду на присоединение ноды
настроить online-recovery в pgpool-е, но все равно восстанавливать ручками :D хотя бы потому, что команду на восстановление придется все же давать руками (через консоль или модный pgpoolAdmin)

Первый вариант довольно прост и по-сути полностью повторяет официальный посгресовый гайд: сделать бейсбэкап с работающего мастера, создать recovery.conf и запустить ноду как слейв. Это все можно оформить в удобный скрипт:

#!/bin/bash

cluster_master=$1
recovery_host=$2
recovery_dir=$3

psql -h $cluster_master -c "SELECT pg_start_backup('Streaming Replication', true)" postgres

rsync -C -a -c --delete --exclude postgresql.conf --exclude postmaster.pid \
--exclude postmaster.opts --exclude pg_log \
--exclude recovery.conf --exclude recovery.done \
--exclude pg_xlog \
$recovery_dir/ $recovery_host:$recovery_dir/
psql -h $cluster_master -c "SELECT pg_stop_backup()" postgres

ssh $recovery_host "mkdir $recovery_dir/pg_xlog; chmod 700 $recovery_dir/pg_xlog"
rec=`mktemp`
cat > $rec << EOF
standby_mode='on'
primary_conninfo='host=$cluster_master port=5432 user=postgres'
trigger_file='$recovery_dir/trigger_file'
restore_command='cp /opt/pgsql/archive/%f %p'
archive_cleanup_command='/usr/pgsql-9.2/bin/pg_archivecleanup /opt/pgsql/archive %r'
EOF
scp $rec $recovery_host:$recovery_dir/recovery.conf
rm -f $rec

ssh $recovery_host sed -i "s/slave-hostname/$cluster_master/g" $recovery_dir/postgresql.conf

Соответственно алгоритм восстановления по этому варианту таков:

Запустить скрипт с работающего мастера, указать хостнеймы мастера, восстанавливаемого слейва и каталог pg_data. Он подготовит слейв
Запустить слейв. Если нигде ничего не напутано - он успешно подключится к мастеру и начнет работать хот-стендбаем.
Дать команду пгпулу на присоединение ноды: pcp_attach_node timeout hostname port# username password nodeID. nodeID восстанавливаемой ноды можно увидеть из вывода pcp_pool_status.
После этого нода будет вновь доступна в пгпуле.

Второй вариант - online-recovery в pgpool.
Механизм работы пгпула в этом варианте несколько неочевиден. В отличие от fileover и прочих функций - рекавери запускается не напрямую скриптом, а через вызов посгресовых функций pgpool_recovery и pgpool_remote_start, которые уже вызывают непосредственные скрипты (нафига такой изврат??!). Соответственно, чтобы все это работало - в посгрес должны быть загружены эти функции (в базу postgres и template), а для загрузки этих функций необходима шаред-библиотека под посгрес pgpool-recovery.so.
После добавления пгпуловских фукнций в посгрес нужно создать 2 скрипта в каталоге $pg_data: pgpool_remote_start (именно с таким названием!) и recover-online (тут уже название произвольное).
Первый скрипт, как видно из названия - скрипт удаленного запуска посгреса. Я предлагаю юзать системные инит-скрипты и судо, скрипт такого вида:

#!/bin/bash

if [ $# -ne 2 ]
then
echo "pgpool_remote_start remote_host remote_datadir"
exit 1
fi

DEST=$1
DESTDIR=$2
PGCTL=/usr/pgsql-9.2/bin/pg_ctl

ssh -T $DEST "sudo service postgresql-9.2 start"

Естественно, для его работы в судоерс необходимо разрешить юзеру посгрес выполнять "service postgresql-9.2 start" без запроса пароля.
Второй скрипт - собственно процедура рекавери. Скрипт такой:

#!/bin/bash

if [ $2 = "slave.hostname" ]
        then
                cluster_master="master.hostname"
        else
                cluster_master="slave.hostname"
fi

recovery_host=$2
recovery_dir=$3

psql -c "SELECT pg_start_backup('Streaming Replication', true)" postgres

rsync -C -a -c --delete --exclude postmaster.pid \
--exclude postmaster.opts --exclude pg_log \
--exclude recovery.conf --exclude recovery.done \
$recovery_dir/ $recovery_host:$recovery_dir/
psql -c "SELECT pg_stop_backup()" postgres

rec=`mktemp`
cat > $rec << EOF
standby_mode='on'
primary_conninfo='host=$cluster_master port=5432 user=postgres'
trigger_file='$recovery_dir/trigger_file'
restore_command='cp /opt/pgsql/archive/%f %p'
archive_cleanup_command='/usr/pgsql-9.2/bin/pg_archivecleanup /opt/pgsql/archive/%r'
EOF
scp $rec $recovery_host:$recovery_dir/recovery.conf
rm -f $rec

ssh -T $recovery_host sed -i "s/hostname/$cluster_master/g" $recovery_dir/postgresql.conf

Скрипт похож на "ручной" скрипт рекавери, но слегка изменен, т.к. приходится определять хостнейм текущего мастера (функция pgpool_recovery не передает имя мастера).
Когда все скрипты на месте, функции в базу загружены - можно переходить к конфигу пгпула. Править нужно раздел "online recovery":

recovery_user = 'postgres' # юзер (посгресовый)
recovery_password = 'pass' # пароль
recovery_1st_stage_command = 'recover-online.sh' # имя рекавери-скрипта

Остальные параметры можно не трогать. Перезапускаем пгпул и можно пробовать - механизм должен работать.
Тут и подходим к самому главному - нафига было столько геморроя? Ибо пгпул не будет пытаться самостоятельно восстанавливать ноду после падения - он будет терпиливо ждать команды pcp_recovery_node (или нажатия кнопки в pgpool-admin-е) и только после получения ее с нужными параметрами соизволит восстановить ноду.
А раз ручками лезть все равно надо - по-моему проще "ручным" скриптом восстановить ноду и жмакнуть pcp_attach_node.

3. Устраняем единую точку отказа.

Pgpool в единственном числе - общая точка отказа. Для устранения этой проблемы - необходим еще один (или более) пгпул и настроенный watchdog. В случае с 2-мя хостами посгреса, master/slave - очевидным вариантом будет установка пгпула на каждый из хостов.
Конфиги пгпула должны быть одинаковые (включая скрипты файловера, рекавери и т.п.), различия есть только в разделе watchdog в параметрах.

use_watchdog = on #включаем вотчдог
trusted_servers = '192.168.222.2' #лучше указать один/несколько гарантированно доступных хостов - для исключения split-brain ситуации
wd_hostname = 'hostname' # имя хоста, на котором этот пгпул запущен; свое для каждого хоста
wd_port = 9000 # порт должен быть открыт на фаерволле
wd_authkey = 'qwerty' # ключик авторизации вотчдога, должен быть одинаковый. можно вообще без него
delegate_IP = '192.168.222.220' # виртуальный айпи, по которому будет доступен кластер. именно на него нужно натравливать приложение, желающее соединиться с базой
wd_lifecheck_method = 'heartbeat' #метод работы вотчдога, heartbeat появился с версии 3.3. query у меня не заработал (как и вотчдог в 3.2 вообще)
wd_interval = 5
wd_heartbeat_port = 9694 #порт для хартбита. должен быть открыт в фаерволле
wd_heartbeat_keepalive = 2
wd_heartbeat_deadtime = 15
heartbeat_destination0 = 'hostname2' #имя другого хоста
heartbeat_destination_port0 = 9694
other_pgpool_hostname0 = 'hostname2' #имя другого хоста
other_pgpool_port0 = 5432
other_wd_port0 = 9000

Таким образом, конфиги различаются только параметрами wd_hostname, heartbeat_destination0 и other_pgpool_hostname0. Еще один важный момент - если пгпул запускается не от рута (а это так, если ставился из пакетов; да и вообще - нефиг), то для поднятия/опускания сетевых алиасов необходимо поставить suid-бит на /sbin/ifconfig и /usr/sbin/arping.
Если не ошиблись с хостнеймами и портами, то при запуске пулов они друг-друга увидят, один станет мастером и поднимет алиас, другой будет в стендбае, на случай падения мастера.

4. Результат

В целом, как отказоустойчивый кластер - pgpool справляется со своей задачей. Ослеживание доступности посгресов, файловер, рекавери, балансировка селектов, без единой точки отказа - это все есть и работает. Но, на мой взгляд - слишком много неочевидных мелочей в настройке и общее впечатление "нестабильности" всего этого хозяйства. Кроме того, хоть название и предполагает пулер соединений, но по-факту клиентские соединения разрываются при файловере. Поэтому использовать подобный кластер можно только в том случае, если клиенсткое приложение спокойно переваривает обрывы соединений и недоступность базы в течении 1-10сек (при срабатывании вотчдога и переключении на резервный пгпул).
По скорости работы: плохая новость - даже в режиме асинхронной репликации скорость посгреса на апдейтах/инсертах проседает раза в 3-4, по сравнению с одиночным посгресом (мерил pgbench-ем при дефолтном postgresql.conf, наличие/отсутствие пгпула на результат не влияет); хорошая новость - с включенным load-balancing-ом и memory cache скорость селектов в 2-4 раза выше, чем одиночный посгрес (опять же pgbench).

40 комментариев:

моша1 октября 2013 г. в 16:00
Этот комментарий был удален автором.
ОтветитьУдалить
Ответы
моша1 октября 2013 г. в 16:10
И еще для online восстановления:
создаю файл basebackup.sh и помещаю его на машину мастера(бывшего слейва - правильно я рассуждаю???) в папку /usr/local/pgsql/data и задаю права доступа chmod 755. Скрипт:
PRIMARY_DATA=/usr/local/pgsql/data
SLAVE_IP=192.168.1.2
SLAVE_DATA=/usr/local/pgsql/data
PRIMARY_IP=$(ifconfig eth0| sed -n '2 {s/^.*inet addr:$[0-9.]*$ .*/\1/;p}')
TMP_DIR=/usr/local/pgsql/data
cd $PRIMARY_DATA
rm -f recovery.* trigger
cat postgresql.conf | grep '#hot_standby = on'
if [ $? = 1 ]
then
sed -i 's/hot_standby = on/#hot_standby = on/' postgresql.conf
/usr/bin/pg_ctl restart -D $PGDIR
fi
ssh -T postgres@$SLAVE_IP "/usr/bin/pg_ctl stop -D $SLAVE_DATA"
psql -c "SELECT pg_start_backup('Streaming Replication', true)" postgres
rsync -a $PRIMARY_DATA/ $SLAVE_IP:$SLAVE_DATA/ --exclude postmaster.pid --exclude
postmaster.opts
mkdir $TMP_DIR
cd $TMP_DIR
cp $PRIMARY_DATA/postgresql.conf $TMP_DIR/
sed -i 's/#hot_standby = on/hot_standby = on/' postgresql.conf
echo "standby_mode = 'on'" > recovery.conf
echo "primary_conninfo = 'host=$PRIMARY_IP port=5432 user=postgres'" >> recovery.conf
echo "trigger_file = 'failover'" >> recovery.conf
ssh -T postgres@$SLAVE_IP rm -f $SLAVE_DATA/recovery.*
scp postgresql.conf postgres@$SLAVE_IP:$SLAVE_DATA/postgresql.conf
scp recovery.conf postgres@$SLAVE_IP:$SLAVE_DATA/recovery.conf
psql -c "SELECT pg_stop_backup()" postgres
cd ..
rm -fr $TMP_DIR

на машинах мастера и слейва создаю файл pgpool_remote_start.sh в папке /usr/local/pgsql/data. SLAVE_IP будет одинаковым на обоих машинах (другая машина ведь мастер),т.е.файлы одинаковые и надо ли их прописывать в pgpool.conf? Скрипт:
if [ $# -ne 2]
then
echo "pgpool_remote_start remote_host remote_datadir"
exit 1
fi
SLAVE_IP=192.168.1.2
SLAVE_DIR=/usr/local/pgsql/data
PGCTL=/usr/local/pgsql/bin/pg_ctl
ssh -T $SLAVE_IP $PGCTL -w -D $SLAVE_DIR start 2>/dev/null 1>/dev/null </dev/null &

Запускаю pgpool-ii и там под postgres-ом выполняю команду:
pcp_recovery_node 20 192.168.1.1 9898 postgres my_password 0 #где my_password - пароль "в открытом виде" из файла pcp.conf,но команда не исполняется, а пишется:AuthorizationError. Я так понимаю, что пользователь не проходит авторизацию, но где в каком месте? Подскажите,пожалуйста, что не правильно уже все попробовала.
ОтветитьУдалить
Ответы
моша2 октября 2013 г. в 17:00
а еще у вас в тексте написано помещать пароль в pool_passwd это тот хэш пароля,что и в pcp.conf или надо только в pcp.conf?
ОтветитьУдалить
Ответы
моша9 октября 2013 г. в 11:12
здравствуйте,Юрий! извините, что сразу не ответила: пока переставляла пгпул на 3.3 и тестировала,но опять подвисают запросы при передаче прав с мастера на слейв, вот логи:
DEBUG: pid 24938: health check: clearing alarm
DEBUG: pid 24938: health check: clearing alarm
DEBUG: pid 24938: starting health checking
DEBUG: pid 24938: health check: clearing alarm
DEBUG: pid 24938: health_check: 0 th DB node status: 3
DEBUG: pid 24938: health_check: 1 th DB node status: 2
DEBUG: pid 24938: pool_ssl: SSL requested but SSL support is not available
DEBUG: pid 24938: s_do_auth: auth kind: 0
DEBUG: pid 24938: s_do_auth: backend key data received
DEBUG: pid 24938: s_do_auth: transaction state: I
...
DEBUG: pid 25173: I am 25173 accept fd 6
LOG: pid 25173: connection received: host=[local]
DEBUG: pid 25173: read_startup_packet: application_name: createdb
DEBUG: pid 25173: Protocol Major: 3 Minor: 0 database: postgres user: postgres
DEBUG: pid 25173: new_connection: connecting 0 backend
DEBUG: pid 25173: new_connection: skipping slot 0 because backend_status = 3
DEBUG: pid 25173: new_connection: connecting 1 backend
DEBUG: pid 25173: pool_ssl: SSL requested but SSL support is not available
DEBUG: pid 25173: pool_read_message_length: slot: 1 length: 8
DEBUG: pid 25173: pool_do_auth: auth kind:0
DEBUG: pid 25173: pool_read_message_length2: master slot: 1 length: 30
DEBUG: pid 25173: 1 th backend: name: application_name value: createdb
DEBUG: pid 25173: pool_read_message_length2: master slot: 1 length: 25
DEBUG: pid 25173: 1 th backend: name: client_encoding value: UTF8
DEBUG: pid 25173: pool_read_message_length2: master slot: 1 length: 23
DEBUG: pid 25173: 1 th backend: name: DateStyle value: ISO, DMY
DEBUG: pid 25173: pool_read_message_length2: master slot: 1 length: 25
DEBUG: pid 25173: 1 th backend: name: integer_datetimes value: on
DEBUG: pid 25173: pool_read_message_length2: master slot: 1 length: 27
DEBUG: pid 25173: 1 th backend: name: IntervalStyle value: postgres
DEBUG: pid 25173: pool_read_message_length2: master slot: 1 length: 20
DEBUG: pid 25173: 1 th backend: name: is_superuser value: on
DEBUG: pid 25173: pool_read_message_length2: master slot: 1 length: 25
DEBUG: pid 25173: 1 th backend: name: server_encoding value: UTF8
DEBUG: pid 25173: pool_read_message_length2: master slot: 1 length: 25
DEBUG: pid 25173: 1 th backend: name: server_version value: 9.2.1
DEBUG: pid 25173: pool_read_message_length2: master slot: 1 length: 35
DEBUG: pid 25173: 1 th backend: name: session_authorization value: postgres
DEBUG: pid 25173: pool_read_message_length2: master slot: 1 length: 35
DEBUG: pid 25173: 1 th backend: name: standard_conforming_strings value: on
DEBUG: pid 25173: pool_read_message_length2: master slot: 1 length: 18
DEBUG: pid 25173: 1 th backend: name: TimeZone value: W-SU
DEBUG: pid 25173: pool_read_message_length: slot: 1 length: 12
DEBUG: pid 25173: pool_do_auth: cp->info[i]:0x7f631d486088 pid:11724
DEBUG: pid 25173: pool_send_auth_ok: send pid 11724 to frontend
DEBUG: pid 25173: select_load_balancing_node: selected backend id is 1
DEBUG: pid 25173: selected load balancing node: 1
DEBUG: pid 25173: pool_unset_query_in_progress: done
DEBUG: pid 25173: pool_unset_command_success: done
DEBUG: pid 25173: pool_unset_writing_transaction: done
DEBUG: pid 25173: pool_unset_failed_transaction: done
DEBUG: pid 25173: pool_unset_transaction_isolation: done
DEBUG: pid 25173: pool_unset_skip_reading_from_backends: done
DEBUG: pid 25173: pool_unset_ignore_till_sync: done
DEBUG: pid 25173: read_kind_from_one_backend: read kind from 1 th backend Z
DEBUG: pid 25173: read_kind_from_backend: kind: Z from 1 th backend
DEBUG: pid 25173: read_kind_from_backend: read kind from 1 th backend Z NUM_BACKENDS: 2
DEBUG: pid 25173: ProcessBackendResponse: kind from backend: Z
DEBUG: pid 25173: pool_read_message_length: slot: 1 length: 5
DEBUG: pid 25173: ReadyForQuery: transaction state:
DEBUG: pid 25173: ProcessBackendResponse: Ready For Query
ОтветитьУдалить
Ответы
моша9 октября 2013 г. в 11:18
и еще:
DEBUG: pid 25173: ProcessFrontendResponse: kind from frontend Q(51)
DEBUG: pid 25173: pool_unset_doing_extended_query_message: done
DEBUG: pid 25173: statement2: CREATE DATABASE new2;
DEBUG: pid 25173: pool_set_query_in_progress: done
DEBUG: pid 25173: send_to_where: 0 query: CREATE DATABASE new2;
DEBUG: pid 25173: wait_for_query_response: waiting for backend 1 completing the query
DEBUG: pid 25176: pool_ssl: SSL requested but SSL support is not available
DEBUG: pid 25176: s_do_auth: auth kind: 0
DEBUG: pid 25176: s_do_auth: backend key data received
DEBUG: pid 25176: s_do_auth: transaction state: I
DEBUG: pid 24938: starting health checking
DEBUG: pid 24938: health check: clearing alarm
DEBUG: pid 24938: health_check: 0 th DB node status: 3
DEBUG: pid 24938: health_check: 1 th DB node status: 2
DEBUG: pid 24938: pool_ssl: SSL requested but SSL support is not available
DEBUG: pid 24938: s_do_auth: auth kind: 0
DEBUG: pid 24938: s_do_auth: backend key data received
DEBUG: pid 24938: s_do_auth: transaction state: I
DEBUG: pid 24938: health check: clearing alarm
DEBUG: pid 24938: health check: clearing alarm
...
DEBUG: pid 25173: pool_flush_it: write failed to frontend. reason: Broken pipe offset: 0 wlen: 43
ERROR: pid 25173: wait_for_query_response: frontend error occured while waiting for backend reply
DEBUG: pid 25173: Cancel request received
DEBUG: pid 25173: con_info: address:0x7f631d288000 database: user: pid:0 key:0 i:0
DEBUG: pid 25173: con_info: address:0x7f631d288088 database: user: pid:0 key:0 i:0
...
DEBUG: pid 25173: con_info: address:0x7f631d486000 database: user: pid:0 key:0 i:30
DEBUG: pid 25173: con_info: address:0x7f631d486088 database:postgres user:postgres pid:11724 key:1416384456 i:30
DEBUG: pid 25173: found pid:11724 key:1416384456 i:30
LOG: pid 25173: cancel_request: canceling backend pid:11724 key: 1416384456
DEBUG: pid 25173: pool_unset_query_in_progress: done
LOG: pid 25173: do_child: exits with status 1 due to error
DEBUG: pid 24938: reap_handler called
DEBUG: pid 24938: reap_handler: call wait3
DEBUG: pid 24938: child 25173 exits with status 256
DEBUG: pid 24938: fork a new child pid 25183
DEBUG: pid 24938: reap_handler: normally exited
DEBUG: pid 25183: I am 25183
DEBUG: pid 25183: pool_initialize_private_backend_status: initialize backend status
DEBUG: pid 25176: pool_ssl: SSL requested but SSL support is not available
DEBUG: pid 25176: s_do_auth: auth kind: 0
DEBUG: pid 25176: s_do_auth: backend key data received
DEBUG: pid 25176: s_do_auth: transaction state: I
DEBUG: pid 24938: starting health checking
DEBUG: pid 24938: health check: clearing alarm
DEBUG: pid 24938: health_check: 0 th DB node status: 3
DEBUG: pid 24938: health_check: 1 th DB node status: 2
DEBUG: pid 24938: pool_ssl: SSL requested but SSL support is not available
DEBUG: pid 24938: s_do_auth: auth kind: 0
DEBUG: pid 24938: s_do_auth: backend key data received
DEBUG: pid 24938: s_do_auth: transaction state: I
DEBUG: pid 24938: health check: clearing alarm
DEBUG: pid 24938: health check: clearing alarm
DEBUG: pid 25172: I am 25172 accept fd 6
LOG: pid 25172: connection received: host=[local]
DEBUG: pid 25172: read_startup_packet: application_name: psql.bin
DEBUG: pid 25172: Protocol Major: 3 Minor: 0 database: postgres user: postgres
DEBUG: pid 25172: new_connection: connecting 0 backend
DEBUG: pid 25172: new_connection: skipping slot 0 because backend_status = 3
DEBUG: pid 25172: new_connection: connecting 1 backend
DEBUG: pid 25172: pool_ssl: SSL requested but SSL support is not available
DEBUG: pid 25172: pool_read_message_length: slot: 1 length: 8
DEBUG: pid 25172: pool_do_auth: auth kind:0
DEBUG: pid 25172: pool_read_message_length2: master slot: 1 length: 30
DEBUG: pid 25172: 1 th backend: name: application_name value: psql.bin
...
DEBUG: pid 25172: pool_read_message_length: slot: 1 length: 12
DEBUG: pid 25172: pool_do_auth: cp->info[i]:0x7f631d475088 pid:11737
DEBUG: pid 25172: pool_send_auth_ok: send pid 11737 to frontend
ОтветитьУдалить
Ответы
Unknown9 октября 2013 г. в 13:33
хм, ну почему-то соединение от нового мастера рвется в момент отдачи ответа пгпулу
"pool_flush_it: write failed to frontend. reason: Broken pipe"
посмотрите, а что в логах самого посгреса происходит в этот момент (с дебагом)? подобная реакция на все запросы после файловера или только первый? а если этот же эксперимент провести, поменяв местами ноды (т.е. чтобы прошел файловер и новый мастер был нода 0)?
ОтветитьУдалить
Ответы
моша9 октября 2013 г. в 16:57
реакция на все запросы,после файловера. попробовала ноды прописать наоборот-та же шляпа...
и еще: а может это из-за того,что я примонтировала отдельную папку для записи логов постгреса, а когда мастер отключается,то и эта папка тоже становится недоступной, и логи начинают писаться по умолчанию в pg_xlog. как быть?
ОтветитьУдалить
Ответы
моша11 октября 2013 г. в 11:49
я на мастере создаю папку расширяю ее и подключаю как nfs-сервер-туда пишутся логи,а на слейве монтирую папку мастера через nfs-клиент и там все логи проявляютя. в postgresql.conf: archive_command = ’ cp %p /path_to/archive/%f ’но вот похоже когда мастер вырубается слейв не успевает дописать все логи(((
а Ваша команда у меня че-то не срабатывает: обычный rsync,где прописываются пути работает,т.е. ключи и доступ все настроены, а когда пишу в кофиге,то логи просто пишутся в свою папку xlog и файловер опять висит!
и не подскажите еще:pcp_recovery пишет,что:"error while loading shared libraries:libpcp.so.0 cannot open shared object file:no file or directory".эта библиотека у меня есть на всех машинах, но ее как то надо открыть или где-то прописать?(в /etc/ld.so.conf уже прописан)
ОтветитьУдалить
Ответы
моша16 октября 2013 г. в 14:44
добрый день! у меня наконец-то заработал файловер!!!!!!!!!! я нашла ошибку-в конфиге постгреса стояла настройка для синхронной репликации, а не для асинхронной (было:synchronous_standby_names='*').
Я хотела у Вас уточнить насчет recovery:
-он поднимает только слейв,а для восстановления бывшего мастера нужна полная остановка пгпула?
-pgpool_remote_start надо прописывать в конфиге или он так запускается?
-strace пишет,что не находит:libresolve,libcrypt,libm,libc,libpcp,но они все есть только не в той директории где он ищет-делала ссылки все тоже самое.как то можно попробовать пересобрать библиотеку или еще что посоветуете...
ОтветитьУдалить
Ответы
моша23 октября 2013 г. в 10:32
здравствуйте! спасибо за помощь! вроде все наконец-то заработало!!!!!!!!!
дело было то ли в системе, то ли в пгпуле. я сначала ставила 3.3.1 версию, а потом 3.3.0 на новую систему сделала только ldconfig и все пошло!
и раз огромное спасибо-я бы без вас не разобралась!
ОтветитьУдалить
Ответы
моша28 ноября 2013 г. в 21:55
Здравствуйте,Юрий!При тестировании пгпула я столкнулась с такой проблемой:при выполнении запроса,например insert на 1000 записей,если отваливается один из бекендов, то в БД оказывается столько строк сколько успеет записаться.Пгпул при этом в логах ругается на то,
что у него отключился один из бекендов и дальше НЕ выполняет запрос(файловер срабатывает нормально).Этот запрос приходится запускать еще раз,тогда при отключенном слейве данные нормально пишутся, а потом и синхронизируются с мастером.(синхр репл-отключена)

Подскажите,пожалуйста, как избежать пропадания данных или это для пгпула нормально,что он разрывает текущие соединения (запросы) при падении одного из бекендов?..
ОтветитьУдалить
Ответы
моша9 декабря 2013 г. в 11:44
спасибо за помощь
ОтветитьУдалить
Ответы
Unknown13 октября 2014 г. в 18:05
здравствуйте! настроил я связку по Вашему примеру.. когда падает мастер, в логах вижу, что выполняется failover.sh запуском через execute.. и слейв становится мастером.. вот при обратном возвращении мастера(который нужно сделать слейвом через постгресовские функции..) как увидеть, отследить, что они запустились..видно ли это в логах пгпула??
ОтветитьУдалить
Ответы

Добавить комментарий

четверг, 12 сентября 2013 г.