update GCG codes

sherdencooper · sherdencooper · commit 99296be2c946 · 2024-04-06T06:05:21.000Z
diff --git a/.gitignore b/.gitignore
@@ -10,3 +10,4 @@ rome/
 representation-engineering/
 !Dataset/*.csv
 GCG/
+Draw/
diff --git a/Experiments/gcg_exp.py b/Experiments/gcg_exp.py
@@ -9,17 +9,18 @@
 if __name__ == "__main__":
     parser = argparse.ArgumentParser(description='GCG attack on harmful dataset')
     parser.add_argument('--index', type=int, default=0, help='The index of the question')
-    parser.add_argument('--model_path', type=str, default='google/gemma-2b-it',
+    parser.add_argument('--model_path', type=str, default='allenai/tulu-2-dpo-7b',
                         help='target model path')
-    parser.add_argument("--control_string_length", type=int, default=30)
-    parser.add_argument("--max_steps", type=int, default=1000)
-    parser.add_argument("--max_attack_steps", type=int, default=1000)
+    parser.add_argument("--control_string_length", type=int, default=20)
+    parser.add_argument("--max_attack_steps", type=int, default=500)
     parser.add_argument("--early_stop", type=bool, default=False)
-    parser.add_argument("--max_attack_attempts", type=int, default=20)
+    parser.add_argument("--max_steps", type=int, default=500)
+    parser.add_argument("--max_attack_attempts", type=int, default=1)
     parser.add_argument("--max_prompts_in_single_attack", type=int, default=1)
     parser.add_argument("--max_successful_prompt", type=int, default=1)
     parser.add_argument("--add_eos", action='store_true')
     parser.add_argument("--eos_num", type=int, default=10)
+    parser.add_argument("--run_index", type=int, default=0)
 
     args = parser.parse_args()
     gcg_attack(args)
diff --git a/LLM_MMR/Attack_GCG/gcg.py b/LLM_MMR/Attack_GCG/gcg.py
@@ -139,7 +139,7 @@ def __init__(self, args):
         self.chat_prompt = get_templates(args.model_path, 'chat')
         self.end_tokens = get_end_tokens(args.model_path)
         self.no_space = False
-        if self.args.add_eos and ('tulu' in self.args.model_path or 'mistral' in self.args.model_path or 'vicuna-7b-v1.3' in self.args.model_path):
+        if self.args.add_eos and ('tulu' in self.args.model_path or 'mistral' in self.args.model_path or 'vicuna-7b-v1.3' in self.args.model_path or 'gemma' in self.args.model_path ):
             self.no_space = True
         
     def init_adv_postfix(self, random=False):
@@ -252,6 +252,9 @@ def evaluate_generation(self, generation, target):
             em = 1
         else:
             em = 0
+            
+        if jailbroken==False or em==0:
+            return False
         
         question = self.args.question
         if self.args.add_eos:
@@ -260,7 +263,7 @@ def evaluate_generation(self, generation, target):
             question = question.replace(eos_token, '')
         chatgpt_evaluate_result = chatgpt_evaluate(generation, question)
         
-        if jailbroken and em and chatgpt_evaluate_result:
+        if chatgpt_evaluate_result:
             return True
         else:
             return False
@@ -395,7 +398,7 @@ def run(self, target):
                 topk = 64
                 # use a much smaller bs and topk for gemma
                 # unknown reason, gemma will consume a lot of gpu memory for batch
-                if 'gemma' in self.args.model_path or 'tulu' in self.args.model_path:
+                if 'gemma' in self.args.model_path or 'tulu' in self.args.model_path or '13B' in self.args.model_path:
                     batch_size = 32
                     topk = 16
                 filter_cand=True
@@ -454,7 +457,6 @@ def run(self, target):
                         print("Current outputs:", generation)
                         
                         success = self.evaluate_generation(generation, target)
-                        
                         if success:
                             current_control_str = self.tokenizer.decode(tmp_input[control_slice.start: control_slice.stop])
                             # if the str start with space, remove the space
diff --git a/Scripts/check_and_run.sh b/Scripts/check_and_run.sh
@@ -0,0 +1,16 @@
+#!/bin/bash
+
+# Function to check if run_GCG.sh is still running
+is_running() {
+    pgrep -f run_GCG.sh > /dev/null
+    return $?
+}
+
+# Loop until run_GCG.sh is no longer running
+while is_running; do
+    echo "run_GCG.sh is still running. Checking again in 10 minutes..."
+    sleep 120  # Check every 2 minutes
+done
+
+echo "run_GCG.sh has finished. Starting run_GCG.sh..."
+./Scripts/run_GCG.sh
diff --git a/Scripts/run_GCG.sh b/Scripts/run_GCG.sh
@@ -1,9 +1,9 @@
 #!/bin/bash
 
 PYTHON_SCRIPT="./Experiments/gcg_exp.py"
-MODEL_PATH="meta-llama/Llama-2-7b-chat-hf"
-ADD_EOS=False
-RUN_INDEX=0
+MODEL_PATH="meta-llama/Llama-2-13b-chat-hf"
+ADD_EOS=True
+RUN_INDEX=2
 # Set the log path based on ADD_EOS
 if [ "$ADD_EOS" = "True" ]; then
     LOG_PATH="Logs/${MODEL_PATH}/GCG_eos-${RUN_INDEX}"
@@ -22,9 +22,9 @@ fi
 
 # Function to find the first available GPU
 find_free_gpu() {
-    for i in {0..7}; do
+    for i in {0..1}; do
         free_mem=$(nvidia-smi -i $i --query-gpu=memory.free --format=csv,noheader,nounits | awk '{print $1}')
-        if [ "$free_mem" -ge 80000 ]; then
+        if [ "$free_mem" -ge 60000 ]; then
             echo $i
             return
         fi
diff --git a/verify_results.py b/verify_results.py